데이터분석/전처리

[판다스 데이터프레임] group by

씩씩한 IT블로그 2023. 4. 24. 19:36
반응형

groupby [] 사용

df.groupby(["a","b"])["a"].count() 

=> a를 기준으로 b의 도메인별 개수를 보여준다

 

(example 1)

df.groupby(['Survived','Pclass'])['Survived'].count()
Survived  Pclass
0         1          80
          2          97
          3         372
1         1         136
          2          87
          3         119
Name: Survived, dtype: int64

 

(example 2)

df.groupby(['Pclass','Survived'])['Survived'].count()
Pclass  Survived
1       0            80
        1           136
2       0            97
        1            87
3       0           372
        1           119
Name: Survived, dtype: int64

 

groupby agg 사용

df.groupby([col1,col2,col3]).agg({"col1":{조건1}, "col2":{조건2})

* 조건에 들어갈 수 있는 요소들

- first : 첫번째 값

- last : 마지막 값

- mean : 평균

- sum : 합

- ','.join : ','를 이용하여 이어붙이기

 

 

 

반응형