GroupBy와 집계 함수
pandas에서 가장 유용한 기능 중 하나는 데이터를 그룹화하고 각 그룹에 대해 계산을 수행하는 능력입니다.
이는 지역별 매출, 학급별 평균 점수, 상품별 매출 같은 범주별 패턴을 분석할 때 유용합니다.
groupby()
메서드는 하나 이상의 열 값을 기준으로 데이터를 여러 그룹으로 나눕니다.
그룹화한 뒤에는 다음과 같은 집계 함수를 적용할 수 있습니다.
sum()
: 그룹별 합계mean()
: 그룹별 평균count()
: 그룹의 행 수max()
: 그룹별 최댓값min()
: 그룹별 최솟값
GroupBy 예제
여러 도시(예: 서울, 부산, 대구)의 매출 거래 데이터가 있다고 가정해 보겠습니다.
이 데이터에 대해서는 다음과 같은 작업을 할 수 있습니다.
- 도시별 총매출 계산
- 매장별 평균 거래 금액 구하기
- 권역(지역)별 거래 건수 세기
Pandas를 사용하면 몇 줄의 코드로 쉽게 처리할 수 있습니다. 예를 들어 도시별 총매출을 계산하려면 다음과 같이 작성할 수 있습니다.