본문으로 건너뛰기
실습하기

Pandas로 데이터 요약 통계 계산하기

대규모 데이터의 평균, 표준편차 등을 한 번에 계산하려면 어떻게 해야 할까요?

각 항목별로 일일이 함수를 정의하고 계산하는 것은 매우 번거로운 작업입니다.

하지만 데이터프레임의 describe() 메서드를 사용하면 데이터의 개수, 평균, 표준편차, 최솟값, 최댓값 등을 포함한 요약 통계를 한 번에 계산할 수 있습니다.

데이터 요약 통계 계산
import pandas as pd

data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', '포도'],
'매출': [1000, 2000, 1500, 3000]
})

# 요약 통계 계산
summary_stats = data_frame.describe()
print(summary_stats)

data_frame.describe() 코드는 데이터프레임의 요약 통계(평균, 표준편차, 최소값, 최대값 등)를 데이터프레임으로 반환합니다.

describe 메서드 출력 결과
               매출
count 4.000000
mean 1875.000000
std 866.025404
min 1000.000000
25% 1375.000000
50% 1750.000000
75% 2250.000000
max 3000.000000

각 항목이 의미하는 바는 다음과 같습니다.

  • count: 데이터의 개수

  • mean: 평균값

  • std: 표준편차

  • min: 최솟값

  • 25%, 50%, 75%: 백분위수(Percentile)

  • max: 최댓값


결측치 처리

결측치(Missing Value)는 데이터셋에서 값이 비어 있는 경우를 의미합니다.

Pandas에서는 결측치를 처리하기 위한 다양한 메서드를 제공합니다.

결측치 처리 예시
import pandas as pd

data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', None],
'매출': [1000, 2000, 1500, None]
})

# 결측치 확인
missing_values = data_frame.isnull()

# 결측치를 0으로 대체
data_frame_filled = data_frame.fillna(0)

print(data_frame_filled)
결측치 대체 결과
    품목      매출
0 사과 1000.0
1 바나나 2000.0
2 딸기 1500.0
3 0 0.0

코드 설명

  • data_frame.isnull() 코드는 데이터프레임에서 결측치가 있는 위치를 True로 표시한 데이터프레임을 반환합니다.

  • data_frame.fillna(0) 코드는 결측치를 0으로 대체한 데이터프레임을 반환합니다.

  • data_frame.fillna(0) 대신 data_frame.dropna()를 사용하면 결측치가 포함된 행을 삭제할 수 있습니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!