본문으로 건너뛰기
실습하기

Pandas로 데이터 요약 통계 계산하기

Pandas를 활용하면 데이터프레임의 요약 통계를 계산하거나, 데이터를 그룹화하고 집계하는 등 다양한 데이터 처리 작업을 수행할 수 있습니다.

데이터 요약 통계 계산
import pandas as pd

data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', '포도'],
'매출': [1000, 2000, 1500, 3000]
})

# 요약 통계 계산
summary_stats = data_frame.describe()
print(summary_stats)

summary_stats = data_frame.describe() 코드는 데이터프레임의 요약 통계(평균, 표준편차, 최소값, 최대값 등)를 계산하여 데이터프레임으로 반환합니다.

print(summary_stats) 출력 결과
               매출
count 4.000000
mean 1875.000000
std 866.025404
min 1000.000000
25% 1375.000000
50% 1750.000000
75% 2250.000000
max 3000.000000

각 항목은 다음을 의미합니다.

  • count: 데이터의 개수

  • mean: 평균값

  • std: 표준편차

  • min: 최솟값

  • 25%, 50%, 75%: 백분위수(Percentile)

  • max: 최댓값


결측치 처리

결측치(Missing Value)는 데이터셋에서 값이 비어 있는 경우를 의미합니다.

Pandas에서는 결측치를 처리하기 위한 다양한 메서드를 제공합니다.

결측치 처리 예시
import pandas as pd

data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', None],
'매출': [1000, 2000, 1500, None]
})

# 결측치 확인
missing_values = data_frame.isnull()

# 결측치를 0으로 대체
data_frame_filled = data_frame.fillna(0)

print(data_frame_filled)
  • data_frame.isnull() 코드는 데이터프레임에서 결측치가 있는 위치를 True로 표시한 데이터프레임을 반환합니다.

  • data_frame.fillna(0) 코드는 결측치를 0으로 대체한 데이터프레임을 반환합니다.

  • data_frame.fillna(0) 대신 data_frame.dropna()를 사용하면 결측치가 포함된 행을 삭제할 수 있습니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!