Pandas로 데이터 요약 통계 계산하기

대규모 데이터의 평균, 표준편차 등을 한 번에 계산하려면 어떻게 해야 할까요?

각 항목별로 일일이 함수를 정의하고 계산하는 것은 매우 번거로운 작업입니다.

하지만 데이터프레임의 describe() 메서드를 사용하면 데이터의 개수, 평균, 표준편차, 최솟값, 최댓값 등을 포함한 요약 통계를 한 번에 계산할 수 있습니다.

데이터 요약 통계 계산
import pandas as pd

data_frame = pd.DataFrame({
    '품목': ['사과', '바나나', '딸기', '포도'],
    '매출': [1000, 2000, 1500, 3000]
})

# 요약 통계 계산
summary_stats = data_frame.describe()
print(summary_stats)

data_frame.describe() 코드는 데이터프레임의 요약 통계(평균, 표준편차, 최소값, 최대값 등)를 데이터프레임으로 반환합니다.

describe 메서드 출력 결과
               매출
count     4.000000
mean   1875.000000
std     866.025404
min    1000.000000
25%    1375.000000
50%    1750.000000
75%    2250.000000
max    3000.000000

각 항목이 의미하는 바는 다음과 같습니다.

count: 데이터의 개수
mean: 평균값
std: 표준편차
min: 최솟값
25%, 50%, 75%: 백분위수(Percentile)
max: 최댓값

결측치 처리

결측치(Missing Value)는 데이터셋에서 값이 비어 있는 경우를 의미합니다.

Pandas에서는 결측치를 처리하기 위한 다양한 메서드를 제공합니다.

결측치 처리 예시
import pandas as pd

data_frame = pd.DataFrame({
    '품목': ['사과', '바나나', '딸기', None],
    '매출': [1000, 2000, 1500, None]
})

# 결측치 확인
missing_values = data_frame.isnull()

# 결측치를 0으로 대체
data_frame_filled = data_frame.fillna(0)

print(data_frame_filled)

결측치 대체 결과
    품목      매출
0   사과  1000.0
1  바나나  2000.0
2   딸기  1500.0
3    0     0.0

코드 설명

data_frame.isnull() 코드는 데이터프레임에서 결측치가 있는 위치를 True로 표시한 데이터프레임을 반환합니다.
data_frame.fillna(0) 코드는 결측치를 0으로 대체한 데이터프레임을 반환합니다.
data_frame.fillna(0) 대신 data_frame.dropna()를 사용하면 결측치가 포함된 행을 삭제할 수 있습니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!

결측치 처리​

코드 설명​

다음 내용이 궁금하다면?

결측치 처리

코드 설명