Pandas로 데이터 요약 통계 계산하기
대규모 데이터의 평균
, 표준편차
등을 한 번에 계산하려면 어떻게 해야 할까요?
각 항목별로 일일이 함수를 정의하고 계산하는 것은 매우 번거로운 작업입니다.
하지만 데이터프레임의 describe()
메서드를 사용하면 데이터의 개수, 평균, 표준편차, 최솟값, 최댓값 등을 포함한 요약 통계를 한 번에 계산할 수 있습니다.
데이터 요약 통계 계산
import pandas as pd
data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', '포도'],
'매출': [1000, 2000, 1500, 3000]
})
# 요약 통계 계산
summary_stats = data_frame.describe()
print(summary_stats)
data_frame.describe()
코드는 데이터프레임의 요약 통계(평균, 표준편차, 최소값, 최대값 등)를 데이터프레임으로 반환합니다.
describe 메서드 출력 결과
매출
count 4.000000
mean 1875.000000
std 866.025404
min 1000.000000
25% 1375.000000
50% 1750.000000
75% 2250.000000
max 3000.000000
각 항목이 의미하는 바는 다음과 같습니다.
-
count
: 데이터의 개수 -
mean
: 평균값 -
std
: 표준편차 -
min
: 최솟값 -
25%
,50%
,75%
: 백분위수(Percentile) -
max
: 최댓값
결측치 처리
결측치(Missing Value)
는 데이터셋에서 값이 비어 있는 경우를 의미합니다.
Pandas에서는 결측치를 처리하기 위한 다양한 메서드를 제공합니다.
결측치 처리 예시
import pandas as pd
data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', None],
'매출': [1000, 2000, 1500, None]
})
# 결측치 확인
missing_values = data_frame.isnull()
# 결측치를 0으로 대체
data_frame_filled = data_frame.fillna(0)
print(data_frame_filled)
결측치 대체 결과
품목 매출
0 사과 1000.0
1 바나나 2000.0
2 딸기 1500.0
3 0 0.0
코드 설명
-
data_frame.isnull()
코드는 데이터프레임에서 결측치가 있는 위치를 True로 표시한 데이터프레임을 반환합니다. -
data_frame.fillna(0)
코드는 결측치를 0으로 대체한 데이터프레임을 반환합니다. -
data_frame.fillna(0)
대신data_frame.dropna()
를 사용하면 결측치가 포함된 행을 삭제할 수 있습니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!