기술 통계와 값 빈도
DataFrame을 정제하고 준비했다면, 다음 단계는 데이터의 분포와 요약을 파악하는 것입니다.
Pandas는 통계 개요를 손쉽게 만들어 주는 메서드를 제공하며, 이를 통해 패턴, 오류, 인사이트를 한눈에 파악할 수 있습니다.
기술 통계 메서드
.describe()
메서드를 사용하면 모든 숫자형 열에 대한 빠른 통계 요약을 얻을 수 있습니다.
- 결측이 아닌 값의 개수
- 평균과 표준편차
- 최솟값과 최댓값
- 25%, 50%, 75% 분위수
이 메서드는 초기 데이터 프로파일링을 위한 기본 도구입니다.
value_counts()
로 범주형 분석
숫자가 아닌(범주형) 열을 요약하려면 .value_counts()
메서드를 사용할 수 있습니다.
이 메서드는 각 열에서 고유값별 빈도(개수)를 반환합니다.
value_counts() 메서드 사용 예제
df = pd.DataFrame({
"Category": ["A", "A", "B", "B", "C", "C"]
})
df["Category"].value_counts()
# 출력:
# B 2
# A 2
# C 2
자주 쓰는 추가 메서드
메서드 | 용도 |
---|---|
mean() | 평균값 |
median() | 중앙값 |
std() | 표준편차 |
min() / max() | 최솟값과 최댓값 |
sum() | 열의 총합 |
count() | 결측이 아닌 항목 수 |
이 메서드들은 열 단위로도, DataFrame 전체에 대해서도 적용할 수 있습니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!