본문으로 건너뛰기
실습하기

기술 통계와 값 빈도

DataFrame을 정제하고 준비했다면, 다음 단계는 데이터의 분포와 요약을 파악하는 것입니다.

Pandas는 통계 개요를 손쉽게 만들어 주는 메서드를 제공하며, 이를 통해 패턴, 오류, 인사이트를 한눈에 파악할 수 있습니다.


기술 통계 메서드

.describe() 메서드를 사용하면 모든 숫자형 열에 대한 빠른 통계 요약을 얻을 수 있습니다.

  • 결측이 아닌 값의 개수
  • 평균과 표준편차
  • 최솟값과 최댓값
  • 25%, 50%, 75% 분위수

이 메서드는 초기 데이터 프로파일링을 위한 기본 도구입니다.


value_counts()로 범주형 분석

숫자가 아닌(범주형) 열을 요약하려면 .value_counts() 메서드를 사용할 수 있습니다.

이 메서드는 각 열에서 고유값별 빈도(개수)를 반환합니다.

value_counts() 메서드 사용 예제
df = pd.DataFrame({
"Category": ["A", "A", "B", "B", "C", "C"]
})

df["Category"].value_counts()

# 출력:
# B 2
# A 2
# C 2

자주 쓰는 추가 메서드

메서드용도
mean()평균값
median()중앙값
std()표준편차
min() / max()최솟값과 최댓값
sum()열의 총합
count()결측이 아닌 항목 수

이 메서드들은 열 단위로도, DataFrame 전체에 대해서도 적용할 수 있습니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!