기술 통계와 값 빈도
데이터를 정제하고 준비했다면, 이제는 데이터의 분포와 요약 통계를 파악하는 단계로 넘어가야 합니다.
이 과정을 통해 패턴을 발견하고, 이상치나 오류를 확인하며, 초기 인사이트를 얻을 수 있습니다.
Pandas
는 이를 위해 직관적이고 강력한 통계 메서드를 제공합니다.
기술 통계 메서드
.describe()
메서드를 사용하면 숫자형 열 전체에 대한 핵심 통계 요약을 한 번에 확인할 수 있습니다.
-
count
→ 결측치가 아닌 값의 개수 -
mean
→ 평균값 -
std
→ 표준편차 -
min
/max
→ 최솟값과 최댓값 -
25%
,50%
,75%
→ 분위수(Quartiles), 데이터의 분포 파악에 유용
값 빈도 확인하기
데이터에서 카테고리별 값의 분포를 보고 싶다면 .value_counts()
메서드를 사용할 수 있습니다.
이 메서드는 각 열 에서 고유값별 빈도(개수)를 반환합니다.
value_counts() 메서드 사용 예제
df = pd.DataFrame({
"Category": ["A", "A", "B", "C", "C", "C"]
})
df["Category"].value_counts()
# 출력:
# C 3
# A 2
# B 1
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!