기술 통계와 추론 통계
SciPy의 scipy.stats
모듈은 기술 통계와 추론 통계를 모두 지원해 데이터를 분석하고 결론을 도출하는 데 필요한 도구를 제공합니다.
기술 통계: 데이터 요약과 설명
기술 통계는 데이터셋의 핵심 특징을 요약하고 설명하는 데 사용됩니다.
scipy.stats
에서 자주 쓰이는 주요 함수는 다음과 같습니다.
- 평균, 중앙값, 최빈값: 데이터의 중심 경향 측정
- 분산과 표준편차: 데이터의 흩어짐 정도 측정
- 왜도와 첨도: 분포의 형태 분석
- 분위수와 사분위수: 데이터 내 상대적 위치 계산
기술 통계 예시
from scipy import stats
data = [2, 4, 6, 8, 10]
mean = stats.tmean(data)
variance = stats.tvar(data)
std_dev = stats.tstd(data)
print("평균:", mean)
print("분산:", variance)
print("표준편차:", std_dev)
추론 통계: 표본 기반 결론 도출
추론 통계는 표본 데이터를 바탕으로 모집단에 대해 예측하거나 가설을 검정할 때 사용됩니다.
SciPy에서 자주 활용하는 추론 통계 기법은 다음과 같습니다.
- t-검정: 두 집단의 평균 비교
- 카이제곱 검정: 범주형 변수 간 관계 분석
- 분산분석(ANOVA): 세 집단 이상의 평균 비교
- 상관 분석: 변수 간 연관성 측정
추론 통계 예시
group1 = [1, 2, 3, 4, 5]
group2 = [2, 3, 4, 5, 6]
t_stat, p_value = stats.ttest_ind(group1, group2)
print("t-통계량:", t_stat)
print("p-값:", p_value)
핵심 포인트
- 기술 통계: 데이터셋을 요약하고 전반적인 특징을 이해하는 데 활용
- 추론 통계: 표본 데이터를 기반으로 모집단에 대한 결론 도출 및 의사결정 지원
기술 통계와 추론 통계는 함께 효과적인 데이터 분석의 기반을 형성합니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!