데이터 크기를 맞추는 표준화
이번 수업에서는 표준화(Standardization)
를 활용하여 데이터 크기를 조정하는 방법을 배워보겠습니다.
표준화란?
표준화는 데이터의 평균을 0
, 표준편차(데이터의 퍼짐 정도)를 1
로 맞추어 변환하는 방법입니다.
평균(Mean)
은 데이터 값들의 중심 값을 의미하고,표준편차(Standard Deviation)
는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 값입니다.
표준화된 데이터는 평균을 중심으로 일정한 분포를 가지며, 이상치(outlier)
에 덜 민감한 특징이 있습니다.
이상치
는 데이터 분포에서 다른 값들과 현저히 차이나는 극단적인 값입니다. 예를 들어 키가 200cm인 학생이 있다면 이 값은 이상치에 해당합니다.
표준편차를 계산하는 방법
표준화를 위해서는 먼저 표준 편차
(standard deviation, )를 계산해야 합니다.
표준 편차는 다음 수식으로 계산됩니다.
- : 데이터 개수
- : 개별 데이터 값
- : 평균
예를 들어 키가 160, 170, 180인 데이터의 표준 편차는 다음과 같이 계산됩니다.
학생 키(cm)와 몸무게(kg) 표준화
표준화는 다음 공식으로 계산됩니다.
표준화 수식
새로운 값 = (원래 값 - 평균) / 표준편차