교차 검증이란?
교차 검증
은 데이터셋을 여러 부분(폴드)으로 나누고 다양한 조합으로 학습/평가를 수행하여 모델 성능을 추정하는 기법입니다.
예를 들어, k-폴드 교차 검증
은 다음과 같이 진행합니다.
- 데이터를 k개의 폴드로 나눕니다.
- 각 폴드에 대해:
- k-1개의 폴드로 모델을 학습합니다.
- 남은 1개의 폴드로 모델을 평가합니다.
- 각 반복의 결과를 평균 내어 더 신뢰할 수 있는 성능 추정치를 얻습니다.
흔한 교차 검증 종류
K-폴드 교차 검증
: 가장 일반적이며 데이터를 k개의 동일한 크기의 폴드로 나눕니다.층화 K-폴드
: 각 폴드에서 클래스 비율을 유지합니다(분류 문제에서 중요).LOO(Leave-One-Out)
: 각 관측치를 하나씩 테스트로 사용합니다.ShuffleSplit
: 복원 추출로 임의 분할을 수행합니다.