최종 성능 평가를 위한 테스트 데이터셋
이번 수업에서는 머신러닝 모델의 최종 성능을 평가하는 테스트 데이터셋
(Test Dataset)에 대해 알아보겠습니다.
테스트 데이터셋은 모델 학습이 완료된 후, 실제로 새로운 데이터에서도 올바르게 예측할 수 있는지를 평가합니다.
모델이 훈련 데이터와 검증 데이터를 사용해 학습과 조정을 마쳤다면, 테스트 데이터셋을 통해 최종적으로 일반화
성능을 확인합니다.
일반화
는 모델이 훈련 데이터에만 너무 맞춰지지 않고, 새로운 데이터에 대해서도 잘 작동하는 능력을 의미합니다.
검증 데이터셋과 테스트 데이터셋의 차이점
검증 데이터셋과 테스트 데이터셋은 모두 모델의 성능을 평가하는 데 사용되지만, 목적과 사용 시기가 다음과 같이 다릅니다.
-
검증 데이터셋 : 모델의 성능을 조정하고 최적의 모델을 선택하기 위해 사용됩니다.
-
테스트 데이터셋 : 모델의 최종 성능을 평가하고, 실제 환경에서의 성능을 확인하기 위해 사 용됩니다.
테스트 데이터셋의 역할
테스트 데이터셋은 학습 과정에서 훈련과 검증이 끝난 모델이 실제 환경에서도 잘 동작할지 확인하는 최종 평가 단계에서 한 번만 활용됩니다.
예를 들어, 개와 고양이를 분류하는 AI 모델의 테스트 데이터셋은 다음과 같이 구성할 수 있습니다.
-
입력값 : 훈련과 검증에 사용되지 않은 완전히 새로운 개와 고양이 이미지
-
정답(레이블) : 각 이미지가 개인지 고양이인지에 대한 정보
모델이 학습과 검증을 마친 후, 테스트 데이터셋을 이용해 실제 환경에서도 높은 정확도로 개와 고양이를 분류할 수 있는지를 평가합니다.
만약 테스트 데이터에서 성능이 낮다면, 학습 데이터의 품질을 개선하거나 모델 구조를 수정하는 등의 추가적인 조정이 필요할 수 있습니다.
좋은 테스트 데이터셋의 조건
테스트 데이터셋이 효과적으로 구성되기 위해서는 다음과 같은 사항에 유의해야 합니다.