본문으로 건너뛰기
실습하기

최종 성능 평가를 위한 테스트 데이터셋

이번 수업에서는 머신러닝 모델의 최종 성능을 평가하는 테스트 데이터셋(Test Dataset)에 대해 알아보겠습니다.

테스트 데이터셋은 모델 학습이 완료된 후, 실제로 새로운 데이터에서도 올바르게 예측할 수 있는지를 평가합니다.

모델이 훈련 데이터와 검증 데이터를 사용해 학습과 조정을 마쳤다면, 테스트 데이터셋을 통해 최종적으로 일반화 성능을 확인합니다.

일반화는 모델이 훈련 데이터에만 너무 맞춰지지 않고, 새로운 데이터에 대해서도 잘 작동하는 능력을 의미합니다.


검증 데이터셋과 테스트 데이터셋의 차이점

검증 데이터셋과 테스트 데이터셋은 모두 모델의 성능을 평가하는 데 사용되지만, 목적과 사용 시기가 다음과 같이 다릅니다.

  • 검증 데이터셋 : 모델의 성능을 조정하고 최적의 모델을 선택하기 위해 사용됩니다.

  • 테스트 데이터셋 : 모델의 최종 성능을 평가하고, 실제 환경에서의 성능을 확인하기 위해 사용됩니다.


테스트 데이터셋의 역할

테스트 데이터셋은 학습 과정에서 훈련과 검증이 끝난 모델이 실제 환경에서도 잘 동작할지 확인하는 최종 평가 단계에서 한 번만 활용됩니다.

예를 들어, 개와 고양이를 분류하는 AI 모델의 테스트 데이터셋은 다음과 같이 구성할 수 있습니다.

  • 입력값 : 훈련과 검증에 사용되지 않은 완전히 새로운 개와 고양이 이미지

  • 정답(레이블) : 각 이미지가 개인지 고양이인지에 대한 정보

모델이 학습과 검증을 마친 후, 테스트 데이터셋을 이용해 실제 환경에서도 높은 정확도로 개와 고양이를 분류할 수 있는지를 평가합니다.

만약 테스트 데이터에서 성능이 낮다면, 학습 데이터의 품질을 개선하거나 모델 구조를 수정하는 등의 추가적인 조정이 필요할 수 있습니다.


좋은 테스트 데이터셋의 조건

테스트 데이터셋이 효과적으로 구성되기 위해서는 다음과 같은 사항에 유의해야 합니다.


1. 훈련 및 검증 데이터와 완전히 독립적인 데이터

테스트 데이터는 모델이 한 번도 본 적 없는 새로운 데이터여야 합니다.

만약 테스트 데이터가 훈련 데이터와 일부 겹친다면, 모델의 실제 성능을 과대평가할 가능성이 높아집니다.


2. 충분한 데이터양

테스트 데이터셋의 크기는 전체 데이터셋의 약 10-15% 정도가 적절합니다.

너무 적으면 모델의 일반화 성능을 정확하게 평가하기 어렵고, 너무 많으면 훈련 데이터가 부족해질 수 있습니다.


3. 실제 환경을 반영한 데이터

테스트 데이터셋은 실제 서비스 환경 에서 입력될 데이터와 유사해야 합니다.

예를 들어 개와 고양이 분류 모델을 만들 때, 일반적인 사진뿐만 아니라 흔들린 사진, 어두운 조명에서 촬영된 사진, 부분적으로 가려진 사진 등을 포함하는 것이 좋습니다.


테스트 데이터셋을 통해 모델이 최종적으로 얼마나 정확한지 평가한 후, 필요하다면 다시 학습 과정을 반복하며 성능을 개선해야 합니다.

다음 수업에서는 지금까지 배운 내용들을 점검하는 간단한 퀴즈를 풀어보겠습니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!