AI 학습에 사용되는 데이터셋 유형
인공지능(AI)을 학습시키기 위해서는 크게 학습 데이터셋
, 검증 데이터셋
, 테스트 데이터셋
이라는 3가지 유형의 데이터셋이 필요합니다.
학습 데이터셋 (Training Dataset)
학습 데이터셋은 AI가 처음으로 학습하는 데이터입니다. 마치 사람이 새로운 지식을 배우기 위해 교과서를 읽고 예제 문제를 푸는 과정과 비슷합니다.
예를 들어, 고양이와 개를 구분하는 AI를 만든다고 가정해 보겠습니다. 학습 데이터셋은 수많은 고양이와 개의 이미지를 포함하며, 각 이미지가 고양이인지 개인지를 명확하게 라벨링(표시)되어 있습니다. AI는 이 데이터를 바탕으로 고양이와 개의 특징을 학습하게 됩니다.
전체 데이터셋 중 가장 많은 데이터를 포함하고 있으며, 다양한 상황을 포함하도록 구성합니다.
검증 데이터셋 (Validation Dataset)
검증 데이터셋은 학습 도중에 AI의 성능을 평가하는 데 사용됩니다. 사람이 시험 공부를 할 때, 중간에 연습 문제를 풀어보는 것과 비슷합니다.
검증 데이터셋은 학습 데이터셋과는 다른 데이터로 구성되며, AI가 잘못 학습하고 있는 부분이 있는지, 과적합
(Overfitting)이나 과소적합
(Underfitting) 현상이 발생하지 않았는지 점검합니다.
-
과적합: 모델이 학습 데이터에만 특화되어 새로운 데이터에 대응할 수 없는 상황
-
과소적합: 모델이 학습 데이터를 충분히 학습하지 못해 새로운 데이터에 대응할 수 없는 상황
특히 과적합을 방지하여 AI 모델이 학습 데이터에만 특화되지 않고, 새로운 데이터에도 잘 대응할 수 있는지 점검해야 합니다.
테스트 데이터셋 (Test Dataset)
테스트 데이터셋은 AI가 실제 상황에서 얼마나 잘 작동하는지를 평가하는 데 사용됩니다. 마치 시험 공부를 마친 후 실제 시험을 보는 것과 비슷합니다.
일반적으로 학습 데이터셋 및 검증 데이터셋과 전혀 다른 데이터로 구성해, AI가 한 번도 본 적이 없는 데이터에 대해 얼마나 잘 대응하는지를 평가합니다.
실습
오른쪽 실습 화면에서 학습 데이터를 만들어볼 수 있습니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!