본문으로 건너뛰기
실습하기

AI 학습에 사용되는 데이터셋 유형

인공지능(AI)을 학습시키기 위해서는 크게 학습 데이터셋, 검증 데이터셋, 테스트 데이터셋이라는 3가지 유형의 데이터셋이 필요합니다.


학습 데이터셋 (Training Dataset)

학습 데이터셋은 AI가 처음으로 학습하는 데이터입니다.

예를 들어 고양이와 개를 구분하는 AI를 만든다고 가정해 보겠습니다. 학습 데이터셋은 수많은 고양이와 개의 이미지를 포함하며, 각 이미지가 고양이인지 개인지를 명확하게 라벨링(Labeling, 표시)되어 있습니다. AI는 이 데이터를 바탕으로 고양이와 개의 특징을 학습하게 됩니다.

학습 데이터셋은 전체 데이터셋 중 가장 많은 비중을 차지합니다. AI의 성능은 학습 데이터셋의 양과 질에 크게 좌우되기 때문에, 학습 데이터셋을 어떻게 구성하느냐에 따라 AI의 성능이 달라집니다.


검증 데이터셋 (Validation Dataset)

검증 데이터셋은 학습 도중에 AI의 성능을 평가하는 데 사용됩니다. 마치 시험 공부를 하며 중간에 연습 문제를 풀어보는 것과 비슷합니다.

검증 데이터셋은 학습 데이터셋과는 다른 데이터로 구성되며, AI가 잘못 학습하고 있는 부분이 있는지, 과적합(Overfitting)이나 과소적합(Underfitting) 현상이 발생하지 않았는지 점검합니다.

  • 과적합: 모델이 학습 데이터에만 특화되어 새로운 데이터에 대응할 수 없는 상황

  • 과소적합: 모델이 학습 데이터를 충분히 학습하지 못해 새로운 데이터에 대응할 수 없는 상황

특히 과적합을 방지하여 AI 모델이 학습 데이터에만 특화되지 않고, 새로운 데이터에도 잘 대응할 수 있는지 점검해야 합니다.


테스트 데이터셋 (Test Dataset)

테스트 데이터셋은 AI가 실제 상황에서 얼마나 잘 작동하는지를 평가하는 데 사용됩니다. 시험 공부를 마친 후, 실제 시험을 보는 것과 같이 생각할 수 있습니다.

일반적으로 학습 데이터셋 및 검증 데이터셋과 전혀 다른 데이터로 구성해, AI가 한 번도 본 적이 없는 데이터에 대해 얼마나 잘 대응하는지를 평가합니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!