AI 학습에 사용되는 데이터셋 유형
인공지능(AI)을 학습시키기 위해서는 크게 학습 데이터셋
, 검증 데이터셋
, 테스트 데이터셋
이라는 3가지 유형의 데이터셋이 필요합니다.
학습 데이터셋 (Training Dataset)
학습 데이터셋은 AI가 처음으로 학습하는 데이터입니다.
예를 들어 고양이와 개를 구분하는 AI를 만든다고 가정해 보겠습니다. 학습 데이터셋은 수많은 고양이와 개의 이미지를 포함하며, 각 이미지가 고양이인지 개인지를 명확하게 라벨링(Labeling, 표시)
되어 있습니다. AI는 이 데이터를 바탕으로 고양이와 개의 특징을 학습하게 됩니다.
학습 데이터셋은 전체 데이터셋 중 가장 많은 비중을 차지합니다. AI의 성능은 학습 데이터셋의 양과 질에 크게 좌우되기 때문에, 학습 데이터셋을 어떻게 구성하느냐에 따라 AI의 성능이 달라집니다.