AI를 조련하기 위한 준비물, 데이터셋(Dataset)

데이터셋(Dataset)은 AI 모델 학습 및 검증 등 특정한 목적을 위해 수집 및 정리된 데이터의 모음을 뜻합니다.

이전 수업에서 만든 파인튜닝을 위한 JSONL 파일도 데이터셋의 한 형태로 볼 수 있습니다.

데이터셋에 어떤 데이터를 담을까요?

데이터셋에는 표, 이미지, 텍스트, 시계열 데이터 등 다양한 형태의 데이터를 담을 수 있습니다.

표형 데이터 (Tabular Data): 행과 열로 구성된 테이블 형식의 데이터입니다. CSV, Excel, SQL 테이블 등이 여기에 해당합니다.
이미지 데이터 (Image Data): PNG, JPG와 같은 이미지 파일들의 집합입니다. 주로 컴퓨터 비전에 활용됩니다.
텍스트 데이터 (Text Data): 문서, 문장, 단어 등 텍스트 형태의 데이터입니다. 자연어 처리(NLP)에 많이 사용됩니다.
시계열 데이터 (Time Series Data): 시간의 흐름에 따라 수집된 데이터로, 주식 시장 데이터, 시간에 따른 온도 데이터 등이 여기에 포함됩니다.

대부분의 데이터셋은 아래와 같이 세 부분으로 구성되어 있습니다.

특징 (Feature): AI 모델에 입력해 학습의 대상이 되는 데이터를 뜻합니다. 챗봇 모델에서는 사용자의 '질문'이, 이미지 분류 모델에서는 '사진'이 특징이 될 수 있습니다.
라벨 (Label, 또는 레이블): 데이터셋의 정답 또는 결과를 나타냅니다. 만약 사진에 고양이가 있다면, 그 사진의 라벨은 '고양이'가 됩니다.
메타데이터 (Metadata): 데이터셋의 설명서 같은 것입니다. 데이터의 출처가 어디인지, 언제 만들어졌는지와 같은 추가 정보를 제공합니다.

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!