AI를 조련하기 위한 준비물, 데이터셋(Dataset)
데이터셋
(Dataset)은 AI 모델 학습 및 검증 등 특정한 목적을 위해 수집 및 정리된 데이터의 모음을 뜻합니다.
이전 수업에서 만든 파인튜닝을 위한 JSONL 파일도 데이터셋의 한 형태로 볼 수 있습니다.
데이터셋에 어떤 데이터를 담을까요?
데이터셋에는 표, 이미지, 텍스트, 시계열 데이터 등 다양한 형태의 데이터를 담을 수 있습니다.
-
표형 데이터 (Tabular Data): 행과 열로 구성된 테이블 형식의 데이터입니다. CSV, Excel, SQL 테이블 등이 여기에 해당합니다.
-
이미지 데이터 (Image Data): PNG, JPG와 같은 이미지 파일들의 집합입니다. 주로 컴퓨터 비전에 활용됩니다.
-
텍스트 데이터 (Text Data): 문서, 문장, 단어 등 텍스트 형태의 데이터입니다. 자연어 처리(NLP)에 많이 사용됩니다.
-
시계열 데이터 (Time Series Data): 시간의 흐름에 따라 수집된 데이터로, 주식 시장 데이터, 시간에 따른 온도 데이터 등이 여기에 포함됩니다.