AI를 조련하기 위한 준비물, 데이터셋(Dataset)
데이터셋
(Dataset)은 AI 모델 학습 및 검증 등 특정한 목적을 위해 수집 및 정리된 데이터의 모음을 뜻합니다.
이전 수업에서 만든 파인튜닝을 위한 JSONL 파일도 데이터셋의 한 형태로 볼 수 있습니다.
데이터셋에 어떤 데이터를 담을까요?
데이터셋에는 표, 이미지, 텍스트, 시계열 데이터 등 다양한 형태의 데이터를 담을 수 있습니다.
-
표형 데이터 (Tabular Data): 행과 열로 구성된 테이블 형식의 데이터입니다. CSV, Excel, SQL 테이블 등이 여기에 해당합니다.
-
이미지 데이터 (Image Data): PNG, JPG와 같은 이미지 파일들의 집합입니다. 주로 컴퓨터 비전에 활용됩니다.
-
텍스트 데이터 (Text Data): 문서, 문장, 단어 등 텍스트 형태의 데이터입니다. 자연어 처리(NLP)에 많이 사용됩니다.
-
시계열 데이터 (Time Series Data): 시간의 흐름에 따라 수집된 데이터로, 주식 시장 데이터, 시간에 따른 온도 데이터 등이 여기에 포함됩니다.
일반적인 데이터셋의 구조는 어떻게 되나요?
대부분의 데이터셋은 아래와 같이 세 부분으로 구성되어 있습니다.
-
특징 (Feature): AI 모델에 입력해 학습의 대상이 되는 데이터를 뜻합니다. 챗봇 모델에서는 사용자의 '질문'이, 이미지 분류 모델에서는 '사진'이 특징이 될 수 있습니다.
-
라벨 (Label, 또는 레이블): 데이터셋의 정답 또는 결과를 나타냅니다. 만약 사진에 고양이가 있다면, 그 사진의 라벨은 '고양이'가 됩니다.
-
메타데이터 (Metadata): 데이터셋의 설명서 같은 것입니다. 데이터의 출처가 어디인지, 언제 만들어졌는지와 같은 추가 정보를 제공합니다.
특징 (Features) | 라벨 (Label) | 메타데이터 (Metadata) |
---|---|---|
이미지 파일 경로: /images/cat.jpg | 고양이 | 파일 크기: 3MB, 촬영 날짜: 2021-01-15, 출처: User Upload |
텍스트: "How are you feeling today?" | 기분이 어때요? | 길이: 24글자, 작성자: Admin, 생성 날짜: 2021-02-01 |
숫자 데이터: [2, 14, 15, 23] | 시퀀스의 합: 54 | 데이터 유형: 정수 배열, 입력 날짜: 2021-03-22 |
자주 사용되는 데이터셋
-
MNIST 데이터셋: 손글씨 숫자 이미지로 구성된 데이터셋으로, 컴퓨터 비전 분야에서 자주 사용됩니다.
-
Iris 데이터셋: 붓꽃의 품종을 예측하기 위해 사용되는 표형 데이터셋입니다.
-
IMDB 리뷰 데이터셋: 영화 리뷰 텍스트로 구성된 데이터셋으로, 감정 분석 등에 사용됩니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!