본문으로 건너뛰기
실습하기

AI를 조련하기 위한 준비물, 데이터셋(Dataset)

데이터셋(Dataset)은 AI 모델 학습 및 검증 등 특정한 목적을 위해 수집 및 정리된 데이터의 모음을 뜻합니다.

이전 수업에서 만든 파인튜닝을 위한 JSONL 파일도 데이터셋의 한 형태로 볼 수 있습니다.


데이터셋에 어떤 데이터를 담을까요?

데이터셋에는 표, 이미지, 텍스트, 시계열 데이터 등 다양한 형태의 데이터를 담을 수 있습니다.

  • 표형 데이터 (Tabular Data): 행과 열로 구성된 테이블 형식의 데이터입니다. CSV, Excel, SQL 테이블 등이 여기에 해당합니다.

  • 이미지 데이터 (Image Data): PNG, JPG와 같은 이미지 파일들의 집합입니다. 주로 컴퓨터 비전에 활용됩니다.

  • 텍스트 데이터 (Text Data): 문서, 문장, 단어 등 텍스트 형태의 데이터입니다. 자연어 처리(NLP)에 많이 사용됩니다.

  • 시계열 데이터 (Time Series Data): 시간의 흐름에 따라 수집된 데이터로, 주식 시장 데이터, 시간에 따른 온도 데이터 등이 여기에 포함됩니다.


일반적인 데이터셋의 구조는 어떻게 되나요?

대부분의 데이터셋은 아래와 같이 세 부분으로 구성되어 있습니다.

  • 특징 (Feature): AI 모델에 입력해 학습의 대상이 되는 데이터를 뜻합니다. 챗봇 모델에서는 사용자의 '질문'이, 이미지 분류 모델에서는 '사진'이 특징이 될 수 있습니다.

  • 라벨 (Label, 또는 레이블): 데이터셋의 정답 또는 결과를 나타냅니다. 만약 사진에 고양이가 있다면, 그 사진의 라벨은 '고양이'가 됩니다.

  • 메타데이터 (Metadata): 데이터셋의 설명서 같은 것입니다. 데이터의 출처가 어디인지, 언제 만들어졌는지와 같은 추가 정보를 제공합니다.


특징 (Features)라벨 (Label)메타데이터 (Metadata)
이미지 파일 경로: /images/cat.jpg고양이파일 크기: 3MB, 촬영 날짜: 2021-01-15, 출처: User Upload
텍스트: "How are you feeling today?"기분이 어때요?길이: 24글자, 작성자: Admin, 생성 날짜: 2021-02-01
숫자 데이터: [2, 14, 15, 23]시퀀스의 합: 54데이터 유형: 정수 배열, 입력 날짜: 2021-03-22

자주 사용되는 데이터셋

  • MNIST 데이터셋: 손글씨 숫자 이미지로 구성된 데이터셋으로, 컴퓨터 비전 분야에서 자주 사용됩니다.

  • Iris 데이터셋: 붓꽃의 품종을 예측하기 위해 사용되는 표형 데이터셋입니다.

  • IMDB 리뷰 데이터셋: 영화 리뷰 텍스트로 구성된 데이터셋으로, 감정 분석 등에 사용됩니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!