본문으로 건너뛰기
실습하기

다른 AI 모델은 어떤 데이터 포맷을 사용할까?

지금까지 OpenAI 플랫폼 파인튜닝을 위한 데이터셋 형식을 살펴보았습니다.

그렇다면 다른 AI 모델들은 어떤 데이터 포맷을 사용할까요?

텍스트 처리 AI 모델도 다른 형식의 JSONL 데이터셋을 사용할 수 있으며, 이미지 처리 AI 모델과 같이 다른 유형의 입력을 받는 AI 모델도 고유의 데이터 포맷을 사용할 수 있습니다.


텍스트 처리 AI 모델

아래와 같이 사용자의 입력을 의미하는 prompt와 AI 모델이 생성한 출력을 의미하는 completion으로 구성된 JSONL 데이터셋을 사용할 수 있습니다.

jsonl 데이터 포맷
{"prompt": "프랑스의 수도가 어디인가요?", "completion": "프랑스의 수도는 파리입니다."}
{"prompt": "미국에서 가장 작은 주는 어디인가요?", "completion": "미국에서 가장 작은 주는 로드 아일랜드입니다."}

이미지 처리 AI 모델

이미지 처리 모델을 학습시키거나 파인튜닝 할 경우, 주로 이미지 파일의 경로와 해당 이미지의 라벨(Label, 또는 레이블)을 포함한 CSV(Comma-Separated Values) 파일을 사용할 수 있습니다.

CSV 데이터 포맷
imagePath,label
"/path/to/image1.jpg","cat"
"/path/to/image2.jpg","dog"

AI 모델에 따라 이미지 경로와 라벨을 JSON, XML 등 다른 형식의 파일을 사용할 수도 있습니다. 예를 들어 다른 이미지 처리 AI 모델은 아래와 같이 JSON 형식의 데이터셋을 사용할 수 있습니다.

JSON 데이터 포맷
{
"images": [
{"path": "/path/to/image1.jpg", "label": "cat"},
{"path": "/path/to/image2.jpg", "label": "dog"}
]
}

이처럼 AI 모델에 따라 다양한 데이터 포맷을 사용할 수 있으며, 데이터셋을 구성할 때 AI 모델의 요구사항에 맞춰 데이터를 구성해야 합니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!