다른 AI 모델은 어떤 데이터 포맷을 사용할까?
지금까지 OpenAI 플랫폼 파인튜닝을 위한 데이터셋 형식을 살펴보았습니다.
그렇다면 다른 AI 모델들은 어떤 데이터 포맷을 사용할까요?
텍스트 처리 AI 모델도 다른 형식의 JSONL 데이터셋을 사용할 수 있으며, 이미지 처리 AI 모델과 같이 다른 유형의 입력을 받는 AI 모델도 고유의 데이터 포맷을 사용할 수 있습니다.
텍스트 처리 AI 모델
아래와 같이 사용자의 입력을 의미하는 prompt
와 AI 모델이 생성한 출력을 의미하는 completion
으로 구성된 JSONL 데이터셋을 사용할 수 있습니다.
jsonl 데이터 포맷
{"prompt": "프랑스의 수도가 어디인가요?", "completion": "프랑스의 수도는 파리입니다."}
{"prompt": "미국에서 가장 작은 주는 어디인가요?", "completion": "미국에서 가장 작은 주는 로드 아일랜드입니다."}
이미지 처리 AI 모델
이미지 처리 모델을 학습시키거나 파인튜닝 할 경우, 주로 이미지 파일의 경로와 해당 이미지의 라벨(Label, 또는 레이블)을 포함한 CSV
(Comma-Separated Values) 파일을 사용할 수 있습니다.
CSV 데이터 포맷
imagePath,label
"/path/to/image1.jpg","cat"
"/path/to/image2.jpg","dog"
AI 모델에 따라 이미지 경로와 라벨을 JSON, XML 등 다른 형식의 파일을 사용할 수도 있습니다. 예를 들어 다른 이미지 처리 AI 모델은 아래와 같이 JSON 형식의 데이터셋을 사용할 수 있습니다.
JSON 데이터 포맷
{
"images": [
{"path": "/path/to/image1.jpg", "label": "cat"},
{"path": "/path/to/image2.jpg", "label": "dog"}
]
}
이처럼 AI 모델에 따라 다양한 데이터 포맷을 사용할 수 있으며, 데이터셋을 구성할 때 AI 모델의 요구사항에 맞춰 데이터를 구성해야 합니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!