다른 AI 모델은 어떤 데이터 포맷을 사용할까?

지금까지 OpenAI 플랫폼 파인튜닝을 위한 데이터셋 형식을 살펴보았습니다.

그렇다면 다른 AI 모델들은 어떤 데이터 포맷을 사용할까요?

텍스트 처리 AI 모델도 다른 형식의 JSONL 데이터셋을 사용할 수 있으며, 이미지 처리 AI 모델과 같이 다른 유형의 입력을 받는 AI 모델도 고유의 데이터 포맷을 사용할 수 있습니다.

텍스트 처리 AI 모델

아래와 같이 사용자의 입력을 의미하는 prompt와 AI 모델이 생성한 출력을 의미하는 completion으로 구성된 JSONL 데이터셋을 사용할 수 있습니다.

jsonl 데이터 포맷
{"prompt": "프랑스의 수도가 어디인가요?", "completion": "프랑스의 수도는 파리입니다."}
{"prompt": "미국에서 가장 작은 주는 어디인가요?", "completion": "미국에서 가장 작은 주는 로드 아일랜드입니다."}

이미지 처리 AI 모델

이미지 처리 모델을 학습시키거나 파인튜닝 할 경우, 주로 이미지 파일의 경로와 해당 이미지의 라벨(Label, 또는 레이블)을 포함한 CSV(Comma-Separated Values) 파일을 사용할 수 있습니다.

CSV 데이터 포맷
imagePath,label
"/path/to/image1.jpg","cat"
"/path/to/image2.jpg","dog"

AI 모델에 따라 이미지 경로와 라벨을 JSON, XML 등 다른 형식의 파일을 사용할 수도 있습니다. 예를 들어 다른 이미지 처리 AI 모델은 아래와 같이 JSON 형식의 데이터셋을 사용할 수 있습니다.

JSON 데이터 포맷
{
  "images": [
    {"path": "/path/to/image1.jpg", "label": "cat"},
    {"path": "/path/to/image2.jpg", "label": "dog"}
  ]
}

이처럼 AI 모델에 따라 다양한 데이터 포맷을 사용할 수 있으며, 데이터셋을 구성할 때 AI 모델의 요구사항에 맞춰 데이터를 구성해야 합니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!

텍스트 처리 AI 모델​

이미지 처리 AI 모델​

다음 내용이 궁금하다면?

텍스트 처리 AI 모델

이미지 처리 AI 모델