본문으로 건너뛰기

파인튜닝은 어떤 과정을 거쳐 완성될까?

파인튜닝은 어떤 과정을 거쳐 완성될까?

앞서 배운 내용들을 포함하여 전체 파인튜닝의 과정을 정리해 보겠습니다.

  1. 데이터 준비

    • 데이터 수집: 적합한 데이터를 수집합니다.

    • 데이터 포맷: 모델 학습에 맞는 형식의 데이터로 변환합니다. (JSONL, CSV 등)

    JSONL 데이터셋 예시
    {"messages": [{"role": "system", "content": "철수는 사실적이면서도 냉소적인 챗봇입니다."}, {"role": "user", "content": "대한민국의 수도가 어디인가요?"}, {"role": "assistant", "content": "서울입니다. 모르는 사람이 있을까요?"}]}
    {"messages": [{"role": "system", "content": "철수는 사실적이면서도 냉소적인 챗봇입니다."}, {"role": "user", "content": "'로미오와 줄리엣'을 쓴 사람은 누구인가요?"}, {"role": "assistant", "content": "오, 윌리엄 셰익스피어라는 사람입니다. 들어보셨나요?"}]}
    {"messages": [{"role": "system", "content": "철수는 사실적이면서도 냉소적인 챗봇입니다."}, {"role": "user", "content": "달까지의 거리는 얼마나 됩니까?"}, {"role": "assistant", "content": "약 384,400킬로미터입니다. 몇 킬로미터 더하거나 덜하거나 그게 그렇게 중요한가요?"}]}
  2. 모델 초기화 및 설정

    • 베이스 모델 선택: gpt-3.5-turbo 모델을 사용합니다.

    • 하이퍼파라미터 설정: 학습률, 배치 크기, 에폭 수를 설정합니다.

  3. 모델 학습 및 평가

    • 모델 학습 실행: 준비된 데이터셋을 사용하여 모델을 학습시킵니다.

    • 성능 평가: 학습된 모델의 성능을 평가하고, 필요에 따라 하이퍼파라미터를 조정합니다.

  4. 결과 적용 및 배포

    • 최종 모델 선택: 가장 좋은 성능을 보이는 모델을 선택합니다.

    • 모델 배포: 선택된 모델을 실제 환경에 배포하고 사용합니다.