파인튜닝 모델 평가하기

일반적으로 AI 모델을 평가할 때는 정확도, 정밀도, 재현율, F1 점수 등으로 모델이 얼마나 잘 작동하는지 평가합니다.

정확도 (Accuracy)

정확도는 모델이 예측한 것 중에서 얼마나 맞췄는지를 나타내는 비율입니다. 예를 들어, 100개의 예측 중 90개를 맞췄다면, 정확도는 90%입니다.

비유하자면, 정확도는 학생이 시험에서 몇 개의 문제를 맞혔는지를 보는 것입니다. 100문제 중 90문제를 맞혔다면 정확도는 90%입니다.

정밀도는 모델이 '참'이라고 예측한 것들 중에서 실제로 '참'인 것이 얼마나 많은지를 나타내는 비율입니다. 예를 들어, 모델이 10개를 '참'이라고 예측했는데 그 중 8개가 실제로 '참'이라면, 정밀도는 80%입니다.

비유하자면, 정밀도는 탐정이 용의자를 체포했을 때, 체포한 사람들 중 실제 범인이 얼마나 되는지를 보는 것입니다. 탐정이 10명을 체포했는데 그 중 8명이 범인이라면 정밀도는 80%입니다.

재현율은 실제로 '참'인 것들 중에서 모델이 얼마나 많이 '참'이라고 예측했는지를 나타내는 비율입니다. 예를 들어, 실제로 10개의 '참'이 있었는데 모델이 그 중 7개를 '참'이라고 예측했다면, 재현율은 70%입니다.

비유하자면, 재현율은 탐정이 모든 범인을 체포할 수 있는 능력을 보는 것입니다. 범인이 10명 있었는데 탐정이 7명을 체포했다면 재현율은 70%입니다.

F1 점수는 정밀도와 재현율의 조화 평균입니다. 정밀도와 재현율이 균형 있게 높아야 높은 점수를 받습니다. F1 점수는 정밀도와 재현율을 모두 고려하여 모델의 전반적인 성능을 평가하는데 유용합니다.

비유하자면, F1 점수는 탐정이 범인을 얼마나 정확하게 체포하는지(정밀도)와 얼마나 많이 체포하는지(재현율)를 모두 고려한 성적표입니다. 두 가지 모두 중요하므로, 어느 한 쪽이 너무 낮으면 전체 점수도 낮아집니다.

하지만 OpenAI에서는 파인튜닝이 완료된 모델에 대해 위 4가지 정보를 제공하지 않습니다.

대신, 훈련 손실(Training Loss)와 검증 손실(Validation Loss)을 제공합니다.

훈련 손실은 훈련 데이터에서 발생하는 평균 손실 값이며, 검증 손실은 모델이 검증 데이터에서 발생하는 평균 손실 값입니다.

이 손실 값들은 학습하는 동안 모델이 얼마나 잘 작동하는지를 나타내는 지표로, 손실 값이 낮을수록 모델이 더 잘 작동한다고 볼 수 있습니다.

따라서 OpenAI에서 제공하는 손실 그래프의 값이 계속 낮아진다면, 학습이 잘 진행된 것입니다.

training-loss

위 그래프는 Step(단계)에 따른 훈련 손실을 나타냅니다. 훈련 손실은 초반에 4에 가까울 정도로 높은 값에서 시작해 중간에 0.7853까지 개선되었고, 최종적으로 0.6409에 수렴했습니다.

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!