AI를 어떻게 훈련시킬지 결정하는 하이퍼파라미터

이번 수업에서는 이전 수업에서 배운 하이퍼파라미터에 대해 복습해 보겠습니다.

시험 준비를 위한 학습 계획을 세울 때 학습 시간과 휴식 시간, 공부 방법 등을 정하는 것은 성적에 큰 영향을 미칩니다.

마찬가지로 AI 모델을 훈련시킬 때도 하이퍼파라미터(Hyperparameters)를 설정하여 모델의 학습 방법을 결정합니다.

하이퍼파라미터는 AI 모델을 훈련시킬 때 설정하는 매개변수(Parameter, 시스템이 수행되는 방식이나 결과에 영향을 미치는 입력 값)로, 학습 전에 미리 설정해야 합니다.

적절한 하이퍼파라미터로 잘 훈련된 모델, 즉 학습이 잘 진행되어서 어떠한 문제에도 좋은 성적을 얻는 모델은 수렴(Convergence)되었다고 합니다.

반대로, 학습이 잘 되지 않아 성능이 떨어지는 모델은 발산(Divergence)되었다고 합니다.

지나치게 많은 학습량을 단기간에 공부하다 보면 오히려 혼란이 생겨 시험 성적이 나빠질 수 있는 것처럼, AI를 학습시킬 때도 최적화된 학습 전략이 필요합니다.

AI 학습 전략을 구성하는 주요 하이퍼파라미터는 다음과 같습니다.

학습률 (Learning Rate)

학습률은 각 반복마다 모델이 얼마나 크게 변화할 것인지 결정하는 값으로, 학생이 새로운 정보를 배우는 속도와 비슷합니다.

학생이 너무 빨리 배우려고 하면(높은 학습률) 정보를 제대로 이해하지 못할 수 있고, 너무 느리게 배우면(낮은 학습률) 학습이 느리고 비효율적일 수 있습니다.

마찬가지로 학습률이 너무 높으면 모델이 최적의 해를 넘어서거나 불안정해질 수 있고, 너무 낮으면 학습 속도가 느려집니다.

배치 크기는 모델이 한 번에 처리하는 데이터의 양을 결정하는 값으로, 학생이 한 번에 공부하는 양과 유사합니다.

한 번에 너무 많은 양을 공부하면(큰 배치 크기) 총 학습시간을 줄일 수 있지만 집중력이 떨어질 수 있고, 한 번에 너무 적은 양을 공부하면(작은 배치 크기) 총 학습 시간이 더 오래 걸릴 수 있습니다.

마찬가지로 큰 배치 크기는 학습 속도를 높일 수 있지만 컴퓨팅 자원 사용량이 많아지고, 작은 배치 크기는 컴퓨팅 자원을 적게 사용하지만 학습 시간이 오래 걸릴 수 있습니다.

에폭은 전체 데이터셋을 몇 번 반복해서 학습할 것인지를 결정합니다. 학생이 전체 교과서를 반복해서 공부하는 횟수와 유사합니다.

교과서를 여러 번 반복해서 공부하면(많은 에폭) 내용을 충분히 학습할 수 있지만 교과서 속 지식에 지나치게 편향될 수 있고, 적게 반복하면(적은 에폭) 충분히 내용을 학습하지 못할 수 있습니다.

마찬가지로 에폭 수가 너무 많으면 과적합(overfitting)이 발생할 수 있고, 너무 적으면 충분히 학습되지 않을 수 있습니다.

하이퍼파라미터는 모델의 학습 과정과 성능에 큰 영향을 미치기 때문에, 사람의 학습 방식처럼 신중하게 설정하고 조정해야 합니다.

다음 수업에서는 파인튜닝 프로세스를 모의로 진행해 보겠습니다.

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!