본문으로 건너뛰기
실습하기

수업 핵심 내용 정리

AI 모델이란?

주어진 데이터를 분석하여 패턴과 규칙을 학습하고, 이를 바탕으로 새로운 데이터에 대한 예측 및 결정을 내리는 컴퓨터 프로그램


파인튜닝이란?

기존에 훈련된 AI 모델을 특정한 작업이나 목적에 맞게 재훈련하여 성능을 향상시키는 과정


AI가 학습한다는 것은?

많은 예시 데이터에서 특징을 추출해 패턴을 배우고, 이를 기반으로 새로운 데이터를 정확하게 처리하는 능력을 기르는 것

기술적 설명: 새로 입력된 데이터에 대한 출력을 결정하는 알고리즘(특정 작업을 수행하기 위한 단계적 절차)을 만드는 것입니다.


가중치와 편향의 역할

AI는 매개변수인 가중치와 편향을 조정해 데이터의 패턴을 학습하고, 새로운 데이터에 대한 예측을 수행

용어설명
가중치 (Weights)입력 데이터의 특정 특징이 얼마나 중요한지 결정
편향 (Biases)편향은 모델의 출력이 특정 방향으로 치우치지 않도록 조정하는 값
가중치와 편향 수식
y = w1x1 + w2x2 + ... + wnxn + b

JSON이란?

데이터를 저장하고 교환하기 위한 경량의 데이터 형식

JSON은 객체(Object)와 배열(Array)로 구성되며, 객체는 중괄호 { }로, 배열은 대괄호 [ ]로 감싸져 있음

JSON 예시
// 대괄호로 감싼 배열
[
// 중괄호로 감싼 객체
{
"이름": "김철수",
"수학": 85,
"영어": 90
},
{
"이름": "최영희",
"수학": 88,
"영어": 80
}
]

파인튜닝에 활용되는 JSONL 파일은 1줄에 JSON 형식의 데이터를 1개씩 저장하는 형식


데이터셋이란?

AI 모델 학습 및 검증 등 특정한 목적을 위해 수집 및 정리된 데이터의 모음

구성 요소설명
특징 (Features)모델이 학습하는 입력 데이터
라벨 (Labels)각 입력 데이터에 대한 정답
메타데이터데이터 출처, 생성 날짜 등 추가 정보를 제공하는 설명서

데이터셋 종류

구성 요소설명
학습 데이터셋 (Training Dataset)모델 학습에 사용되는 데이터셋
검증 데이터셋 (Validation Dataset)학습 중 모델 성능 평가에 사용되는 데이터셋
테스트 데이터셋 (Test Dataset)모델 성능 테스트에 사용되는 데이터셋
  • 학습 데이터셋: 전체 데이터의 약 60-80%

  • 검증 데이터셋: 전체 데이터의 약 10-20%

  • 테스트 데이터셋: 전체 데이터의 약 10-20%


손실 함수란?

모델이 예측한 값과 실제 값 사이의 차이를 측정하는 함수로, 모델의 예측 값과 실제 값(정답)을 입력으로 받아, 손실(오차)을 출력으로 반환

손실 함수의 값이 작을수록 모델의 예측이 실제 값과 가깝다는 의미하며, AI 학습의 목표는 손실 함수의 값이 작아지도록 하는 것

손실 함수의 기울기를 그래디언트(Gradient)라고 하며, 모델의 파라미터를 어떻게 조정해야 손실을 줄일 수 있는지 알려줌.


하이퍼파라미터

AI 모델을 훈련시킬 때 설정하는 매개변수 (설정값)

주요 하이퍼파라미터설명
학습률 (Learning Rate)모델 학습 속도 조절
배치 크기 (Batch Size)한 번에 학습하는 데이터 수
에폭 수 (Number of Epochs)전체 데이터셋을 반복 학습하는 횟수

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!