데이터를 그룹으로 나누는 분류 모델

머신러닝 모델의 목적은 입력된 데이터를 학습하여 특정한 결론을 도출하는 것입니다.

분류 모델은 입력 데이터를 분석하여 미리 정의된 카테고리 중 하나를 예측하는 모델로, 이 카테고리를 클래스라고 합니다.

예를 들어 분류 모델은 이미지에서 사람, 자동차, 강아지 등을 구별하거나, MRI 영상을 분석해 질병의 유무를 판별할 수 있습니다.

분류 모델의 특징

분류 모델은 결과를 이산 값(Discrete)으로 출력합니다.

이산 값은 정수, 문자열, 불리언처럼 유한한 선택지 중 하나로 표현되는 값을 의미합니다.

모델이 예측할 수 있는 클래스는 미리 정해져 있습니다.

예를 들어 0-9 손글씨 숫자 인식 모델은 입력값(숫자 이미지)이 0부터 9까지 중 어떤 숫자인지 분류합니다.

손 글씨 숫자 인식 모델

입력: 숫자 이미지 → 출력: 0, 1, 2, ..., 9 중 하나

분류 모델은 예측값을 단순한 정답으로 출력하는 것이 아니라 가장 가능성이 높은 클래스를 예측합니다.

예를 들어 이메일 스팸 필터는 입력된 이메일에 대해 다음과 같이 확률을 출력할 수 있습니다.

이메일 스팸 필터의 확률적 예측

입력: 이메일 내용 → 출력: 스팸(85%), 정상(15%)

분류 문제는 예측해야 하는 클래스의 개수에 따라 다음과 같이 나뉩니다.

두 개의 클래스 중 하나를 예측하는 경우입니다.

이메일 스팸 필터(스팸 vs 정상), 질병 진단(질병 있음 vs 없음) 등이 이진 분류 문제에 해당합니다.

세 개 이상의 클래스 중 하나를 예측하는 경우입니다.

손글씨 숫자 인식(0~9 중 하나), 꽃 종류 분류(장미, 튤립, 해바라기 중 하나) 등이 다중 클래스 분류 문제에 해당합니다.

분류 모델의 성능을 평가할 때는 정확도, 정밀도, 재현율, F1-score 등의 다양한 지표를 사용합니다.

다음 수업에서는 정확도에 대해 자세히 알아보겠습니다.

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!