확률로 분류하는 로지스틱 회귀

로지스틱 회귀(Logistic Regression)는 선형 회귀와 달리, 숫자 값을 예측하는 것이 아닌 데이터를 특정 범주(클래스)로 분류하는 머신러닝 알고리즘입니다.

예를 들어 로지스틱 회귀를 사용하면 "이 이메일이 스팸인가요?"라는 질문에 대해 0(스팸 아님) 또는 1(스팸)과 같이 분류할 수 있습니다.

로지스틱 회귀는 단순히 0 또는 1만 출력하는 것이 아니라 이메일이 스팸일 확률을 계산한 후, 특정 기준을 넘으면 해당 클래스로 분류합니다.

로지스틱 회귀의 개념

로지스틱 회귀는 선형 회귀와 유사하게 입력 데이터에 대한 가중치( $W$ )와 절편( $B$ )을 학습하지만, 결과값이 0과 1 사이의 확률 값으로 나오도록 변환합니다.

이 변환을 위해 사용되는 함수가 시그모이드(Sigmoid) 함수입니다.

로지스틱 회귀는 선형 회귀의 결과값을 아래의 시그모이드 함수에 넣어 0과 1 사이의 확률 값으로 변환합니다.

아래 수식을 완벽히 이해하지 않아도 괜찮습니다. 큰 틀에서 로지스틱 회귀가 선형 회귀가 어떻게 구성되는지만 이해하면 됩니다.

\sigma(z) = \frac{1}{1 + e^{-z}}

여기서 $z$ 는 선형 회귀와 같은 방식으로 계산됩니다.

z = W X + B

결과적으로, 로지스틱 회귀의 최종 예측값은 다음과 같이 표현할 수 있습니다.

P(Y=1|X) = \frac{1}{1 + e^{-(WX + B)}}

이 값이 0과 1 사이의 확률 값으로 변환되며, 특정 임계값(일반적으로 0.5)을 기준으로 분류가 결정됩니다.

예측 결과 예시

입력 X = 이메일 내용
예측 P(Y=1|X) = 0.85 → 스팸일 확률 85%

로지스틱 회귀는 질병 예측, 신용카드 사기 탐지 등 실생활의 다양한 분류 문제에 활용됩니다.

다음 수업에서는 결정 트리에 대해 알아보겠습니다.

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!