직선으로 데이터를 예측하는 선형 회귀
선형 회귀(Linear Regression)
는 데이터를 이용해 직선(또는 다차원에서는 평면)을 만들어 패턴을 학습하고, 새로운 데이터를 입력하면 그에 맞는 숫자 값을 예측하는 방식입니다.
가장 단순한 형태인 단순 선형 회귀(Simple Linear Regression)
는 다음과 같은 수식으로 표현됩니다.
여기서 각 변수의 의미는 다음과 같습니다.
-
: 입력 데이터 (예: 공부 시간)
-
: 예측하고자 하는 값 (예: 시험 점수)
-
: 기울기(Weight), 입력 값이 증가할 때 결과 값이 어떻게 변하는지 결정
-
: 절편(Bias), 그래프가 Y축과 만나는 지점
이 방정식을 이용하면, 특정 값이 주어졌을 때 값을 예측할 수 있습니다.
예를 들어 기본 점수가 10점인 시험에서 한 학생이 1시간 공부했을 떄 40점을 받고 2시간 공부했을 때 60점을 받았다면, $W$
와 $B$
값은 다음과 같이 계산됩니다.
예제 데이터
B = 10
W = (60 - 40) / (2 - 1) = 20
위와 같은 정보를 바탕으로 선형 회귀 모델은 Y = 20X + 10
와 같이 학습됩니다.
이제 공부 시간이 3시간인 경우, 시험 점수는 다음과 같이 계산됩니다.
예제 데이터
Y = 20 * 3 + 10 = 70
회귀 모델에 따라 이 학생이 3시간 공부할 경우, 70점을 받을 것이라고 예측할 수 있습니다.
위 예시는 간편한 이해를 위해 2개의 데이터만 사용했지만, 실제 데이터는 수 많은 데이터를 이용해 선형 회귀 모델을 학습합니다.