직선으로 데이터를 예측하는 선형 회귀
선형 회귀(Linear Regression)는 데이터를 이용해 직선(또는 다차원에서는 평면)을 만들어 패턴을 학습하고, 새로운 데이터를 입력하면 그에 맞는 숫자 값을 예측하는 방식입니다.
가장 단순한 형태인 단순 선형 회귀(Simple Linear Regression)는 다음과 같은 수식으로 표현됩니다.
여기서 각 변수의 의미는 다음과 같습니다.
-
: 입력 데이터 (예: 공부 시간)
-
: 예측하고자 하는 값 (예: 시험 점수)
-
: 기울기(Weight), 입력 값이 증가할 때 결과 값이 어떻게 변하는지 결정
-
: 절편(Bias), 그래프가 Y축과 만나는 지점
이 방정식을 이용하면, 특정 값이 주어졌을 때 값을 예측할 수 있습니다.
예를 들어 기본 점수가 10점인 시험에서 한 학생이 1시간 공부했을 떄 40점을 받고 2시간 공부했을 때 60점을 받았다면, $W$와 $B$ 값은 다음과 같이 계산됩니다.
예제 데이터
B = 10
W = (60 - 40) / (2 - 1) = 20
위와 같은 정보를 바탕으로 선형 회귀 모델은 Y = 20X + 10와 같이 학습됩니다.
이제 공부 시간이 3시간인 경우, 시험 점수는 다음과 같이 계산됩니다.
예제 데이터
Y = 20 * 3 + 10 = 70
회귀 모델에 따라 이 학생이 3시간 공부할 경우, 70점을 받을 것이라고 예측할 수 있습니다.
위 예시는 간편한 이해를 위해 2개의 데이터만 사용했지만, 실제 데이터는 수 많은 데이터를 이용해 선형 회귀 모델을 학습합니다.