AI가 '학습'한다는 것은 어떤 의미일까?

인공지능을 학습시키는 것은 많은 예시 데이터에서 특징을 추출해 패턴을 배우고, 이를 기반으로 새로운 데이터를 정확하게 처리하는 능력을 기르는 것입니다.

조금 기술적으로 설명하자면, AI를 학습시키는 것은 새로 입력된 데이터에 대한 출력을 결정하는 알고리즘(특정 작업을 수행하기 위한 단계적 절차)을 만드는 것입니다.

스펨 이메일을 분류하는 AI를 학습시키는 과정을 통해, AI 학습 과정을 조금 더 자세히 알아보겠습니다.

1. 데이터 수집 및 전처리

먼저, AI 모델이 배울 수 있도록 많은 이메일 데이터를 준비하고, 이 데이터를 AI 모델이 이해할 수 있는 형태로 변환합니다. 이러한 과정을 전처리(Preprocessing)라고 합니다.

예를 들어 입력된 데이터에서 남성을 1, 여성은 0으로 변환하거나, 특정 단어를 일정한 규칙을 가진 숫자로 변환하는 것이 전처리 작업에 포함됩니다.

또한 누락된 데이터를 처리하거나, 중복된 데이터를 제거하는 것도 중요한 전처리 작업입니다.

2. 패턴 분석 (학습 과정)

AI 모델은 데이터에서 특징을 추출하고, 이를 바탕으로 AI 모델의 목적에 맞는 패턴을 찾습니다.

데이터 입력: 이메일 텍스트를 모델(알고리즘)에 입력합니다.
패턴 인식: 모델은 이메일의 여러 특징(예: 특정 단어의 빈도, 발신자의 주소, 메일의 길이 등)을 분석합니다. 처음에는 이 특징들을 무작위로 조합해 보지만, 점차 어떤 특징이 스팸 이메일을 구분하는 데 중요한지 찾아내 학습합니다.
반복 학습: 이 과정을 수천, 수만 번 반복하면서 모델은 점점 더 정확하게 스팸 메일의 패턴을 인식하게 됩니다.

3. 학습된 정보 저장

학습한 패턴은 파일 형태로 저장됩니다. 저장되는 파일에 자주 사용되는 확장자는 .h5나 .pkl, .pb 등이 있습니다.

이 파일의 내부 구조는 수많은 숫자로 구성된 행렬(Matrix) 또는 벡터(Vector)입니다. 이 숫자들은 AI 모델이 각 특징을 얼마나 중요하게 생각하는지를 나타냅니다.

주요 용어

가중치(Weights): 입력 데이터의 특정 특징이 얼마나 중요한지 결정합니다. 예를 들어 무료, 당첨, 클릭 같은 단어가 이메일에 포함될 때, 이러한 단어들에 높은 가중치를 부여하고 스팸으로 분류할 가능성을 높일 수 있습니다.
편향(Bias): 편향은 모델의 출력이 특정 방향으로 치우치지 않도록 조정하는 값으로, 신경망의 활성화 함수를 조절합니다. 예를 들어 이메일이 전반적으로 스팸일 가능성이 높다면, 편향 값에 이를 반영하여 모델이 더 쉽게 스팸 이메일을 식별할 수 있게 합니다. 즉, 특정 단어가 없어도, 모델이 스팸이라고 예측할 확률을 조정합니다.

가중치와 편향을 수식으로 설명하면 다음과 같습니다.

가중치와 편향 수식

y = w1x1 + w2x2 + ... + wnxn + b

여기서 y는 모델의 출력(최종 결과), w는 가중치, x는 입력 데이터, b는 편향을 나타냅니다.

편향 b는 입력값이 모두 0일 때도 뉴런이 활성화될 수 있게 도와줍니다. 즉, 결과값을 조정하여 뉴런이 활성화되는 기준을 조정합니다.

파일 형태로 저장된 가중치와 편향

가중치와 편향을 파일로 저장한 예시
* 가중치(Weights) 행렬:
[
    [0.2, -0.4, 0.6, 0.1],
    [-0.3, 0.8, -0.5, 0.2],
    [0.1, -0.2, 0.3, -0.6],
    [0.7, 0.1, -0.4, 0.5]
]

* 편향(Bias) 벡터:
[0.1, -0.2, 0.3, 0.4]

여기서 가중치 행렬은 네 개의 행과 네 개의 열을 가지고 있고, 각각의 가중치 요소는 모델이 학습한 특정 특징의 중요도를 나타냅니다.

편향 벡터는 각 행에 하나씩 대응하는 네 개의 편향 값을 포함하고 있으며, 모델이 예측을 할 때 추가적으로 더해지는 값입니다.

부호와 크기는 AI 모델이 각 특징을 어떻게 평가하는지를 보여줍니다. 양수(+)는 긍정적인 영향을, 음수(-)는 부정적인 영향을 의미할 수 있습니다.

4. 모델 활용

학습이 완료된 모델은 이제 새로운 이메일을 처리할 준비가 됩니다.

새로운 데이터 입력: 새로운 이메일을 모델에 입력합니다.
패턴 매칭: 모델은 저장된 가중치를 사용해 이메일의 특징을 분석하고, 스팸인지 아닌지 예측합니다.
결과 출력: 모델은 이메일이 스팸인지 정상 이메일인지 결과를 출력합니다.

1. 데이터 수집 및 전처리​

2. 패턴 분석 (학습 과정)​

3. 학습된 정보 저장​

주요 용어​

파일 형태로 저장된 가중치와 편향​

4. 모델 활용​