AI가 '학습'한다는 것은 어떤 의미일까?
인공지능을 학습시키는 것은 많은 예시 데이터에서 특징을 추출해 패턴
을 배우고, 이를 기반으로 새로운 데이터를 정확하게 처리하는 능력을 기르는 것입니다.
조금 기술적으로 설명하자면, AI를 학습시키는 것은 새로 입력된 데이터에 대한 출력을 결정하는 알고리즘(특정 작업을 수행하기 위한 단계적 절차)을 만드는 것입니다.
스펨 이메일을 분류하는 AI를 학습시키는 과정을 통해, AI 학습 과정을 조금 더 자세히 알아보겠습니다.
1. 데이터 수집 및 전처리
먼저, AI 모델이 배울 수 있도록 많은 이메일 데이터를 준비하고, 이 데이터를 AI 모델이 이해할 수 있는 형태로 변환합니다. 이러한 과정을 전처리(Preprocessing)라고 합니다.
예를 들어 입력된 데이터에서 남성을 1, 여성은 0으로 변환하거나, 특정 단어를 일정한 규칙을 가진 숫자로 변환하는 것이 전처리 작업에 포함됩니다.
또한 누락된 데이터
를 처리하거나, 중복된 데이터
를 제거하는 것도 중요한 전처리 작업입니다.
2. 패턴 분석 (학습 과정)
AI 모델은 데이터에서 특징을 추출하고, 이를 바탕으로 AI 모델의 목적에 맞는 패턴을 찾습니다.
-
데이터 입력: 이메일 텍스트를 모델(알고리즘)에 입력합니다.
-
패턴 인식: 모델은 이메일의 여러 특징(예: 특정 단어의 빈도, 발신자의 주소, 메일의 길이 등)을 분석합니다. 처음에는 이 특징들을 무작위로 조합해 보지만, 점차 어떤 특징이 스팸 이메일을 구분하는 데 중요한지 찾아내 학습합니다.
-
반복 학습: 이 과정을 수천, 수만 번 반복하면서 모델은 점점 더 정확하게 스팸 메일의 패턴을 인식하게 됩니다.
3. 학습된 정보 저장
학습한 패턴은 파일 형태로 저장됩니다. 저장되는 파일에 자주 사용되는 확장자는 .h5
나 .pkl
, .pb
등이 있습니다.
이 파일의 내부 구조는 수많은 숫자로 구성된 행렬(Matrix) 또는 벡터(Vector)입니다. 이 숫자들은 AI 모델이 각 특징을 얼마나 중요하게 생각하는지를 나타냅니다.