추론: 학습된 패턴으로 새로운 답을 구성하는 과정
AI에는 두 가지 단계가 있습니다. 하나는 학습(Training)이고, 다른 하나는 추론(Inference)입니다. 학습은 수많은 데이터를 보며 내부의 가중치를 조정하는 과정이고, 추론은 이미 학습이 끝난 모델이 새로운 입력에 대해 답을 만들어내는 과정입니다.
우리가 AI에게 질문을 던지는 순간부터 일어나는 모든 계산은 추론입니다. 모델은 더 이상 스스로를 수정하지 않습니다. 대신, 과거 학습에서 형성된 가중치 행렬을 이용해 가장 그럴듯한 출력을 계산합니다.
추론은 어떻게 진행되나요?
사용자에게는 "입력 → 출력"처럼 보이지만, 내부에서는 매우 빠른 계산이 반복됩니다. 텍스트, 이미지, 영상 모두 기본 구조는 비슷합니다. 현재 상태를 바탕으로 "다음 상태"를 계산하고, 그 결과를 다시 입력에 포함시켜 이어가는 방식입니다.
추론 과정은 크게 네 단계로 정리할 수 있습니다.
- 입력을 숫자 형태로 변환합니다. 텍스트는 토큰으로 나뉘고, 이미지나 영상 프롬프트도 결국 숫자 배열로 표현됩니다.
- 모델은 입력 전체를 한 번에 보며 문맥을 계산합 니다. 어떤 조건이 중요한지, 어떤 관계가 있는지를 정리합니다.
- 다음에 올 후보들의 확률을 계산합니다. 텍스트라면 다음 토큰, 이미지라면 다음 단계의 픽셀 상태, 영상이라면 다음 프레임의 상태가 후보가 됩니다.
- 하나를 선택해 결과에 반영하고, 그 결과를 다시 포함해 같은 과정을 반복합니다.
이러한 과정이 텍스트에서는 토큰을 하나씩 이어 붙이는 방식으로, 이미지는 전체를 점진적으로 다듬는 방식으로, 영상은 시간적으로 연결된 프레임을 만들어가는 방식으로 각각 구현됩니다.

텍스트에서는 어떤 식으로 추론이 이루어질까요?
생성형 AI 모델은 답변 문장을 한 번에 완성하지 않습니다. 내부적으로는 토큰을 하나씩 예측해 이어 붙이는 방식으로 문장을 구성합니다.
예를 들어 다음과 같은 질문이 입력되었다고 하겠습니다.
왜 토큰이 중요한지 설명해줘
모델은 이 문장을 먼저 토큰 단위로 분리하고, 각 토큰을 숫자 벡터로 변환합니다. 이후 입력 전체를 한 번에 계산하여 문맥을 형성합니다. 이 과정에서 모델은 정의, 이유, 예시, 정리와 같은 일반적인 설명 구조를 확률적으로 구성합니다. 이는 특정 규칙을 의식적으로 적용하는 것이 아니라, 학습 데이터에서 자주 등장한 설명 패턴이 반영된 결과입니다.
그 다음 단계에서 모델은 다음에 올 토큰 후보들의 확률을 계산합니다. 여러 후보 중에서 현재 문맥에 가장 자연스러운 토큰을 선택하고, 이를 출력에 추가합니다. 이후 방금 선택한 토큰을 다시 입력에 포함시켜 같은 과정을 반복합니다. 이 반복이 문장이 완성될 때까지 이어집니다.
이러한 구조 때문에 같은 질문이라도 답변이 완전히 동일하지 않을 수 있습니다. 매 단계마다 여러 후보가 존재하고, 선택 방식에 따라 표현이 달라질 수 있기 때문입니다. 창의적 글쓰기에서는 이러한 다양성이 장점이 되고, 정확성이 중요한 업무에서는 선택 범위를 좁혀 안정성을 높이는 방식이 사용됩니다.