추론: 학습된 패턴으로 새로운 답을 구성하는 과정

AI에는 두 가지 단계가 있습니다. 하나는 학습(Training)이고, 다른 하나는 추론(Inference)입니다. 학습은 수많은 데이터를 보며 내부의 가중치를 조정하는 과정이고, 추론은 이미 학습이 끝난 모델이 새로운 입력에 대해 답을 만들어내는 과정입니다.

우리가 AI에게 질문을 던지는 순간부터 일어나는 모든 계산은 추론입니다. 모델은 더 이상 스스로를 수정하지 않습니다. 대신, 과거 학습에서 형성된 가중치 행렬을 이용해 가장 그럴듯한 출력을 계산합니다.

추론은 어떻게 진행되나요?

사용자에게는 "입력 → 출력"처럼 보이지만, 내부에서는 매우 빠른 계산이 반복됩니다. 텍스트, 이미지, 영상 모두 기본 구조는 비슷합니다. 현재 상태를 바탕으로 "다음 상태"를 계산하고, 그 결과를 다시 입력에 포함시켜 이어가는 방식입니다.

추론 과정은 크게 네 단계로 정리할 수 있습니다.

입력을 숫자 형태로 변환합니다. 텍스트는 토큰으로 나뉘고, 이미지나 영상 프롬프트도 결국 숫자 배열로 표현됩니다.
모델은 입력 전체를 한 번에 보며 문맥을 계산합니다. 어떤 조건이 중요한지, 어떤 관계가 있는지를 정리합니다.
다음에 올 후보들의 확률을 계산합니다. 텍스트라면 다음 토큰, 이미지라면 다음 단계의 픽셀 상태, 영상이라면 다음 프레임의 상태가 후보가 됩니다.
하나를 선택해 결과에 반영하고, 그 결과를 다시 포함해 같은 과정을 반복합니다.

이러한 과정이 텍스트에서는 토큰을 하나씩 이어 붙이는 방식으로, 이미지는 전체를 점진적으로 다듬는 방식으로, 영상은 시간적으로 연결된 프레임을 만들어가는 방식으로 각각 구현됩니다.

Inference

텍스트에서는 어떤 식으로 추론이 이루어질까요?

생성형 AI 모델은 답변 문장을 한 번에 완성하지 않습니다. 내부적으로는 토큰을 하나씩 예측해 이어 붙이는 방식으로 문장을 구성합니다.

예를 들어 다음과 같은 질문이 입력되었다고 하겠습니다.

입력 질문 예시

왜 토큰이 중요한지 설명해줘

모델은 이 문장을 먼저 토큰 단위로 분리하고, 각 토큰을 숫자 벡터로 변환합니다. 이후 입력 전체를 한 번에 계산하여 문맥을 형성합니다. 이 과정에서 모델은 정의, 이유, 예시, 정리와 같은 일반적인 설명 구조를 확률적으로 구성합니다. 이는 특정 규칙을 의식적으로 적용하는 것이 아니라, 학습 데이터에서 자주 등장한 설명 패턴이 반영된 결과입니다.

그 다음 단계에서 모델은 다음에 올 토큰 후보들의 확률을 계산합니다. 여러 후보 중에서 현재 문맥에 가장 자연스러운 토큰을 선택하고, 이를 출력에 추가합니다. 이후 방금 선택한 토큰을 다시 입력에 포함시켜 같은 과정을 반복합니다. 이 반복이 문장이 완성될 때까지 이어집니다.

이러한 구조 때문에 같은 질문이라도 답변이 완전히 동일하지 않을 수 있습니다. 매 단계마다 여러 후보가 존재하고, 선택 방식에 따라 표현이 달라질 수 있기 때문입니다. 창의적 글쓰기에서는 이러한 다양성이 장점이 되고, 정확성이 중요한 업무에서는 선택 범위를 좁혀 안정성을 높이는 방식이 사용됩니다.

이미지 생성에서는 어떤 일이 벌어질까요?

이미지 생성은 텍스트와 방식이 다릅니다. 텍스트는 토큰을 하나씩 이어 붙이지만, 이미지는 전체를 여러 단계에 걸쳐 점진적으로 다듬어 갑니다. 대다수의 이미지 생성 모델은 무작위에 가까운 노이즈(잡음)에서 시작해, 노이즈를 조금씩 제거하며 형태를 만들어냅니다.

과정은 다음과 같습니다.

거의 무작위에 가까운 노이즈 이미지를 만듭니다.
프롬프트 조건을 반영해 "조금 더 그럴듯한 상태"를 계산합니다.
이 과정을 수십 번 반복하며 윤곽 → 형태 → 디테일 순으로 구체화합니다.
마지막 단계에서 색감, 질감, 경계 등을 정리합니다.

이미지는 수백만 개의 픽셀 값으로 이루어진 거대한 숫자 행렬입니다. 가로 1024, 세로 1024 이미지만 해도 100만 개 이상의 픽셀이 있으며, 색상까지 포함하면 그 수는 더 늘어납니다. 모델은 이 거대한 숫자 배열을 한 번에 완성하는 것이 아니라, 여러 번에 걸쳐 조금씩 수정합니다. 전체 숫자 구조를 점진적으로 이동시키는 방식이 계산적으로 더 안정적이기 때문입니다.

이 구조를 이해하면, 이미지 생성 AI에서 사람이 나올 때 손가락이 이상하게 보이거나, 글자가 깨져 보이는 현상도 설명할 수 있습니다. 모델은 손을 해부학적으로 이해해서 그리는 것이 아닙니다. 학습 데이터에서 자주 등장한 시각적 패턴을 바탕으로 숫자 배열을 조정할 뿐입니다. 손처럼 작은 영역에 복잡한 구조가 들어 있는 경우, 전체 균형을 맞추는 과정에서 세부 구조가 무너질 수 있습니다. 텍스트 역시 글자를 "철자 규칙"으로 쓰는 것이 아니라 시각적 패턴으로 생성되기 때문에, 작은 왜곡이 쉽게 발생합니다.

영상 생성은 왜 더 어려울까요?

영상은 이미지가 시간축으로 이어진 결과입니다. 한 프레임이 자연스럽게 보이는 것만으로는 충분하지 않습니다. 앞뒤 프레임이 서로 일관되게 연결되어야 합니다.

영상 추론은 다음과 같은 구조로 진행됩니다.

장면의 기본 조건을 설정합니다. 예: "야외에서 사람이 걸어간다."
첫 번째 프레임을 생성합니다.
다음 프레임을 생성할 때, 이전 프레임의 시각 정보를 입력에 포함시켜 계산합니다.
이 과정을 반복하여 시간적으로 연결된 장면을 구성합니다.

핵심은 시간적 일관성입니다. 인물의 위치, 얼굴 형태, 배경 구조가 프레임마다 유지되어야 자연스럽게 보입니다. 모델은 각 프레임을 완전히 독립적으로 만드는 것이 아니라, 이전 상태를 조건으로 삼아 다음 상태를 계산합니다.

영상에서 깜빡임이나 형태 붕괴가 나타나는 이유는 이 일관성이 충분히 유지되지 않기 때문입니다. 예를 들어 한 프레임에서는 얼굴 위치가 정확한데 다음 프레임에서 눈의 위치가 미세하게 달라지거나, 옷의 무늬가 변하거나, 배경 물체가 사라지면 사람은 즉시 어색함을 느낍니다.

텍스트는 문장 하나가 조금 달라도 의미로 보완될 수 있습니다. 그러나 영상은 시각 정보가 연속적으로 이어지기 때문에, 작은 변화도 크게 드러납니다. 그래서 영상 생성은 텍스트나 이미지보다 계산 부담이 크고 구조적으로 더 어렵습니다.

핵심 정리

추론은 학습된 가중치 행렬을 이용해 새로운 입력에 대한 다음 상태를 계산하는 과정입니다. 모델은 스스로를 수정하지 않고, 이미 학습된 숫자 구조를 바탕으로 확률을 계산합니다. 텍스트는 토큰 단위로 이어가고, 이미지는 숫자 배열을 점진적으로 다듬으며, 영상은 시간 일관성을 유지하도록 프레임을 연결합니다. 우리가 AI를 사용하는 순간마다 실제로 일어나는 일은, 학습을 통해 조정된 거대한 행렬을 매우 빠르게 계산하는 일입니다.

추론은 어떻게 진행되나요?​

텍스트에서는 어떤 식으로 추론이 이루어질까요?​

이미지 생성에서는 어떤 일이 벌어질까요?​

영상 생성은 왜 더 어려울까요?​

핵심 정리​

추론은 어떻게 진행되나요?

텍스트에서는 어떤 식으로 추론이 이루어질까요?

이미지 생성에서는 어떤 일이 벌어질까요?

영상 생성은 왜 더 어려울까요?

핵심 정리