본문으로 건너뛰기
실습하기

AI가 답변을 확률적으로 생성하는 원리

앞서 추론에서 살펴본 것처럼, AI 추론의 핵심은 이미 학습된 가중치 행렬을 이용해 새로운 입력에 대한 다음 상태를 계산하는 것입니다.

추론을 통한 텍스트 생성 역시 답변할 문장을 통째로 만들어 내는 방식이 아닙니다. 지금까지 이미 생성된 텍스트를 바탕으로, 그 다음에 올 토큰을 확률적으로 계산하고 선택하는 과정을 반복합니다. 이 반복이 이어지면서 하나의 문장이 완성됩니다.

문장은 어떤 방식으로 만들어질까요?

예를 들어 사용자가 다음과 같이 질문했다고 하겠습니다.

사용자 질문 예시
고등학생에게 AI를 쉽게 설명해줘.

모델은 이 문장을 토큰으로 나누고, 각 토큰을 숫자 벡터로 변환합니다. 이후 지금까지의 입력 전체를 기반으로 "다음에 올 토큰"의 확률을 계산합니다.

예를 들어 첫 번째 위치에서 다음과 같은 후보가 계산될 수 있습니다.

후보 토큰확률(예시)
AI는0.35
인공지능은0.28
쉽게 말해0.15
먼저0.07
기타...

가장 높은 확률을 가진 토큰이 선택되었다고 하면, 문장은 다음과 같이 시작합니다.

첫 토큰 생성 결과
AI는

이제 모델은 다시 계산을 수행합니다. "AI는" 다음에 올 토큰 후보들의 확률을 다시 계산하고, 하나를 선택합니다. 이 과정이 반복되면서 문장이 점차 길어집니다.

중요한 점은, 모델이 전체 문장을 미리 완성해 두는 것이 아니라는 사실입니다. 매 단계마다 다음 토큰을 새롭게 계산합니다.

어떻게 이러한 방식이 가능할까요?

모델은 학습 단계에서 방대한 양의 문장을 반복적으로 보았습니다. 그 과정에서 특정 표현 뒤에 어떤 표현이 자주 이어지는지, 어떤 구조가 자연스러운지에 대한 통계적 패턴이 내부 가중치에 반영됩니다.

예를 들어 다음과 같은 문장이 많이 등장했다면,

  • "AI는 … 기술입니다."
  • "AI는 … 시스템입니다."
  • "AI는 … 모델입니다."

이 패턴이 내부 확률 구조에 반영됩니다. 그래서 "AI는"이라는 시작이 나오면 설명형 문장이 이어질 가능성이 높게 계산됩니다.

여기서 핵심은 모델이 의미를 스스로 이해해서 선택하는 것이 아니라는 점입니다. 학습 데이터에서 형성된 패턴을 바탕으로, 현재 문맥에서 확률이 높은 흐름을 계산해 선택합니다.

문장은 처음부터 끝까지 정해져 있지 않습니다

AI는 답변을 시작하기 전에 전체 구조를 미리 완성해 두지 않습니다. 첫 번째 토큰이 선택된 이후에야 두 번째 토큰이 결정되고, 두 번째가 결정된 이후에야 세 번째가 계산됩니다.

따라서 초반 선택이 이후 흐름을 크게 바꿀 수 있습니다.

예를 들어 같은 질문에 대해,

  • "AI는 인간의 사고를 모방한 기술입니다."로 시작하면 설명 중심 구조가 이어질 가능성이 높고,
  • "AI를 한 문장으로 정의하면…"으로 시작하면 정의 중심 전개가 이어질 가능성이 큽니다.

처음 몇 개의 토큰 선택이 이후 문장의 방향을 결정합니다.

가끔씩 엉뚱한 답변이 나오는 이유

이 생성 구조를 이해하면 몇 가지 현상을 설명할 수 있습니다.

첫째, 그럴듯하지만 틀린 정보가 생성될 수 있습니다. 모델은 외부에서 사실 여부를 확인하는 것이 아니라, "지금 문맥에서 자연스러운 다음 문장"을 선택합니다. 실제로 존재하지 않는 논문 제목이나 날짜가 만들어질 수 있는 이유가 여기에 있습니다.

둘째, 표현이 반복될 수 있습니다. 확률이 높은 안전한 표현은 자주 선택됩니다. 그 결과 문장 구조나 어투가 비슷해질 수 있습니다.

셋째, 긴 문장에서 앞뒤가 어긋나는 경우가 발생할 수 있습니다. 문장이 길어질수록 이전 선택의 영향이 누적되고, 중간에 구조가 흔들리면 그 상태에서 계속 이어가기 때문입니다.

확률 선택 방식이 답변 결과에 미치는 영향

모델은 항상 가장 높은 확률만 선택하도록 설정할 수도 있고, 일정 범위 안에서 여러 후보 중 하나를 선택하도록 설정할 수도 있습니다.

  • 가장 높은 확률만 선택하면 결과는 안정적이지만 표현이 단조로울 수 있습니다.
  • 상위 확률 후보들 중에서 선택하도록 하면 표현은 다양해지지만, 답변이 달라질 가능성이 커집니다.

창작 작업에서는 다양성이 장점이 되고, 정확성이 중요한 작업에서는 안정성이 더 중요하게 작용합니다.