GPT: 세상을 바꾼 언어 모델

2022년 11월 30일, ChatGPT가 처음 공개된 날을 기억하는 사람들이 있습니다. 출시 5일 만에 100만 명이 가입했고, 두 달 만에 월간 활성 사용자 1억 명을 돌파했습니다. 인터넷 역사상 가장 빠르게 성장한 소비자 서비스였습니다. 사람들은 처음으로 AI와 자연스러운 대화를 나눴고, 인간만의 영역이었던 글을 쓰고 코드를 작성하는 방식이 달라지기 시작했습니다.
하지만 ChatGPT는 어느날 갑자기 등장한 것이 아닙니다. OpenAI가 2018년에 처음 GPT를 내놓은 이후 5년 넘게 이어진 연구와 실패, 개선이 쌓인 결과입니다. 이번 장에서는 GPT가 어떻게 작동하는지, 어떤 과정을 거쳐 지금의 형태가 되었는지 살펴보겠습니다.
GPT 이전의 AI: RNN
GPT를 제대로 이해하려면, GPT가 등장하기 전 AI가 어떤 방식으로 언어를 구사했는지를 먼저 알아야 합니다.
2010년대 중반까지 자연어 처리 분야에서 주로 쓰인 구조는 RNN(Recurrent Neural Network)(순환 신경망) 계열이었습니다.
RNN은 쉽게 말해 "문장을 한 단어씩 읽으면서, 지금까지 읽은 내용을 '메모'(상태)에 담아 다음 단어로 넘기는 신경망"입니다. 여기서 '순환'은 입력이 한 번 지나가고 끝나는 게 아니라, 이전 단계에서 만든 메모가 다시 다음 단계의 입력에 합쳐져 반복적으로 사용된다는 뜻입니다.
예를 들어 "나는 오늘 학교에 갔다"를 처리할 때, RNN은 나는 → 오늘 → 학교에 → 갔다 순서로 진행하며 매 단계마다 "지금까지 문장이 어떤 흐름이었는지"를 메모에 업데이트합니다.
그래서 RNN은 한때 순서가 중요한 데이터(문장, 음성 등)에서 표준처럼 쓰였습니다. "앞에서 본 내용이 뒤에 영향을 준다"는 RNN의 구조가 이러한 데이터에 자연스럽게 맞았기 때문입니다.
하지만 RNN에는 근본적인 한계가 있었습니다. 문장이 길어질수록 앞부분의 정보가 흐려지고, 멀리 떨어진 단어 사이의 관계를 잡아내기 어려웠습니다. 예를 들어 "어제 친구가 서울에서 부산까지 기차를 타고 갔는데, 그 친구가 좋아하는 음식은 뭔가요?"라는 문장에서 RNN은 문장 끝에 도달할 때쯤 앞쪽의 "친구"라는 정보를 거의 잃어버렸습니다.
GPT는 이러한 한계를 넘기 위해 완전히 다른 구조에서 출발했습니다.
트랜스포머: GPT를 움직이는 엔진
GPT의 핵심은 앞서 소개한 트랜스포머(Transformer) 구조입니다. 2017년 구글 연구팀이 발표한 논문 "Attention Is All You Need"에서 처음 제안된 이 구조는 언어 AI의 패러다임을 바꿨습니다.
트랜스포머의 핵심 아이디어는 어텐션(Attention) 메커니즘입니다. 문장을 한 단어씩 순서대로 처리하는 대신, 문장 전체를 한 번에 보면서 각 단어가 다른 단어들과 얼마나 관련이 있는지를 동시에 계산합니다.
비유로 이해하면 이렇습니다. RNN이 책을 처음부터 끝까지 순서대로 읽어나가는 독자라면, 트랜스포머는 책 전체를 한 번에 펼쳐놓고 형광펜으로 중요한 부분에 선을 긋는 독자입니다. "이 단어는 저 단어와 연결된다"는 관계를 문장 전체에서 한꺼번에 파악합니다.
덕분에 "어제 친구가 서울에서 부산까지 기차를 타고 갔는데, 그 친구가 좋아하는 음식은 뭔가요?"라는 문장에서 트랜스포머는 문장 끝의 "친구"와 앞쪽의 "친구"를 바로 연결해서 처리합니다. 거리가 멀어도 관계와 맥락을 놓치지 않습니다.
GPT는 이 트랜스포머 구조를 기반으로 만들어졌으며, Generative(생성하는), Pre-trained(사전학습된), Transformer(트랜스포머)라는 이름 자체가 이 구조를 표현하고 있습니다.
GPT는 어떻게 발전해 왔을까요?
GPT는 한 번의 발표로 완성된 모델이 아닙니다. 초기에는 "긴 글을 그럴듯하게 이어 쓰는 모델"에 가까웠고, 버전이 올라가면서 지시를 더 정확히 따르고, 긴 맥락을 더 안정적으로 유지하고, 도구를 붙여 일을 끝내는 방향으로 확장됐습니다. 아래에서는 GPT-1부터 흐름을 따라가며, 사용자가 체감하는 변화가 무엇이었는지에 초점을 맞춰봅니다.
GPT-1: 가능성의 증명 (2018)
2018년 발표된 GPT-1은 1억 1700만 개의 파라미터를 가졌습니다. 파라미터란 모델이 학습을 통해 조정하는 내부 수치의 총 개수입니다. 사람으로 치면 뇌에 있는 시냅스 연결의 수와 비슷한 개념으로, 숫자가 클수록 더 많은 패턴을 기억하고 처리할 수 있습니다.
GPT-1의 성과는 기술 자체보다 접근 방식에 있었습니다. 방대한 텍스트로 언어의 패턴을 먼저 익힌 뒤(사전학습), 특정 작업에 맞게 추가 학습하는(파인튜닝) 방식이 여러 언어 처리 과제에서 효과적임을 보여줬습니다. 지금은 당연하게 여기는 이 방식을 GPT-1이 처음으로 언어 모델에 본격적으로 적용했습니다.
GPT-2: 공개를 망설인 모델 (2019)
GPT-2는 파라미터 수가 15억 개로 GPT-1의 13배였습니다. 성능도 크게 올랐지만, 이 모델은 또 다른 이유로 주목받았습니다. OpenAI가 처음에 모델 전체를 공개하지 않기로 결정한 것입니다.
이유는 GPT-2가 너무 그럴듯한 가짜 텍스트를 만들어냈기 때문이었 습니다. 뉴스 기사 형식으로 거짓 정보를 생성하거나, 특정인의 말투를 흉내 내는 데 악용될 수 있다는 우려였습니다. 결국 여러 달에 걸쳐 단계적으로 공개되었고, AI 안전성에 대한 업계 논의를 불러일으키는 계기가 되었습니다.
GPT-3: 더 강력해진 모델 (2020)
GPT-3는 1750억 개의 파라미터로, GPT-2의 100배가 넘는 규모였습니다. 그런데 단순히 커진 것 이상의 변화가 있었습니다.
GPT-3는 별도의 파인튜닝 없이도, 몇 가지 예시만 보여주면 새로운 작업을 수행할 수 있었습니다. 이를 퓨샷 러닝(Few-shot Learning) 이라고 합니다. 예를 들어 "이 문장을 프랑스어로 번역해줘: Hello → Bonjour, Good morning → Bonjour, How are you → ?"처럼 두세 가지 예시를 보여주면, 추가 학습 없이도 번역 패턴을 파악해서 답합니다. 이쯤부터 코드 작성, 글쓰기, 요약, 번역이 하나의 모델로 가능해졌습니다.
GPT-3.5: ChatGPT의 탄생 (2022)
GPT-3.5는 GPT-3이 개선된 버전으로, 자연스러운 대화에 특화된 모델이었습니다. GPT-3.5 모델은 2022년 11월 ChatGPT 서비스와 함께 공개되면서, 대중이 AI와 자연스러운 대화를 나누고 업무에 활용하는 시대를 열었습니다.
GPT-3.5는 대화의 맥락을 더 잘 이해하고, 지시를 더 정확히 따르며, 이전 버전보다 훨씬 긴 대화도 안정적으로 이어갈 수 있었습니다.
GPT-4: 멀티모달과 향상된 추론 능력 (2023)
2023년 발표된 GPT-4는 이전 버전들과 달라진 점이 두 가지입니다. OpenAI는 GPT-4의 파라미터 수를 공개하지 않았지만, 변화의 방향은 분명했습니다.
첫째는 멀티모달 입력입니다. 텍스트뿐 아니라 이미지도 함께 받아들일 수 있게 되었습니다. "이 사진에서 이상한 부분을 찾아줘"나 "이 그래프가 뭘 보여주는지 설명해줘" 같은 요청이 처음으로 가능해졌습니다.
둘째는 향상된 추론 능력입니다. GPT-3가 "정답처럼 들리는 답"을 빠르게 내놓는 데 강점이 있었다면, GPT-4는 여러 단계에 걸쳐 논리적으로 추론해야 하는 문제에서 눈에 띄게 나아진 모습을 보였습니다. 변호사 시험, 의사 면허 시험, 수능 수준의 수학 문제에서 이전 버전과 확연히 다른 점수를 기록했습니다.
GPT-4o: 보고 듣고 말하는 AI (2024)
2024년 5월 공개된 GPT-4o에서 'o'는 'omni(모든 것을 아우르는)'를 뜻합니다. 이전 버전들이 텍스트와 이미지를 처리했다면, GPT-4o는 텍스트, 이미지, 오디오를 하나의 모델 안에서 통합적으로 다룹니다.
가장 눈에 띄는 변화는 음성 대화였습니다. GPT-4o는 사람이 말하는 것을 듣고, 문맥을 파악하고, 자연스러운 목소리로 바로 대답할 수 있습니다. 기존의 음성 기능이 텍스트를 음성으로 변환하는 방식이었다면, GPT-4o는 소리 자체를 이해하고 처리합니다. 억양이나 감정의 변화도 어느 정도 감지할 수 있습니다. 이전보다 응답 속도도 크게 빨라졌고, 한국어를 포함한 비영어권 언어 처리 능력도 함께 향상되었습니다.
GPT-5: 추론과 속도를 하나로 (2025)
2025년 8월 출시된 GPT-5는 이전까지 GPT 시리즈와 추론 전용 모델(o1, o3)이 따로 나뉘어 있던 구조를 하나로 통합한 모델입니다.
기존에는 빠른 답변이 필요하면 GPT-4o를, 복잡한 문제를 깊이 풀어야 하면 o1이나 o3를 따로 골라 써야 했습니다. GPT-5는 이 선택을 모델 내부에서 자동으로 처리합니다. 간단한 질문에는 빠르게 응답하고, 복잡한 추론이 필요하다고 판단되면 더 오래 생각한 뒤 답을 냅니다. 사용자가 "이건 천천히 깊게 생각해줘"라고 요청하면 그 방향으로 작동하기도 합니다.
성능 면에서도 이전 버전들보다 크게 향상되었습니다. 수학, 코딩, 과학, 의료 분야 벤치마크에서 최고 수준의 점수를 기록했고, 특히 할루시네이션이 GPT-4o보다 약 45% 줄었습니다. OpenAI CEO 샘 알트먼은 GPT-5를 "광범위한 작업에서 박사 수준의 능력을 제공하는 모 델"이라고 표현했습니다.
GPT-5는 모든 ChatGPT 사용자에게 무료로 제공되지만, 유료 구독자는 더 높은 사용 한도와 함께 더 강력한 추론 모드를 이용할 수 있습니다.
| 버전 | 발표 | 파라미터 | 핵심 변화 |
|---|---|---|---|
| GPT-1 | 2018 | 1.17억 | 사전학습+파인튜닝 방식 도입 |
| GPT-2 | 2019 | 15억 | 그럴듯한 텍스트 생성, 단계적 공개 |
| GPT-3 | 2020 | 1750억 | 퓨샷 러닝, 범용 언어 모델 |
| GPT-3.5 | 2022 | 비공개 | 대화 특화, ChatGPT 서비스와 함께 공개 |
| GPT-4 | 2023 | 비공개 | 멀티모달, 향상된 추론 능력 |
| GPT-4o | 2024 | 비공개 | 텍스트·이미지·오디오 통합, 실시간 음성 |
| GPT-5 | 2025 | 비공개 | 추론·비추론 통합, 자동 라우팅, 할루시네이션 감소 |
GPT-5.0 이후의 모델들
최근에는 'GPT-5'라는 한 덩어리 안에서도 업데이트가 세부 버전 단위로 이어졌습니다. 특히 코딩과 관련된 작업은 Codex 라인업으로 분화해 왔고, 에이전틱(Agentic, 실제 작업을 수행하는 에이전트 활용) 기능이 강화되 는 방향으로 발전하고 있습니다.
| 구분 | 공개 시점 | 핵심 변화 |
|---|---|---|
| GPT‑5.1 | 2025-11 | 대화 톤/개인화 강화, 사용자가 "원하는 스타일"로 조정하기 쉬워짐 |
| GPT‑5.2 | 2025-12 | 긴 맥락 이해와 도구 호출 기반 실행이 더 강해짐 |
| GPT‑5.2‑Codex | 2025-12 | 코드 작업(수정·리팩터링·테스트 등)에서 더 안정적인 에이전틱 실행을 지향 |
| GPT‑5.3‑Codex | 2026-02 | 긴 맥락의 코드 작업을 더 매끄럽게 이어가도록 최적화 |
사람들이 일하는 방식이 바꾼 ChatGPT
GPT-3가 공개되었을 때도 기술 업계는 이를 크게 주목했습니다. 하지만 그 기술이 일반 사람들의 일상에 들어온 것은 2022년 11월, ChatGPT가 출시되면서입니다.
ChatGPT는 GPT-3.5를 기반으로 만들어진 대화형 인터페이스입니다. 기술적으로 완전히 새로운 모델이 아니라, 기존 모델 위에 대화에 특화된 학습을 더한 것입니다. 핵심은 RLHF로, 인간 평가자들이 모델의 응답을 보고 더 자연스럽고 도움이 되는 쪽을 선택하면서 대화 능력을 다듬었습니다.
이 과정에서 GPT 모델은 "연구 목적을 위한 AI 모델"에서 "누구든지 브라우저에서 대화할 수 있는 범용 서비스"로 바뀌 었습니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!