본문으로 건너뛰기
실습하기

GPT의 뜻과 발전 역사

GPT의 뜻

GPTGenerative Pre-trained Transformer의 약자로, 2017년에 Google의 연구팀이 발표한 트랜스포머(Transformer) 모델을 기반으로 대규모 데이터셋을 활용해 사전 학습된 생성형 인공지능 모델을 의미합니다.

  • Generative: 인공지능 모델이 텍스트를 생성(Generate)할 수 있음

  • Pre-trained: 사전 학습을 통해 대량의 데이터를 미리 학습함

  • Transformer: 트랜스포머 아키텍처(입력 데이터의 각 요소와 다른 모든 요소들과의 관계를 동시에 고려하여 처리하는 자연어 처리 모델) 기반의 인공지능 모델 활용


GPT 탄생 배경

2017년 트랜스포머 아키텍처 등장 이전에는 주로 규칙(Rule) 기반 접근법이나 딥러닝을 활용했습니다.

규칙 기반 접근법: 특정한 규칙을 사전에 정의하고, 그 규칙에 따라 데이터를 처리하거나 결론을 도출하는 방법으로, 입력에 대해 예측 가능한 출력을 생성합니다.

규칙 기반 접근법 예시
문장에서 주어(subject)와 동사(verb)를 식별하기

규칙:
- 영어에서는 문장의 첫 번째 단어가 주어일 가능성이 높다.
- 주어 다음에 등장하는 단어가 동사일 가능성이 높다.

입력 문장: "The cat sleeps."

적용된 규칙:
- 첫 번째 단어 "The cat"을 주어로 식별
- 두 번째 단어 "sleeps"를 동사로 식별

규칙 기반 접근법은 정해진 패턴 외의 입력에 대해 잘 작동하지 않아, 변화무쌍한 실제 언어 처리에 한계점이 있었습니다.


딥러닝: 인공신경망을 활용해 데이터의 패턴을 학습하고, 새로운 데이터에 대한 예측을 수행하는 방법으로, 컴퓨터가 사람처럼 지식을 학습하고 문제를 해결할 수 있도록 돕습니다.

  • 인공신경망(Neural Networks): 딥러닝의 기본 단위로, 사람의 뇌에서 영감을 받아 만들어졌습니다. 이 신경망은 여러 개의 층(layer)으로 구성되어 있으며, 각 층은 입력 데이터를 처리하여 더 높은 수준의 정보를 추출합니다.

    • 입력층(Input Layer): 데이터를 받아들이는 층

    • 은닉층(Hidden Layers): 데이터를 처리하고 패턴을 학습하는 여러 개의 중간 층

    • 출력층(Output Layer): 최종 결과를 출력하는 층

  • 학습(Training): 신경망이 데이터를 통해 패턴을 학습하는 과정입니다. 예를 들어, 수많은 고양이와 개의 이미지를 보여주면 신경망은 이미지 속에서 고양이와 개를 구분하는 법을 배우게 됩니다.

    • 데이터셋(Dataset): 학습에 사용되는 데이터의 집합 (예: 수천 장의 고양이와 개의 이미지)

    • 라벨(Label): 각 데이터가 무엇을 나타내는지 알려주는 정보 (예: 고양이 이미지는 '고양이', 개 이미지는 '개'라는 라벨 부여)

딥러닝 기술은 다양한 분야에 광범위하게 활용되고 있지만, 자연어 처리 분야에서 순차적 데이터 처리로 인한 비효율성 문제를 갖고 있었습니다. 이는 마치 많은 사람들이 한 줄로 서서 한 사람씩 차례로 일을 처리하는 것처럼 시간이 많이 걸렸습니다.

또한 책을 읽을 때 앞 부분의 내용을 뒤에서 잘 기억하지 못하는 것처럼, 긴 문장을 처리할 때 중요한 정보를 잊어버리는 경향이 있었습니다.


트랜스포머 모델의 도입과 GPT의 발전

트랜스포머 모델은 데이터를 병렬적으로 처리하여 시간을 단축하고, 입력 데이터의 전후 관계를 고려하여 문맥을 이해할 수 있도록 설계되었습니다.

트랜스포머 모델에 대량의 데이터를 사전 학습시킨 GPT는 자연어 처리 분야에서 뛰어난 성능을 발휘하며, GPT-2, GPT-3, GPT-4 등 버전 업그레이드와 함께 빠르게 발전해왔습니다.

슬라이드에서 GPT 주요 모델의 발전 역사를 확인해 보세요.