대규모 언어 모델(LLM)을 만드려면 어느 정도의 데이터와 비용이 필요할까?

우리는 매일 챗GPT(ChatGPT)나 클로드(Claude) 같은 AI와 자연스럽게 대화합니다. 그러다 보면 한 번쯤 이런 생각이 들 수 있습니다. "내 노트북으로도 이런 AI를 만들 수 있을까?"

결론부터 말하면, 현실적으로는 불가능에 가깝습니다. 대규모 언어 모델(LLM)을 만드는 일은 개인이 혼자 실험해 보는 수준을 넘어섭니다. 거대한 건축물을 세우거나 우주 발사체를 개발하는 것처럼, 막대한 자본과 대규모 인프라가 필요하기 때문입니다.

그렇다면 실제로 어느 정도의 데이터와 비용이 들어갈까요? 뉴스 기사와 기업들의 발표 자료를 통해 그 구체적인 규모를 확인해 보겠습니다.

인터넷을 통째로 학습하는 방대한 데이터 규모

LLM을 학습시킨다는 것은 사람에 비유하면 '도서관에 있는 모든 책을 읽고 외우는 것'과 비슷합니다. 하지만 AI가 읽어야 하는 분량은 우리의 상상을 초월합니다.

실제 데이터 규모 (Meta의 사례)

2024년, 페이스북의 모회사인 메타(Meta)는 최신 모델인 Llama 3를 공개하며 학습 데이터의 규모를 밝혔습니다.

"Llama 3는 공개적으로 사용 가능한 소스에서 수집한 15조(15 Trillion)개 이상의 토큰으로 학습되었습니다." — Meta Llama 3 공식 발표 자료 (2024)

15조 토큰이 얼마나 큰지 감이 오시나요?

영어 단어 하나를 약 0.75 토큰이라고 칠 때, 15조 토큰은 약 1,000억 개의 단어입니다.
평균적인 책 한 권(약 10만 단어)으로 환산하면 약 100만 권 이상의 책을 읽은 셈입니다.
사람이 잠을 자지 않고 1초에 단어 하나씩 읽어도 약 3,000년이 걸리는 분량입니다.

LLM 학습에는 위키백과, 뉴스, 논문, 코드(GitHub), 공개된 서적 등 인터넷에 존재하는 거의 모든 텍스트가 필요합니다. 또한 이 텍스트를 수집하고 정제하는 과정이 필요하며, 단순히 긁어오는 것이 아니라 중복 제거, 저품질 데이터 제거, 유해 콘텐츠 필터링 같은 정제 작업도 필요합니다.

수조 원 단위의 GPU 및 IT 인프라 비용

데이터가 준비되면, 이를 처리할 '두뇌'인 GPU가 필요합니다. 일반적인 컴퓨터가 아니라, AI 연산 전용 반도체인 NVIDIA H100 같은 장비가 필수적입니다.

마크 저커버그의 발표 예시

2024년 초, 메타의 CEO 마크 저커버그는 인스타그램 릴스를 통해 엄청난 계획을 발표했습니다.

"우리는 올해 말까지 35만 개의 NVIDIA H100을 포함해, 총 60만 개에 달하는 H100급 컴퓨팅 인프라를 구축할 것입니다." — Mark Zuckerberg, Instagram Reels (2024.01)

이 발언을 경제적 측면에서 분석해 보면 다음과 같습니다.

H100 가격: 2024년 기준, H100 GPU 한 대의 가격은 약 3,000만 원~5,000만 원( $25,000~$ 40,000)에 달합니다.
계산: 35만 대 × 4,000만 원만 잡아도, GPU 구매 비용만 약 14조 원이 넘습니다.

이처럼 글로벌 빅테크 기업들은 데이터센터를 짓기 위해 국가 예산에 맞먹는 돈을 쏟아붓고 있습니다.

수천억-수조원 규모의 AI 학습 비용

비싼 장비를 샀으니 이제 전원을 켜고 AI 모델을 학습시켜야 합니다. 하지만 공사비, 인건비, 전기 사용료 등을 포함하는 데이터 센터 운영 비용은 기하급수적으로 늘어나고 있습니다.

빅테크 CEO들이 밝힌 실제 AI 학습 비용

오픈AI(GPT 개발사)의 CEO 샘 알트만과 앤스로픽(Claude 개발사)의 CEO 다리오 아모데이는 인터뷰에서 학습 비용 관련 구체적인 숫자를 언급한 적이 있습니다.

모델	비용 규모 (언급 내용)	출처
GPT-4	"GPT-4 모델을 학습시키는 데 1억 달러(약 1,300억 원) 이상 들었습니다."	Sam Altman (Wired 인터뷰, 2023)
Claude	"지금 학습 중인 모델들은 10억 달러(약 1.3조 원) 수준입니다."	Dario Amodei (팟캐스트 인터뷰, 2024)
미래 모델	"2026~2027년에는 100억 달러(약 13조 원) 모델이 등장할 것입니다."	Dario Amodei (동일 인터뷰)

여기서 말하는 비용은 '한 번의 최종 학습(Training Run)'에 드는 비용입니다. 수많은 학습 실패, 데이터 정제 인력과 최고급 엔지니어의 인건비까지 포함된 프로젝트 전체 비용은 이보다 훨씬 큽니다.

빅테크 기업들은 왜 이렇게까지 막대한 비용을 투자할까요?

이러한 조단위 규모의 투자는 단순히 자본력을 과시하기 위한 것이 아닙니다. AI 연구에는 스케일링 법칙(Scaling Laws)이라는 경험적 경향이 존재하기 때문입니다.

스케일링 법칙이란, 데이터 양·모델 크기·연산량을 일정하게 늘리면 모델의 성능이 비교적 예측 가능한 곡선을 따라 향상된다는 관찰 결과를 말합니다. 다시 말해, 일정 구간까지는 자원을 더 투입할수록 모델이 더 정교해지고, 더 복잡한 문제를 다룰 수 있게 된다는 것입니다.

빅테크 기업들은 여러 세대의 모델을 개발하며 이 패턴을 직접 확인해 왔습니다. 그 결과 "더 많은 데이터와 연산을 투입하면 성능이 개선된다"는 확신을 갖게 되었고, 경쟁적으로 더 많은 자본과 GPU를 확보하는 구조가 형성되었습니다. 일종의 기술 경쟁이자, 장기적인 시장 선점을 위한 전략적 투자에 가깝습니다.

가장 우수한 AI 모델을 보유한 기업은 검색, 생산성 도구, 광고, 클라우드, 로봇, 자율주행 등 다양한 미래 산업에서 우위를 점할 수 있습니다. 그래서 현재의 대규모 투자는 단기 수익보다는 미래 시장 주도권 확보를 위한 장기 전략으로 이해할 수 있습니다.

이러한 구조 때문에 대학 연구실이나 작은 스타트업이 GPT, Claude, Gemini와 같은 파운데이션 모델(Foundation Model, 다양한 서비스의 기반이 되는 대규모 모델)을 처음부터 직접 구축하기는 매우 어렵습니다. AI 개발은 이제 단순한 아이디어 경쟁을 넘어 대규모 연산 자원과 인프라, 자본이 함께 필요한 자본 집약적 산업으로 변화했습니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!

인터넷을 통째로 학습하는 방대한 데이터 규모​

실제 데이터 규모 (Meta의 사례)​

수조 원 단위의 GPU 및 IT 인프라 비용​

마크 저커버그의 발표 예시​

수천억-수조원 규모의 AI 학습 비용​

빅테크 CEO들이 밝힌 실제 AI 학습 비용​

빅테크 기업들은 왜 이렇게까지 막대한 비용을 투자할까요?​