DeepSeek: 효율성에 특화된 AI
2025년 1월, 중국 스타트업이 개발한 AI 모델이 미국 앱스토어 1위를 기록하며 큰 주목을 받았습니다. 기존에 상위권을 유지하던 ChatGPT를 제치고 올라섰다는 점에서 업계의 관심이 집중되었습니다. 더 큰 화제가 된 것은 개발 비용이었습니다. GPT-4 학습에 수천억 원 규모의 비용이 투입된 것으로 알려진 반면, DeepSeek은 약 56억 원 수준의 비용으로 유사한 성능을 달성했다고 발표했습니다. 이 소식은 AI 업계에 상당한 파장을 일으켰고, 엔비디아 주가가 하루 만에 17% 이상 하락하는 등 시장에도 영향을 주었습니다.
DeepSeek은 중국 항저우에 본사를 둔 AI 연구 조직입니다. 이 팀은 원래 알고리즘 트레이딩을 수행하던 헤지펀드 High-Flyer가 2023년에 설립했습니다. 출발점부터 "더 적은 자원으로 더 높은 성능을 달성한다"는 목표를 내세웠고, 이러한 연구 방향은 V3와 R1 계열 모델로 이어졌습니다.
이번 장에서는 DeepSeek이 어떤 전략과 기술적 선택을 통해 개발되었는지, 어떤 환경에서 특히 강점을 보이는지, 그리고 사용 시 고려해야 할 한계는 무엇인지 차례로 살펴보겠습니다.
적은 비용으로 높은 성능을 낸 비결
DeepSeek이 주목받은 이유는 단순히 "가격이 저렴하다"는 것 때문이 아닙니다. DeepSeek의 강점은 모델을 설계하는 방식 자체를 바꿔 같은 계산을 더 적은 비용으로 처리하도록 만든 것입니다.
1) 필요한 부분만 작동시키는 구조
DeepSeek이 사용한 대표적인 방식이 MoE(Mixture of Experts, 전문가 혼합) 구조입니다. 이름은 어렵지만, 이렇게 이해하면 쉽습니다.
일반적인 대형 AI 모델은 질문이 무엇이든 모델 전체가 한꺼번에 작동합니다. 마치 회사의 모든 부서가 동시에 회의에 참여하는 것과 비슷합니다. 간단한 질문에도 전체 인력이 움직이기 때문에 비용이 많이 듭니다.
반면 MoE 구조는 질문에 따라 필요한 부서만 선택적으로 참여합니다. 수학 문제라면 계산에 강한 부분이 주로 작동하고, 코드 작성 요청이라면 프로그래밍에 특화된 부분이 더 많이 쓰입니다. 나머지 부분은 그 순간에는 거의 사용되지 않습니다.
DeepSeek V3는 전체 규모가 매우 큰 모델이지만, 실제로 한 번의 답변을 만들 때는 그중 일부만 작동합니다. 이 덕분에 연산량이 줄어들고, 속도와 비용 면에서 효율이 높아졌습니다.
2) 스스로 추론 결과를 다듬는 학습 방식
또 하나의 특징은 학습 방식입니다. 기존에는 사람이 답변을 보고 "이건 좋다, 이건 나쁘다"라고 평가해 모델을 개선하는 방식이 많이 사용되었습니다.
DeepSeek은 여기에 더해, 모델이 스스로 문제를 풀어보고 정답과 비교하는 방식을 적극적으로 활용했습니다. 특히 수학 문제처럼 정답이 명확한 영역에서는, 모델이 여러 번 시도하고 스스로 오류를 수정하면서 추론 과정을 정교하게 다듬을 수 있습니다.
이러한 학습 방식을 통해 DeepSeek은 복잡한 계산이나 논리 문제에서 높은 정확도를 달성할 수 있었습니다.
| 구분 | DeepSeek의 특징 |
|---|---|
| 비용 | 상대적으로 낮은 API 비용을 강조 |
| 추론·수학 | 수학·논리 문제 해결 능력 강화 |
| 공개성 | 일부 모델을 오픈소스로 공개 |
정리하면, DeepSeek의 강점은 단순히 "적은 비용으로 개발했다"는 점에 있지 않습니다. 필요한 부분만 선택적으로 작동하는 구조와, 스스로 추론 과정을 개선하는 학습 방식을 통해 같은 자원으로 더 높은 성능을 내도록 설계했다는 데 의미가 있습니다.