DeepSeek: 효율성에 특화된 AI

2025년 1월, 중국 스타트업이 개발한 AI 모델이 미국 앱스토어 1위를 기록하며 큰 주목을 받았습니다. 기존에 상위권을 유지하던 ChatGPT를 제치고 올라섰다는 점에서 업계의 관심이 집중되었습니다. 더 큰 화제가 된 것은 개발 비용이었습니다. GPT-4 학습에 수천억 원 규모의 비용이 투입된 것으로 알려진 반면, DeepSeek은 약 56억 원 수준의 비용으로 유사한 성능을 달성했다고 발표했습니다. 이 소식은 AI 업계에 상당한 파장을 일으켰고, 엔비디아 주가가 하루 만에 17% 이상 하락하는 등 시장에도 영향을 주었습니다.

DeepSeek은 중국 항저우에 본사를 둔 AI 연구 조직입니다. 이 팀은 원래 알고리즘 트레이딩을 수행하던 헤지펀드 High-Flyer가 2023년에 설립했습니다. 출발점부터 "더 적은 자원으로 더 높은 성능을 달성한다"는 목표를 내세웠고, 이러한 연구 방향은 V3와 R1 계열 모델로 이어졌습니다.

이번 장에서는 DeepSeek이 어떤 전략과 기술적 선택을 통해 개발되었는지, 어떤 환경에서 특히 강점을 보이는지, 그리고 사용 시 고려해야 할 한계는 무엇인지 차례로 살펴보겠습니다.

적은 비용으로 높은 성능을 낸 비결

DeepSeek이 주목받은 이유는 단순히 "가격이 저렴하다"는 것 때문이 아닙니다. DeepSeek의 강점은 모델을 설계하는 방식 자체를 바꿔 같은 계산을 더 적은 비용으로 처리하도록 만든 것입니다.

1) 필요한 부분만 작동시키는 구조

DeepSeek이 사용한 대표적인 방식이 MoE(Mixture of Experts, 전문가 혼합) 구조입니다. 이름은 어렵지만, 이렇게 이해하면 쉽습니다.

일반적인 대형 AI 모델은 질문이 무엇이든 모델 전체가 한꺼번에 작동합니다. 마치 회사의 모든 부서가 동시에 회의에 참여하는 것과 비슷합니다. 간단한 질문에도 전체 인력이 움직이기 때문에 비용이 많이 듭니다.

반면 MoE 구조는 질문에 따라 필요한 부서만 선택적으로 참여합니다. 수학 문제라면 계산에 강한 부분이 주로 작동하고, 코드 작성 요청이라면 프로그래밍에 특화된 부분이 더 많이 쓰입니다. 나머지 부분은 그 순간에는 거의 사용되지 않습니다.

DeepSeek V3는 전체 규모가 매우 큰 모델이지만, 실제로 한 번의 답변을 만들 때는 그중 일부만 작동합니다. 이 덕분에 연산량이 줄어들고, 속도와 비용 면에서 효율이 높아졌습니다.

2) 스스로 추론 결과를 다듬는 학습 방식

또 하나의 특징은 학습 방식입니다. 기존에는 사람이 답변을 보고 "이건 좋다, 이건 나쁘다"라고 평가해 모델을 개선하는 방식이 많이 사용되었습니다.

DeepSeek은 여기에 더해, 모델이 스스로 문제를 풀어보고 정답과 비교하는 방식을 적극적으로 활용했습니다. 특히 수학 문제처럼 정답이 명확한 영역에서는, 모델이 여러 번 시도하고 스스로 오류를 수정하면서 추론 과정을 정교하게 다듬을 수 있습니다.

이러한 학습 방식을 통해 DeepSeek은 복잡한 계산이나 논리 문제에서 높은 정확도를 달성할 수 있었습니다.

구분	DeepSeek의 특징
비용	상대적으로 낮은 API 비용을 강조
추론·수학	수학·논리 문제 해결 능력 강화
공개성	일부 모델을 오픈소스로 공개

정리하면, DeepSeek의 강점은 단순히 "적은 비용으로 개발했다"는 점에 있지 않습니다. 필요한 부분만 선택적으로 작동하는 구조와, 스스로 추론 과정을 개선하는 학습 방식을 통해 같은 자원으로 더 높은 성능을 내도록 설계했다는 데 의미가 있습니다.

V3와 R1, 어떻게 다른가요?

DeepSeek의 모델은 크게 두 계열로 나눌 수 있습니다.

V3 계열은 범용 모델입니다. 글쓰기, 요약, 질문 답변 등 다양한 작업을 비교적 낮은 비용으로 사용할 수 있다는 점이 강점입니다.

R1 계열은 추론에 더 초점을 맞춘 모델입니다. 답변을 바로 내기보다는, 문제를 단계적으로 풀어갑니다. 수학, 과학, 코딩처럼 여러 단계를 거쳐 결론에 도달해야 하는 문제에서 높은 성능을 발휘합니다.

DeepSeek의 발전 과정

버전	공개 시점	주요 내용
DeepSeek V2	2024-05	MoE 구조 본격 도입. 비용 효율 크게 향상
DeepSeek V3	2024-12	6,710억 파라미터. 오픈소스 공개. GPT-4o 수준 성능을 1/10 비용으로
DeepSeek R1	2025-01	강화학습 기반 추론 모델. 미국 앱스토어 1위 기록
DeepSeek V3.1	2025-08	V3와 R1의 장점을 하나로 합친 하이브리드 모델

모든 비법 소스를 공개한 오픈소스 모델

DeepSeek은 모델의 가중치를 MIT 라이선스로 공개했습니다. 이로 인해 누구든지 DeepSeek을 무료로 다운로드 받고 사용할 수 있으며, 상업적 활용도 허용됩니다. 이 결정 덕분에 전 세계 개발자들이 DeepSeek을 기반으로 다양한 서비스를 만들 수 있게 되었고, Hugging Face에서는 수백만 건 이상의 다운로드를 기록하며 큰 관심을 받았습니다.

이로 인해 작은 기업이나 개인 개발자도 고성능 AI 모델을 자체 서버에 배포해 활용할 수 있는 길이 열렸습니다. 이러한 변화는 AI를 일부 대기업만 다룰 수 있는 기술에서, 더 많은 사람들이 실험하고 응용할 수 있는 도구로 확장시키는 데 의미 있는 역할을 했다고 볼 수 있습니다.

알아두어야 할 것: 정치적 검열

DeepSeek을 쓰기 전에 알아두어야 할 중요한 부분이 있습니다. 중국에서 만들어진 AI인 만큼, 중국 정부가 민감하게 여기는 주제에 대해서는 답변을 거부하거나 특정 입장의 답변만 내놓습니다.

영국 가디언이 실제로 테스트한 결과를 보면, 1989년 천안문 광장에서 있었던 일을 묻자 "제 범위를 벗어납니다. 다른 것에 관해 이야기합시다"라고 답했습니다. 홍콩 민주화 운동, 대만의 독립 여부, 시진핑에 대한 비판적인 질문도 마찬가지였습니다. "대만은 국가인가"라는 질문에는 "대만은 고대부터 중국 영토의 일부였다"고 단호하게 답했습니다.

한 연구팀이 민감 주제 관련 1,360개 질문을 던진 결과, DeepSeek R1은 그중 약 85%에 대해 답변을 거부하거나 중국 정부 입장을 그대로 따르는 답을 내놨습니다.

이 검열은 주로 DeepSeek의 챗봇 서비스 단계에서 이루어집니다. 모델 자체를 내려받아 인터넷 없이 구동하면 검열이 적용되지 않는 경우도 있습니다.

DeepSeek을 잘 쓰려면

DeepSeek은 수학, 과학, 코딩처럼 논리적으로 풀어나가야 하는 문제와 비용을 아껴야 하는 상황에서 강점이 뚜렷합니다. 모델을 직접 내려받아 자신의 서버에서 돌릴 수 있다는 점도, 데이터를 외부로 내보내기 어려운 기업 환경에서 유용합니다.

다만 중국 정부와 관련된 민감한 주제, 역사적 논쟁, 인권 문제를 다룰 때는 다른 AI를 쓰는 것이 좋습니다. DeepSeek은 이런 주제에 대해서는 답변을 거부하거나, 중국 정부의 입장을 그대로 따르는 답변을 내놓기 때문입니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!

적은 비용으로 높은 성능을 낸 비결​

1) 필요한 부분만 작동시키는 구조​

2) 스스로 추론 결과를 다듬는 학습 방식​

V3와 R1, 어떻게 다른가요?​

DeepSeek의 발전 과정​

모든 비법 소스를 공개한 오픈소스 모델​

알아두어야 할 것: 정치적 검열​

DeepSeek을 잘 쓰려면​