NEWSLETTER/산업 LETTER

뉴욕증시를 놀라게 한 딥시크, 어떤 회사일까

칲 조 2025. 2. 4. 23:51
728x90
반응형

 

이번 설 연휴, 전 세계를 떠들썩하게 만든 중국 스타트업이 있습니다. 바로 AI 스타트업 딥시크인데요. GPT 성능에 뒤지지 않는다는 평가를 받으며 앱스토어 무료 앱 중 다운로드 수 1위를 기록한 딥시크는 학습 비용이 기존 AI 모델의 1/10에도 미치지 못한다는 점에서 업계를 놀라게 했습니다. 오늘은 화제의 중심, 딥시크의 AI 모델을 자세히 파헤쳐 보겠습니다.


딥시크, 세상을 놀라게 하다

🐳 딥시크는 어떤 회사?

딥시크는 중국의 량원펑이 만든 AI 스타트업입니다. 량원펑은 AI를 활용한 양적 투자 헤지펀드, 하이플라이어의 CEO, AI로 주가 변동을 예측하는 펀드로 많은 돈을 벌었습니다. 량원펑은 이후 수천 개의 엔비디아 GPU를 구매했고, 자체 거대언어모델(LLM)을 개발해야겠다며 딥시크를 창업했죠.

 

딥시크는 최근 LLM DeepSeek-V3(V3)와 추론에 특화한 거대언어모델 DeepSeek-R1을 공개했습니다. V3는 챗GPT의 기반이 된 ‘GPT’나 메타의 라마’(Llama)와 같은 LLM인데요. 딥시크의 발표에 따르면 2개월간의 학습 시간 동안 80억 원 정도의 비용으로 학습을 마쳤죠. 이후 딥시크는 V3를 베이스 모델로 대규모 강화학습을 진행해 R1을 만들었습니다.

💯 R1, 얼마나 똑똑해?

딥시크는 오픈AI‘GPT-o1’R1을 비교한 벤치마크를 발표했습니다. R1은 총 6개 분야 중 수학 경시대회 문제 테스트 AIME, 500개 이상의 수학 문제를 해결하는 MATH-500, 소프트웨어 문제를 해결하는 SWE Verified에서 오픈AIo1을 근소하게 앞섰습니다.

 

💸 딥시크의 학습 비용이 500만 달러?

핵심은 이런 R1 모델의 학습 비용이 557만 달러(80억 원)에 불과하다는 점입니다. 이는 오픈 AIGPT-4를 개발하는 데 사용한 금액(1억 달러)18분의 1 수준, 메타의 라마 3 개발 비용의 10분의 1 수준에 불과한데요. 지금까지의 LLM 훈련 비용과 비교하면 혁신적으로 적은 비용입니다.

https://biz.heraldcorp.com/article/10411882

 

🇨🇳 중국의 저비용 AI 트렌드

중국의 AI 기업은 유독 저비용 AI 연구에 몰두합니다. 최첨단 AI 반도체를 대량으로 확보해 빠른 속도로 연구를 진행하는 오픈AI와 같은 미국 빅테크를 따라잡기 힘들기 때문인데요. , 미국의 첨단 반도체 제재로 최첨단 AI 반도체를 확보하기도 어렵다는 점도 난관이죠. 중국 AI 기업은 어쩔 수 없이 저사양 반도체로도 높은 성능을 내는 저비용 AI 연구에 몰두했는데요. 이런 제약이 역설적으로 딥시크라는 혁신적인 결과물을 만들어냈다는 분석이 나옵니다.

 

딥시크의 비법, 증류 모델

딥시크는 증류(Distillation)라는 기술을 통해 R1 모델을 더욱더 작게 만들기도 했습니다. 증류는 소형 모델이 거대 모델의 추론 방식 등 학습 내용을 배우도록 하는 기술인데요. 딥시크는 지도학습 기반의 파인튜닝(SFT, Supervised Fine-Tuning)만을 활용해 증류를 진행했고, 이 방식이 소형 모델들의 성능을 높이는 데 효과적이라는 것을 입증했습니다.

 

다만, 증류를 통한 학습은 도용 논란을 피하기 어렵습니다. 지금까지 많은 AI가 챗GPT와 같은 거대 모델을 증류하는 방식으로 비용을 절감했는데요. 오픈AI는 약관에 "서비스를 복사하거나, 경쟁 모델 개발에 우리의 서비스를 사용할 수 없다"라는 규정을 넣어뒀지만 암묵적으로 이를 허용해 왔습니다. 그러나 R1의 등장으로 오픈소스가 아닌 AI 모델의 증류를 막는 기업이 많아질 가능성도 제기됩니다.


딥시크의 주요 기술은

📑 강화학습을 극대화한 GRPO

일반적으로 AI 모델을 학습할 때는 지도학습(Supervised Learning)을 거칩니다. 지도학습이란 쉽게 말해 사람이 정답과 오답을 표시해 둔 데이터를 AI가 학습하는 방식인데요. 그러나 딥시크는 V3 모델을 기반으로 R1 모델을 학습시킬 때 강화학습(RL, Reinforcement Learning)을 사용했습니다. 강화학습이란 AI가 특정 행동을 했을 때 그에 맞는 보상을 줘 더 좋은 행동을 하도록 학습시키는 방식입니다.

 

또한, 딥시크는 강화학습의 효율성을 높이기 위해 GRPO(Group Relative Policy Optimization)라는 방식을 더했습니다. GRPOAI 모델이 취하는 행동을 그룹으로 묶고, 그룹 내에서 상대적으로 가장 우수한 행동을 찾는 학습 방법입니다. 기존 강화학습은 행동에 대해 절대적인 점수를 도출하는 평가 모델이 필요했는데요. GRPO는 상대적으로 행동을 비교하기 때문에 구체적인 점수를 내지 않아도 되고, 그래서 더욱 적은 자원으로 최적의 행동을 학습시킬 수 있습니다.

 

💡 AI의 아하 모먼트!

딥시크는 강화학습을 통해 AI가 최적의 행동을 찾아가는 와중에 어느 순간 아하 모먼트’(Aha-Moment)를 겪는다고 밝혔습니다. , 문제를 해결할 때 기존 접근 방식에 한계를 느끼고, 새로운 방법으로 접근하는 순간이 반드시 발생한다는 지적인데요. 이 과정을 겪은 AI 모델은 기존의 모델보다 자율적이고 적응력이 높다고 하죠.

 

양자화로 효율성 UP!

양자화(Quantization)란 쉽게 말해 데이터를 소수점 32자리까지 상세하게 기록하던 것(32bit)을 소수점 8자리까지만 기록(8bit)해 사용하는 기법입니다. 데이터의 엄밀성과 정확도가 떨어진다는 한계는 있지만 그만큼 효율적인 계산이 가능한데요. 딥시크는 정확도에 큰 영향이 없는 수준에서 메모리 사용량을 75% 감소시킬 정도의 양자화에 성공했습니다.

 

💬 멀티 토큰 시스템

지금까지의 일반적인 LLM은 사람의 말(자연어)을 토큰 단위로 처리했습니다. 비유하자면 단어 단위로 문장을 이해한 것인데요. 딥시크는 여러 토큰을 한 번에 처리해 문장 단위로 자연어를 이해하고자 했습니다. 이를 멀티 토큰 시스템이라고 하는데요. 덕분에 속도는 2배 정도 개선됐고, 답변 정확도는 90%를 기록할 수 있었죠.

 

🔬 전문가 시스템 구축

마지막으로, 딥시크는 전문가 혼합(MoE, Mixture of Experts) 알고리즘을 이용해 더욱 적은 연산 능력으로도 최적의 답변을 내놓습니다. MoEAI 안에 여러 분야의 전문가를 배치하는 기술로, 각 분야에 대해 답변할 때는 해당 분야에 해당하는 부분만 사용해 연산하는 기술입니다. 만약 MoE가 없다면 6천억 개가 넘는 변수를 전부 활성화해 계산해야 한다면, MoE가 있다면 370억 개의 변수만 사용해 답변을 내놓을 수 있죠. 덕분에 비교적 작은 컴퓨팅 소스에서도 딥시크의 모델을 운영할 수 있습니다.


딥시크, 어떤 변화를 가져올까?

💻 API 사용에서 다시 로컬 AI

지금까지 챗GPT를 사용하는 많은 서비스는 주로 오픈AI가 제공하는 API를 사용해 왔습니다. API를 사용한다는 것은 쉽게 말해 오픈AI의 서버에 “OOO에 대한 답변을 줘라고 요청하면, 오픈AI의 서버에서 챗GPT를 돌려 답변을 도출하고, 이 답변을 다시 사용자에게 보내주는 방식입니다. 비용을 내면 오픈AI가 자신의 서버에서 AI를 돌려 답변을 보내주는 것이죠. 지금까지는 사용자가 거대언어모델을 돌릴 GPU를 갖추기 쉽지 않았기 때문에 API를 사용하는 방식이 주류였습니다.

 

그런데 딥시크의 R1과 같이 저비용 AI는 최첨단 GPU가 없어도 모델을 돌릴 수 있습니다. 특히 딥시크는 R1을 다시 증류한 소형 모델을 다수 공개했는데요. 이 소형 모델은 사용자가 작은 컴퓨팅 파워로도 운영할 수 있게 설계됐습니다. 이런 소형 모델이 다수 만들어지면, 앞으로는 API 대신 사용자가 직접 자신의 컴퓨터나 서버를 사용해 AI 모델을 돌리는 방식이 주류가 될 것으로 보입니다.

 

📱 온디바이스 AI가 떠오른다

저비용 AI는 각 기기에서 효율적으로 모델을 돌리는 것이 중요한 온디바이스 AI와 궁합이 좋습니다. 가볍고 효율적인 AI 모델은 소형 디바이스에서도 AI를 운영할 수 있게 해주기 때문이죠. 딥시크의 R1과 같은 저비용 AI 모델들은 온디바이스 AI 분야에 적극적으로 활용될 것으로 예상됩니다.

 


딥시크 쇼크, 우리가 제대로 알아야 할 것

😱 엔비디아의 몰락?

딥시크 쇼크 이후 엔비디아의 시가총액이 하루 만에 800조 원 넘게 빠지는 등 반도체 종목의 주가 하락이 이어졌습니다. 그동안 반도체 업계는 고성능 AI를 뒷받침하기 위한 최첨단 AI 반도체 개발을 위해 노력해 왔는데요. 그러나 딥시크의 등장 이후 첨단 반도체 없이 소프트웨어만으로도 성과를 낼 수 있다는 사실이 알려지면서 고성능 반도체의 중요성이 떨어졌기 때문이죠.

 

다만 조만간 반도체 관련주 주가는 다시금 제자리를 찾을 것이라는 전망이 지배적입니다. 강화학습과 증류 같은 딥시크의 AI 학습 방법론들은 최첨단 반도체가 아니어도 되지만, 여전히 GPU와 같은 반도체가 필요합니다. 많은 기업이 R1 모델을 활용한다면 오히려 반도체 수요가 더 늘어날 수도 있죠.

 

또한 딥시크와 같은 효율성에 초점을 맞춘 모델은 일반 사람들이 활용하기에는 손색이 없을지 모릅니다. 하지만, AI 업계는 이미 사람과 같은 수준의 범용인공지능(AGI)을 목표로 합니다. 지금보다는 압도적인 성능을 목표로 하는 오픈AI와 메타, 마이크로소프트 등 빅테크는 딥시크와는 무관하게 앞으로도 지속해서 최첨단 반도체가 필요하며, AI 투자를 이어갈 것으로 보이죠.

 

🤔 딥시크의 비용 논란

딥시크가 발표한 AI 학습 비용에 대한 회의적인 시각도 존재합니다. 500만 달러라는 학습 비용은 딥시크가 2개월 동안 V3 모델을 학습한 비용인데요. 사전에 연구·개발한 비용은 포함하지 않았기도 하고, V3 모델을 기반으로 R1 모델을 학습시킬 때 든 비용은 확인이 불가능합니다.

 

한편, 딥시크가 엔비디아의 최첨단 반도체 H1005만 개가량 쟁여뒀다는 소문도 있습니다. 실제로 딥시크는 미국의 대중국 반도체 규제가 시작되기 전 10만 개의 GPU를 확보했다고 밝힌 적이 있죠. 이에 미국 일각에서는 현재까지 투입된 비용이 5억 달러를 웃돌 것이란 분석을 내놓고 있죠.

 

🧐 딥시크를 둘러싼 또 다른 논란들

딥시크가 오픈AI의 학습 데이터를 도용했다는 논란도 존재합니다. 오픈AI는 중국에 기반을 둔 여러 기관이 자사 AI 도구에서 학습 데이터를 대량으로 빼내려는 시도를 목격했다며, 특히 증류를 통한 학습 과정에서 이런 시도가 보였다고 주장합니다. 오픈AI는 성명을 내고 앞으로 자사의 지식재산권 보호를 위한 대책을 시행하겠다고 밝혔죠.

 

딥시크의 보안과 관련된 논란도 있습니다. 하정우 네이버 클라우드 AI 이노베이션센터장은 SNS에 딥시크가 수집하는 정보가 매우 광범위하다며, 사용 장비 정보, 키보드 입력 패턴이나 리듬은 물론 쿠키 정보까지 전부 수집한다고 말했습니다. 또한 며칠 전에는 딥시크의 내부 데이터베이스가 노출돼 100만 건 이상의 민감한 정보가 노출되는 사고가 발생했는데요. 이에 미국 해군, 대만 정부 부처 등은 딥시크의 사용을 금지하기도 했습니다.

 

🎊 오픈소스의 발전 가능성

한편, 딥시크는 누구나 R1 모델을 활용할 수 있도록 R1을 오픈 소스로 공개했습니다. 특히 R1 모델을 증류한 소형 모델도 공개해 누구나 모델을 연구하고 수정할 수 있는데요. R1이 오픈 소스로 공개되며 저비용 AI 분야에서 빠르게 혁신이 일어날 것으로 보입니다.


일각에서는 딥시크의 등장을 스푸트니크 모먼트라고 보기도 합니다. 소련이 스푸트니크 1호를 쏘아 올리며 미국의 우주 기술을 따라잡은 순간처럼, 중국이 미국의 AI 기술력을 단숨에 따라잡았다는 것이죠. 그러나 아직 딥시크에 대한 논란도 많은 것도 사실입니다. 앞으로 딥시크의 R1 모델이 어떻게 활용되는지를 조금은 지켜봐야 할 타이밍입니다.

728x90
반응형