DeepSeek은 몇 개의 GPU를 사용하나요?

중국 춘절 기간 동안 DeepSeek은 초저가로 빠르게 인기를 얻었고, 글로벌 AI 빅 모델 폭풍을 일으켰습니다. 이는 AI 개발에 컴퓨팅 파워와 GPU의 지속적인 축적이 필요하다는 "전통적인" 개념을 직접적으로 바꾸었습니다.

하지만 많은 사람들은 궁금해할 것입니다. DeepSeek을 훈련하려면 얼마나 많은 GPU가 필요한가요?

인터넷에는 이 문제에 대한 다양한 의견이 있습니다. 심지어 "American Iron Man" Musk도 DeepSeek에 의문을 제기했습니다. 저는 아주 적은 수의 칩만 사용되었을 것이라고 믿지 않습니다.

그렇다면 DeepSeek은 몇 개의 GPU를 사용할까요? 최근 SemiAnalysis 웹사이트에서 이 주제를 분석했습니다. 저는 개인적으로 비교적 사실이라고 생각합니다. 오늘 함께 논의해 봅시다.

DeepSeek 및 High-Flyer

대규모 AI 모델 분야를 주의 깊게 관찰해온 사람들에게 DeepSeek은 엄밀히 말해 새로운 회사가 아닙니다.

DeepSeek 창립자 양원펑은 1985년 광둥성 잔장시에서 태어났습니다. 2015년 양원펑과 그의 친구들은 거래 알고리즘에 인공지능을 사용한 최초의 기관 중 하나인 High-Flyer를 창립했습니다.

그들은 일찍이 금융을 넘어선 AI의 잠재력과 확장의 중요성을 깨달았습니다. 그 결과, 그들은 GPU 공급을 계속 확장했습니다. 2021년 수출 제한 이전에 High-Flyer는 10,000개의 A100 GPU에 투자했고, 이는 엄청난 성과를 거두었습니다.

High-Flyer가 계속 발전함에 따라, 그들은 2023년 XNUMX월에 더 많은 AI 역량을 집중적으로 추구하기 위해 "DeepSeek"를 분사할 때가 되었다는 것을 깨달았습니다. 당시 외부 투자자들은 AI에 거의 관심이 없었고 사업 모델이 부족한 것을 우려했기 때문에 High-Flyer는 회사에 단독으로 투자했고, 지금은 현명한 투자로 보입니다.

덕분에 High-Flyer와 DeepSeek은 이제 종종 인적 자원과 컴퓨팅 리소스를 공유합니다. DeepSeek은 이제 많은 미디어가 주장하는 것처럼 "부업"이 아닌 진지하고 조직적인 노력으로 발전했습니다. SemiAnalysis는 수출 통제를 고려하더라도 GPU에 대한 투자가 500억 달러를 넘었다고 생각합니다.

DeepSeek의 GPU 리소스 분배

SemiAnalysis는 DeepSeek이 학습에 약 50,000개의 Hopper GPU를 사용한다고 추정하는데, 물론 일부 사람들이 주장하는 것처럼 50,000개의 H100과 동일하지는 않습니다. Nvidia는 다양한 규정에 따라 H100(H800, H20)의 여러 버전을 제조하며, 현재 중국의 모델 공급업체는 H20만 사용할 수 있습니다.

H800은 H100과 동일한 컴퓨팅 성능을 가지고 있지만, 네트워크 대역폭이 더 낮다는 점에 유의하는 것이 중요합니다.

SemiAnalysis는 DeepSeek이 약 10,000대의 H800과 약 10,000대의 H100을 사용한다고 생각합니다. 또한, 그들은 더 많은 H20을 주문했고, Nvidia는 지난 1개월 동안 중국을 위해 특별히 설계된 9만 개 이상의 GPU를 생산했습니다. 이러한 GPU는 High-Flyer와 DeepSeek에서 공유되며 거래, 추론, 훈련 및 연구를 위해 어느 정도 지리적으로 분산되어 배치됩니다.

딥시크 TCO

딥시크 TCO

분석 결과, DeepSeek의 총 서버 자본 지출은 약 1.6억 달러였으며, 이 중 클러스터 운영과 관련된 비용은 944억 XNUMX만 달러에 달해 상당했습니다.

마찬가지로 모든 AI 랩과 하이퍼스케일 클라우드 서비스 제공자는 단일 트레이닝 실행을 위한 것이 아니라 연구 및 트레이닝을 포함한 다양한 작업을 위해 더 많은 GPU를 보유하고 있습니다. 특정 작업을 위한 트레이닝을 위해 리소스를 효과적으로 집중하는 방법도 DeepSeek의 과제 중 하나입니다.

인재 측면에서 DeepSeek은 이전 자격과 관계없이 중국에서 인재를 모집하는 데 중점을 두고, 그들의 능력과 호기심에 초점을 맞춥니다. DeepSeek은 많은 직원이 졸업한 Peking University 및 Zhejiang University와 같은 최고 대학에서 정기적으로 취업 박람회를 개최하는 것으로 알려져 있습니다. 직책은 반드시 미리 정의되어 있지 않으며 채용 담당자는 유연성을 갖습니다. DeepSeek은 채용 광고에서 제한 없이 수만 개의 GPU를 사용할 수 있다고 자랑하기도 했습니다.

DeepSeek은 매우 경쟁이 치열하며, 유망한 지원자에게 1.3만 달러 이상의 급여를 제공하는 것으로 알려졌으며, Moonshot과 같은 중국 경쟁사보다 훨씬 높습니다. DeepSeek은 현재 약 150명의 직원을 두고 있지만 빠르게 성장하고 있습니다.

역사가 증명했듯이, 자금이 충분하고 집중력이 있는 소규모 스타트업은 종종 가능한 것의 경계를 넓힐 수 있습니다. DeepSeek은 Google과 같은 관료주의가 없으며 자체 자금으로 운영되므로 아이디어를 빠르게 발전시킬 수 있습니다. 그러나 Google과 마찬가지로 DeepSeek은(대부분의 경우) 자체 데이터 센터를 운영하며 외부 당사자나 공급업체에 의존하지 않습니다. 이를 통해 실험의 여지가 더 넓어져 전체 스택에서 혁신할 수 있습니다.

SemiAnalysis는 DeepSeek이 현재 최고의 "개방적이고 유연한" 실험실이라고 생각하며, Meta의 Llama 프로젝트, Mistral 등을 능가합니다.

DeepSeek의 훈련 비용 및 성능

최근 DeepSeek의 가격과 효율성에 대한 헤드라인이 전 세계적으로 열광적인 반응을 불러일으켰는데, DeepSeek V3의 훈련 비용이 "6만 달러"에 불과하다는 내용이었습니다. 이는 사실이 아닙니다. 마치 제품의 자재 청구서에서 특정 부분을 전체 비용으로 간주하는 것과 같습니다. 사전 훈련 비용은 총 비용의 아주 작은 부분에 불과합니다.

DeepSeek의 전반적인 학습 비용을 살펴보겠습니다.

우리는 사전 훈련 비용이 모델에 실제로 사용된 금액과는 거리가 멀다고 생각합니다. SemiAnalysis는 DeepSeek이 회사 역사상 하드웨어에 지출한 금액이 500억 달러를 훨씬 넘었다고 생각합니다. 모델 개발 과정에서 새로운 아키텍처 혁신을 개발하기 위해서는 새로운 아이디어, 새로운 아키텍처 아이디어, 절제 연구를 테스트하는 데 상당한 금액을 지출해야 합니다.

예를 들어, Multi-Head Latent Attention은 DeepSeek의 핵심 혁신입니다. 개발에는 팀이 몇 달이 걸렸고 많은 인력과 GPU 리소스가 필요했습니다. 기사에서 언급된 6만 달러의 비용은 사전 학습 실행을 위한 GPU 비용에만 기인하며, 이는 모델의 총 비용의 일부에 불과합니다. 제외된 다른 중요한 부분으로는 R&D와 하드웨어 자체의 총 소유 비용(TCO)이 있습니다.

참고로, 클로드 3.5 소넷의 훈련 비용은 수천만 달러였고, 그것이 Anthropic에 필요한 전부였다면, 그들은 구글에서 수십억 달러, 아마존에서 수천억 달러를 모금하지 않았을 것입니다. 그 이유는 그들이 실험을 실행하고, 새로운 아키텍처를 고안하고, 데이터를 수집하고 정리하고, 직원들에게 급여를 지급해야 하기 때문입니다.

그렇다면 DeepSeek은 어떻게 이렇게 큰 클러스터를 갖게 되었을까요? 수출 통제의 지연이 핵심이며, 중국 시장의 요구에 맞춰 특별히 생산된 H20 모델 GPU를 대량으로 주문하기도 했습니다.

V3의 성능을 살펴보겠습니다.

V3는 의심할 여지 없이 인상적인 모델이지만, 무엇에 비해 인상적인지 주목할 가치가 있습니다. 많은 사람들이 V3를 GPT-4o와 비교하고 V3가 4o보다 성능이 뛰어나다고 강조합니다. 사실이지만 GPT-4o는 2024년 XNUMX월에 출시되었습니다. AI 분야에서 이 기간 동안 알고리즘이 상당히 발전했습니다.

Deepseek-V3 경쟁 분석

Deepseek-V3 경쟁 분석

시간이 지남에 따라 더 적은 컴퓨팅 리소스로 동일하거나 더 큰 기능을 달성하는 것이 일반적입니다. 예를 들어, 이제 노트북에서 실행할 수 있는 작은 모델은 GPT-3와 비슷한 성능을 가지고 있는데, GPT-XNUMX는 학습을 위해 슈퍼컴퓨터가 필요하고 추론을 위해 여러 GPU가 필요합니다.

다시 말해, 알고리즘 개선으로 인해 동일한 역량의 모델을 훈련하고 추론하는 데 필요한 컴퓨팅이 줄어들었고, 이는 계속해서 나타난 패턴입니다. 이번에는 중국의 연구실에서 나왔기 때문에 전 세계가 주목했습니다. 하지만 소규모 모델의 성능 향상은 새로운 것이 아닙니다.

42 MMLU 이상에서 가장 저렴한 LLM 비용/1M 토큰

42 MMLU 이상에서 가장 저렴한 LLM 비용/1M 토큰

지금까지 우리가 목격한 패턴은 AI 연구실이 더 나은 작업 성과를 위해 절대 달러로 더 많은 비용을 지출하고 있음을 시사합니다. 알고리즘 진행률은 연간 4배로 추산되며, 이는 매년 같은 역량을 달성하는 데 필요한 컴퓨팅 양이 3/4씩 줄어든다는 것을 의미합니다.

Anthropic CEO Dario는 알고리즘의 발전이 더욱 빠르며 10배의 개선을 가져올 것이라고 믿습니다. GPT-3 수준 추론 가격 책정 측면에서 비용은 1,200배 감소했습니다.

GPT-4의 비용을 살펴보면, 곡선의 초기에는 비용에서 비슷한 하락 추세가 보입니다. 시간이 지남에 따라 비용 차이가 감소한 것은 전력을 일정하게 유지하지 않았기 때문일 수 있지만, 이 경우 알고리즘 개선 및 최적화로 인해 비용이 10배 감소하고 전력이 10배 증가했습니다.

특정 MMLU 비용/1M 토큰 이상에서 가장 저렴한 LLM

명확히 하자면, DeepSeek은 이 수준의 비용과 기능을 달성한 최초의 기업이라는 점에서 독특합니다. 또한 오픈 소스 가중치를 출시하는 데 있어서도 독특하지만, 이전 Mistral과 Llama 모델은 그렇게 했습니다. DeepSeek은 이 수준의 비용을 달성했지만, 연말까지 비용이 5배 더 떨어지는 것을 보고 놀라지 마세요.

  • R1의 성능이 o1과 비슷한가요?

반면, R1은 1월에 발표된 OXNUMX과 비슷한 결과를 달성할 수 있습니다. DeepSeek은 어떻게 그렇게 빨리 따라잡았을까요?

답은 추론이 더 빠른 반복과 더 낮은 진입 장벽을 가진 새로운 패러다임이며, 이전 패러다임보다 더 유리한 덜한 컴퓨팅으로 의미 있는 이득을 얻을 수 있다는 것입니다. Scaling Law 보고서에 설명된 대로, 이전 패러다임은 사전 학습에 의존했으며, 이는 점점 더 비용이 많이 들고 견고한 이득을 얻기 어려워지고 있습니다.

이 새로운 패러다임은 기존 모델에서 사후 학습된 합성 데이터 생성 및 강화 학습(RL)을 통해 추론 기능을 활성화하는 데 중점을 두고, 이를 통해 사람들이 더 빠르고 저렴한 가격으로 진전을 이룰 수 있습니다. 진입 장벽이 낮고 최적화가 용이하기 때문에 DeepSeek은 그 어느 때보다 빠르게 o1의 접근 방식을 복제할 수 있습니다. 참가자가 점차 이 새로운 패러다임에서 더 큰 규모를 달성하는 방법을 배우면서, 매칭 기능까지의 시간 간격이 증가할 것으로 예상됩니다.

R1 논문은 사용된 컴퓨팅 양을 언급하지 않는다는 점에 유의하는 것이 중요합니다. 이는 우연이 아닙니다. R1의 사후 학습을 위한 합성 데이터를 생성하는 데는 많은 컴퓨팅이 필요하며 강화 학습은 말할 것도 없습니다. R1은 매우 훌륭한 모델이며, 우리는 이를 부인하지 않으며, 추론 능력의 최전선에 그렇게 빨리 도달한 것은 감탄할 만한 일입니다. DeepSeek은 훨씬 더 적은 리소스로 따라잡은 중국 기업으로서 더욱 인상적입니다.

하지만 R1이 언급한 벤치마크 중 일부는 오해의 소지가 있습니다. R1을 o1과 비교하는 것은 까다롭습니다. R1은 의도적으로 선두가 아닌 벤치마크를 언급하지 않기 때문입니다. 그리고 R1은 추론 성능에서 o1과 비슷하지만, 많은 경우 모든 지표에서 명확한 승자가 아니며 많은 경우 o1보다 나쁩니다.

우리는 아직 O3에 대해 언급조차 하지 않았습니다. O3는 R1과 O1보다 훨씬 뛰어납니다. 사실, OpenAI는 최근 O3에 대한 결과를 공유했고, 벤치마크에서의 개선은 수직적이었습니다. "딥 러닝은 벽에 부딪혔다"지만, 이것은 다른 종류의 벽입니다.

  • 구글의 추론 모델이 R1과 비슷한가?

R1이 많은 과대광고를 불러일으킨 반면, 2.5조 2.0억 달러 규모의 한 회사가 한 달 전에 더 저렴한 추론 모델을 출시했습니다. 바로 Google의 Gemini Flash 1 Thinking입니다. 이 모델은 이미 출시되었으며 RXNUMX보다 훨씬 저렴하지만, API를 통해 모델 컨텍스트 길이가 훨씬 더 깁니다.

보고된 벤치마크에서 Flash 2.0 Thinking이 R1을 앞지르지만 벤치마크만으로는 모든 것을 알 수 없습니다. Google은 벤치마크를 3개만 공개했기 때문에 이는 불완전한 그림입니다. 그래도 Google의 모델은 견고하고 여러 면에서 R1과 맞먹는다고 생각하지만 과장된 광고는 전혀 없었습니다. 이는 Google의 시장 진출 전략이 부족하고 사용자 경험이 부족하기 때문일 수도 있지만 R1이 중국에서 깜짝 선물이었기 때문일 수도 있습니다.

분명히 말해서, 이 모든 것이 DeepSeek의 뛰어난 업적을 폄하하는 것은 아닙니다. DeepSeek은 Meta와 같은 거대 기업을 물리치고 추론 모델을 출시할 수 있었던 빠르게 움직이고, 자금이 풍부하고, 똑똑하고, 집중적인 스타트업이라는 점에서 칭찬을 받을 만합니다.

DeepSeek 기술 혁신

DeepSeek은 AI 빅 모델 코드를 해독하여 선도적인 랩이 아직 달성하지 못한 혁신을 실현했습니다. SemiAnalysis는 DeepSeek에서 출시한 모든 개선 사항이 서양 랩에서 거의 즉시 복제될 것으로 예상합니다.

이러한 개선 사항은 무엇입니까? 대부분의 아키텍처 성과는 R3의 기본 모델인 V1와 관련이 있습니다. 이러한 혁신을 자세히 설명하겠습니다.

  • 훈련(사전 훈련 및 미세 조정)

DeepSeek V3는 전례 없는 규모로 다중 레이블 예측(MTP)을 사용하고 단일 레이블 대신 다음 몇 개의 레이블을 예측하는 어텐션 모듈을 추가합니다. 이를 통해 학습 중에 모델 성능이 향상되고 추론 시 폐기될 수 있습니다. 이는 더 낮은 계산 노력으로 향상된 성능을 달성하는 알고리즘 혁신의 예입니다.

FP8 정밀도를 훈련에 사용하는 것과 같은 다른 고려 사항이 있지만, 미국의 주요 연구실에서는 오랫동안 FP8 훈련을 해왔습니다. DeepSeek V3도 전문가 모델의 혼합이며, 이는 다양한 분야에 능숙한 여러 다른 소규모 전문가로 구성된 대규모 모델로, 이는 새로운 행동입니다. 전문가 혼합 모델의 한 가지 과제는 어떤 하위 모델 또는 "전문가"에 어떤 레이블을 지정해야 하는지 결정하는 방법입니다.

전문가의 혼합

전문가의 혼합

DeepSeek은 모델 성능을 저하시키지 않고 균형 잡힌 방식으로 올바른 전문가에게 레이블을 전송하기 위해 "게이팅 네트워크"를 구현합니다. 즉, 전송이 매우 효율적이며 학습하는 동안 모델의 전체 크기에 비해 각 레이블에 대해 소수의 매개변수만 변경됩니다. 이를 통해 학습 효율성이 증가하고 추론 비용이 감소합니다.

일부는 MoE 효율성 향상으로 인해 투자가 감소할 수 있다고 우려하지만, Dario는 더 강력한 AI 모델의 경제적 이점이 너무 커서 모든 비용 절감이 더 큰 모델을 구축하는 데 빠르게 재투자된다고 지적합니다. 전반적인 투자를 줄이는 대신 MoE 효율성 향상은 AI 확장 노력을 가속화할 것입니다. 기업은 모델을 더 많은 컴퓨팅 리소스로 확장하고 알고리즘적으로 더 효율적으로 만드는 데 집중합니다.

R1의 경우 강력한 기본 모델(V3)을 갖는 데 큰 이점을 얻었습니다. 이는 부분적으로 강화 학습(RL) 때문입니다. RL에는 두 가지 초점이 있습니다. 형식 지정(일관된 출력을 제공하도록 보장)과 유용성 대 무해성(모델이 유용하도록 보장)입니다. 추론 기능은 모델이 합성 데이터 세트에서 미세 조정될 때 나타납니다.

R1 논문에는 컴퓨팅에 대한 언급이 없다는 점에 유의하는 것이 중요합니다. 사용된 컴퓨팅 양을 언급하면 ​​주장하는 것보다 더 많은 GPU를 보유하고 있다는 것을 암시하기 때문입니다. 이 규모의 강화 학습에는 많은 컴퓨팅이 필요하며, 특히 합성 데이터를 생성하는 데 필요합니다.

또한 DeepSeek에서 사용하는 일부 데이터는 OpenAI의 모델에서 나온 것으로 보이는데, SemiAnalysis는 이것이 출력에서 ​​정보를 추출하는 정책에 영향을 미칠 것이라고 생각합니다. 이는 이미 서비스 약관에서 불법이지만, 앞으로 새로운 트렌드는 정보 추출을 방지하기 위한 KYC(고객을 아십시오)의 어떤 형태가 될 수 있습니다.

정보 추출에 관해 말하자면, 아마도 R1 논문에서 가장 흥미로운 부분은 추론 모델의 출력으로 미세 조정하여 더 작은 비추론 모델을 추론 모델로 전환하는 기능일 것입니다. 데이터 세트 큐레이션에는 총 800,000개의 샘플이 포함되어 있으며, 이제 누구나 R1의 CoT 출력을 사용하여 자신의 데이터 세트를 만들고 이러한 출력을 사용하여 추론 모델을 만들 수 있습니다. 추론 기능을 보여주는 더 작은 모델을 더 많이 볼 수 있으며, 이를 통해 작은 모델의 성능이 향상될 수 있습니다.

  • 다중잠복주의(MLA)

MLA는 추론 비용을 크게 줄이는 DeepSeek의 핵심 혁신 중 하나입니다. 그 이유는 MLA가 표준 어텐션에 비해 각 쿼리에 필요한 KV 캐시를 약 93.3% 줄이기 때문입니다. KV 캐시는 Transformer 모델의 메모리 메커니즘으로, 대화의 맥락을 나타내는 데이터를 저장하고 불필요한 계산을 줄이는 데 사용됩니다.

행방

행방

대화 맥락이 커짐에 따라 KV 캐시도 커져서 상당한 메모리 제약이 발생할 수 있습니다. 각 쿼리에 필요한 KV 캐시를 크게 줄이면 각 쿼리에 필요한 하드웨어 양을 줄일 수 있어 비용이 절감됩니다.

그러나 SemiAnalysis는 DeepSeek이 실제로 수익을 창출하기보다는 시장 점유율을 늘리기 위해 원가로 추론 서비스를 제공하고 있다고 생각합니다. Google의 Gemini Flash 2.0 Thinking은 여전히 ​​저렴하며 Google이 원가로 서비스를 제공할 가능성은 낮습니다. MLA는 특히 많은 주요 미국 연구소의 관심을 끌었습니다. MLA는 2년 2024월에 출시된 DeepSeek V20에 도입되었습니다. H100은 HXNUMX보다 메모리 대역폭과 용량이 더 높기 때문에 DeepSeek은 추론 워크로드에서도 더 효율적입니다.

현재 DeepSeek의 GPU 요구 사항은 효과적인 AI 인프라 계획의 필요성을 강조합니다. 지능형 워크로드 분배, 양자화 및 동적 GPU 할당을 사용하면 기업은 고성능을 유지하면서 컴퓨팅 비용을 크게 줄일 수 있습니다. 이는 DeepSeek이 "국가 수준" 제품이라고 불리는 중요한 이유이기도 합니다.

코멘트 남김

위쪽으로 스크롤