中国の春節期間中、DeepSeekは超低価格で急速に人気を集め、世界的なAIビッグモデル旋風を巻き起こしました。これは、AIの発展にはコンピューティングパワーとGPUの継続的な蓄積が必要であるという「伝統的な」概念を直接変えました。
しかし、多くの人が疑問に思うかもしれません。DeepSeek をトレーニングするには GPU がいくつ必要でしょうか?
この問題について、インターネット上ではさまざまな意見が飛び交っている。「アメリカのアイアンマン」マスク氏でさえ、DeepSeekに疑問を呈している。「ごく少数のチップしか使われていなかったとは信じられません。」
では、DeepSeek は GPU をいくつ使用するのでしょうか? 最近、SemiAnalysis という Web サイトでこのトピックが分析されました。個人的には、これは比較的正しいと思います。今日は一緒に議論しましょう。
DeepSeek と High-Flyer
大規模 AI モデルの分野を注意深く追ってきた人々にとって、DeepSeek は厳密に言えば新しい会社ではありません。
DeepSeekの創設者である梁文鋒氏は、1985年に広東省湛江市で生まれました。2015年に梁文鋒氏とその友人たちは、取引アルゴリズムに人工知能を使用した最も初期の機関のXNUMXつであるHigh-Flyerを設立しました。
同社は、金融分野を超えた AI の可能性と拡大の重要性を早くから認識していました。その結果、GPU の供給を拡大し続けました。2021 年の輸出規制前に、High-Flyer は 10,000 個の A100 GPU に投資し、大きな成果を上げました。
High-Flyerは進歩を続け、2023年XNUMX月にAIのさらなる可能性を追求するために「DeepSeek」をスピンオフさせる時期が来たと認識しました。当時、外部の投資家はAIにあまり興味がなく、ビジネスモデルの欠如を懸念していたため、High-Flyerは独自に同社に投資しましたが、今となってはそれが賢明な投資だったようです。
このおかげで、High-Flyer と DeepSeek は人材やコンピューティング リソースを頻繁に共有するようになりました。DeepSeek は、多くのメディアが主張するような「副業」ではなく、真剣で組織的な取り組みに成長しました。SemiAnalysis は、輸出規制を考慮しても、GPU への投資額は 500 億ドルを超えると考えています。
DeepSeekのGPUリソース配分
SemiAnalysis は、DeepSeek がトレーニングに約 50,000 個の Hopper GPU を使用していると推定していますが、これは一部の人が主張するように 50,000 個の H100 に相当するわけではありません。Nvidia はさまざまな規制に従って H100 のさまざまなバージョン (H800、H20) を製造しており、現在、中国のモデル サプライヤーが利用できるのは H20 のみです。
H800 は H100 と同じ計算能力を備えていますが、ネットワーク帯域幅が低いことに注意することが重要です。
SemiAnalysis は、DeepSeek が約 10,000 台の H800 と約 10,000 台の H100 を使用していると考えています。さらに、H20 をさらに発注しており、Nvidia は過去 1 か月間で中国向けに特別に設計された 9 万台以上の GPU を生産しました。これらの GPU は High-Flyer と DeepSeek で共有され、取引、推論、トレーニング、研究のためにある程度地理的に分散して展開されています。

ディープシークTCO
分析によると、DeepSeek のサーバー設備投資総額は約 1.6 億ドルで、そのうちこれらのクラスターの運用に関連するコストは 944 億 XNUMX 万ドルとかなり高額でした。
同様に、すべての AI ラボとハイパースケール クラウド サービス プロバイダーは、単一のトレーニング実行だけでなく、研究やトレーニングなどのさまざまなタスクのためにより多くの GPU を備えています。特定のタスクのトレーニングにリソースを効果的に集中させる方法も、DeepSeek の課題の 1 つです。
人材面では、DeepSeek は、これまでの資格に関わらず、能力と好奇心を重視して中国からの人材採用に力を入れています。DeepSeek は、多くの社員が卒業している北京大学や浙江大学などのトップ大学で定期的に就職説明会を開催しているそうです。ポジションは必ずしも事前に決まっているわけではなく、採用担当者には柔軟性が与えられています。DeepSeek は、採用広告で、何万もの GPU を制限なく使用できると自慢していました。
DeepSeek は非常に競争力が高く、有望な候補者に 1.3 万ドル以上の給与を提示していると報じられている。これは Moonshot などの中国のライバルよりもはるかに高い。DeepSeek の従業員は現在約 150 名だが、急速に成長している。
歴史が証明しているように、資金が潤沢で集中力のある小規模スタートアップは、可能性の限界を押し広げることができることが多いです。DeepSeek には Google のような官僚主義はなく、自己資金で運営しているため、アイデアを迅速に前進させることができます。ただし、Google と同様に、DeepSeek は (ほとんどの場合) 独自のデータ センターを運営しており、外部の関係者やプロバイダーに依存していません。これにより、実験の余地が広がり、スタック全体にわたって革新を起こすことができます。
SemiAnalysis は、DeepSeek が Meta の Llama プロジェクトや Mistral などを凌駕する、現在最高の「オープンで柔軟な」研究室であると考えています。
DeepSeekのトレーニングコストとパフォーマンス
最近、DeepSeek の価格と効率に関する見出しが世界的な騒動を引き起こしました。DeepSeek V3 のトレーニング費用は「たったの 6 万ドル」だったと書かれていましたが、これは間違いです。製品の部品表の特定の部分を全体のコストと考えるようなものです。トレーニング前のコストは、総コストのごく一部にすぎません。
DeepSeek の全体的なトレーニング コストを見てみましょう。
事前トレーニングのコストは、モデルに実際に費やされた金額とはかけ離れていると考えています。SemiAnalysis は、DeepSeek がこれまでに費やしたハードウェアへの支出は、500 億ドルをはるかに超えると考えています。モデル開発プロセスでは、新しいアーキテクチャのイノベーションを開発するために、新しいアイデア、新しいアーキテクチャのアイデア、アブレーション研究のテストにかなりの金額を費やす必要があります。
たとえば、マルチヘッド レイテント アテンションは DeepSeek の重要なイノベーションです。その開発には数か月かかり、多くの人的資源と GPU リソースが投入されました。記事で言及されている 6 万ドルのコストは、事前トレーニング実行の GPU コストのみに起因しており、モデルの総コストの一部にすぎません。省略されているその他の重要な部分には、R&D とハードウェア自体の総所有コスト (TCO) があります。
参考までに、Claude 3.5 Sonnet のトレーニング費用は数千万ドルで、Anthropic に必要なのがそれだけなら、Google から数十億ドル、Amazon から数百億ドルを調達することはなかったでしょう。これは、実験の実行、新しいアーキテクチャの考案、データの収集と整理、従業員への給与支払いなどを行う必要があるためです。
では、DeepSeek はどのようにしてこれほど大規模なクラスターを構築できたのでしょうか。輸出管理の遅れが鍵となり、中国市場のニーズを満たすために特別に生産された H20 モデル GPU も大量に発注しました。
V3 のパフォーマンスを見てみましょう。
V3 は間違いなく印象的なモデルですが、何と比較して印象的なのかに注目する価値があります。多くの人が V3 を GPT-4o と比較し、V3 が 4o よりも優れていることを強調しています。これは事実ですが、GPT-4o は 2024 年 XNUMX 月にリリースされました。AI の分野では、この期間に大きなアルゴリズムの進歩がもたらされました。

Deepseek-V3 競合分析
時間が経つにつれて、より少ないコンピューティング リソースで同等以上の機能を実現するのが普通です。たとえば、現在ではラップトップで実行できる小さなモデルは、トレーニングにスーパーコンピューター、推論に複数の GPU を必要とする GPT-3 に匹敵するパフォーマンスを備えています。
言い換えれば、アルゴリズムの改善によって、同じ機能のモデルをトレーニングおよび推論するために必要な計算量が少なくなったということであり、このパターンは何度も現れている。今回は、中国の研究所から生まれたため、世界が注目した。しかし、小型モデルのパフォーマンス向上は目新しいものではない。

42 MMLU 以上の最も安い LLM コスト/1 万トークン
これまでに見てきたパターンは、AI ラボが仕事のパフォーマンス向上と引き換えに、絶対的な金額でより多くの費用を費やしていることを示唆しています。アルゴリズムの進歩率は年間 4 倍と推定されており、これは年が経つごとに、同じ機能を実現するために必要な計算量が 3/4 減少していることを意味します。
Anthropic の CEO である Dario 氏は、アルゴリズムの進歩はさらに速く、10 倍の改善をもたらすと考えています。GPT-3 レベルの推論の価格設定に関しては、コストは 1,200 分の XNUMX に低下しました。
GPT-4 のコストを見ると、曲線の初期段階ではあるものの、コストも同様に下降傾向にあることがわかります。時間の経過に伴うコスト差の減少は、電力を一定に保たないことで説明できますが、この場合は、アルゴリズムの改善と最適化により、コストが 10 倍削減され、電力が 10 倍増加しています。

特定の MMLU コストを超える最も安い LLM/1 万トークン
誤解のないように言っておくと、DeepSeek は、このレベルのコストと機能を実現した最初の企業であるという点でユニークです。オープンソースのウェイトをリリースした点でもユニークですが、以前の Mistral および Llama モデルでも同様のことは行われています。DeepSeek はこのレベルのコストを実現しましたが、年末までにコストがさらに 5 分の XNUMX に下がっても驚かないでください。
- R1 のパフォーマンスは o1 に匹敵しますか?
一方、R1 は 1 月に発表されたばかりの OXNUMX に匹敵する結果を達成しています。DeepSeek はどのようにしてこれほど早く追いついたのでしょうか?
その答えは、推論は反復処理が高速で参入障壁が低く、より少ない計算量で有意義な利益を達成できる新しいパラダイムであり、以前のパラダイムよりも有利であるということです。スケーリング法則レポートで概説されているように、以前のパラダイムは事前トレーニングに依存していましたが、これはますますコストがかかり、堅牢な利益を達成することが困難になっています。
この新しいパラダイムは、合成データ生成と既存モデルでの事後トレーニングによる強化学習 (RL) を通じて推論機能を実現することに重点を置いており、これにより、人々はより速く、より低価格で進歩することができます。参入障壁の低さと最適化の容易さが組み合わさることで、DeepSeek は o1 のアプローチをこれまでよりも速く再現できます。参加者がこの新しいパラダイムでより大きな規模を達成する方法を徐々に学ぶにつれて、マッチング機能までの時間差は拡大すると予想されます。
R1 の論文では、使用された計算量について言及されていないことに注意することが重要です。これは偶然ではありません。トレーニング後の R1 用の合成データを生成するには、強化学習は言うまでもなく、大量の計算が必要です。R1 は非常に優れたモデルであり、そのことは否定しません。推論機能の最先端にこれほど早く到達したことは称賛に値します。DeepSeek は、さらに少ないリソースで追いついた中国企業として、さらに印象的です。
しかし、R1 が言及しているベンチマークの中には誤解を招くものもあります。R1 は、リードしていないベンチマークについては意図的に言及していないため、R1 と o1 を比較するのは難しいです。また、推論パフォーマンスでは R1 は o1 に匹敵しますが、多くの場合、すべてのメトリックで明確な勝者ではなく、多くの場合、o1 よりも劣っています。
O3についてはまだ触れていません。O3はR1とO1の両方よりもはるかに優れています。実際、OpenAIは最近O3の結果を共有しましたが、ベンチマークの改善は垂直的でした。「ディープラーニングは壁にぶつかった」が、これは別の種類の壁です。
- Google の推論モデルは R1 に匹敵しますか?
R1 が大きな話題を呼んだ一方で、時価総額 2.5 兆ドルの企業が 2.0 か月前に、より安価な推論モデル、Google の Gemini Flash 1 Thinking をリリースしました。このモデルはすでに利用可能で、RXNUMX よりもはるかに安価ですが、API 経由のモデル コンテキストの長さははるかに長くなります。
報告されたベンチマークでは、Flash 2.0 Thinking が R1 に勝っていますが、ベンチマークだけではすべてがわかりません。Google は 3 つのベンチマークしか公開していないため、これは不完全な状況です。それでも、Google のモデルは堅実で、大々的な宣伝はなかったものの、多くの点で R1 に勝っていると思います。これは、Google の市場開拓戦略とユーザー エクスペリエンスが貧弱だったためかもしれませんが、R1 が中国からのサプライズだったことも原因の XNUMX つです。
誤解のないように言っておくと、これらのことはいずれも DeepSeek の傑出した業績を損なうものではありません。DeepSeek は、Meta のような大企業に先んじて推論モデルをリリースできた、動きが速く、資金が潤沢で、賢く、集中力のあるスタートアップ企業として称賛に値します。
DeepSeekの技術革新
DeepSeek は AI ビッグモデルのコードを解読し、大手研究室がまだ達成していないイノベーションを実現しました。SemiAnalysis は、DeepSeek によって発表されたあらゆる改善が、欧米の研究室によってほぼ即座に再現されると予想しています。
これらの改良点とは何でしょうか? アーキテクチャ上の成果のほとんどは、R3 のベースモデルである V1 に関連しています。これらの革新について詳しく説明しましょう。
- トレーニング(事前トレーニングと微調整)
DeepSeek V3 は、前例のない規模でマルチラベル予測 (MTP) を使用し、単一のラベルではなく次のいくつかのラベルを予測するアテンション モジュールを追加します。これにより、トレーニング中のモデル パフォーマンスが向上し、推論時に破棄できます。これは、計算の労力を抑えながらパフォーマンスを向上させるアルゴリズムの革新の一例です。
トレーニングに FP8 の精度を使用するなど、他の考慮事項もありますが、米国の大手研究室では長い間 FP8 トレーニングを行ってきました。DeepSeek V3 は、さまざまなことに長けた多数の小さなエキスパートで構成された大規模なモデルである混合エキスパート モデルでもあり、これは新たな動作です。混合エキスパート モデルの課題の XNUMX つは、どのサブモデルまたは「エキスパート」にどのラベルを割り当てるかを決定することです。

専門家の混合
DeepSeek は、モデルのパフォーマンスを低下させることなく、ラベルを適切なエキスパートにバランスよくディスパッチする「ゲーティング ネットワーク」を実装しています。これは、ディスパッチが非常に効率的であり、トレーニング中は、モデル全体のサイズに比べてラベルごとに少数のパラメータのみが変更されることを意味します。これにより、トレーニングの効率が向上し、推論のコストが削減されます。
MoE の効率性向上により投資が減るのではないかと懸念する声もあるが、ダリオ氏は、より強力な AI モデルの経済的メリットは非常に大きいため、節約したコストはすぐにより大規模なモデルの構築に再投資されると指摘している。全体的な投資を減らすのではなく、MoE の効率性向上により AI のスケーリングの取り組みが加速する。企業は、より多くのコンピューティング リソースに合わせてモデルをスケーリングし、アルゴリズム的に効率化することに注力している。
R1 の場合、強力なベース モデル (V3) を持つことで大きなメリットを得ました。これは、強化学習 (RL) によるところが大きいです。RL には、フォーマット (一貫した出力を提供することを保証する) と有用性と無害性 (モデルが有用であることを保証する) という XNUMX つの焦点があります。モデルが合成データセットで微調整されると、推論機能が現れます。
R1 の論文ではコンピューティングについて言及されていないことに注意することが重要です。これは、使用されるコンピューティングの量について言及すると、主張するよりも多くの GPU があることが示唆されるためです。この規模の強化学習では、特に合成データを生成するために、大量のコンピューティングが必要です。
さらに、DeepSeek が使用するデータの一部は OpenAI のモデルから取得されているようで、これが出力から情報を抽出するポリシーに影響を与えると SemiAnalysis は考えています。これは利用規約ではすでに違法ですが、今後は、情報の抽出を防ぐための何らかの形の KYC (顧客確認) が新たなトレンドになるかもしれません。
情報抽出について言えば、R1 の論文で最も興味深いのは、推論モデルの出力を使用して微調整することで、より小さな非推論モデルを推論モデルに変換できることです。データセットのキュレーションには合計 800,000 万のサンプルが含まれており、誰でも R1 の CoT 出力を使用して独自のデータセットを作成し、これらの出力を使用して推論モデルを作成できます。推論機能を発揮するより小さなモデルが増え、それによって小さなモデルのパフォーマンスが向上する可能性があります。
- 多重潜在注意 (MLA)
MLA は、推論コストを大幅に削減する DeepSeek の重要なイノベーションの 93.3 つです。その理由は、MLA が標準アテンションと比較して、各クエリに必要な KV キャッシュを約 XNUMX% 削減するためです。KV キャッシュは、会話のコンテキストを表すデータを保存し、不要な計算を削減するために使用される、Transformer モデルのメモリ メカニズムです。

MLA
会話コンテキストが大きくなると、KV キャッシュも大きくなり、メモリの制約が大きくなる可能性があります。各クエリに必要な KV キャッシュを大幅に削減すると、各クエリに必要なハードウェアの量を削減でき、コストを削減できます。
しかし、SemiAnalysisは、DeepSeekが実際に利益を上げているのではなく、市場シェアを獲得するために原価で推論サービスを提供していると考えています。GoogleのGemini Flash 2.0 Thinkingはまだ安価であり、Googleが原価でサービスを提供する可能性は低いです。MLAは特に多くの米国の大手研究所の注目を集めています。MLAは、2年2024月にリリースされたDeepSeek V20で導入されました。H100のメモリ帯域幅と容量はHXNUMXよりも高いため、DeepSeekは推論ワークロードでもより高い効率を享受しています。
現在、DeepSeek の GPU 要件は、効果的な AI インフラストラクチャ計画の必要性を浮き彫りにしています。インテリジェントなワークロード分散、量子化、および動的な GPU 割り当てを使用することで、企業は高いパフォーマンスを維持しながらコンピューティング コストを大幅に削減できます。これは、DeepSeek が「国家レベル」の製品と呼ばれる重要な理由でもあります。