スケーリングの法則が誤解され、NVIDIA が Blackwell & Rubin を立ち上げる

AI業界の「スーパーボウル」が始まりました。今日の主役はジェンスン・フアンです。

世界中の技術系起業家、開発者、科学者、投資家、NVIDIA の顧客、パートナー、メディアが、黒い革ジャンを着た男を見るためにサンノゼの小さな街に集まってきました。

黄氏のGTC 2025基調講演は10月00日現地時間午前18時に始まったが、午前6時までにDoges AIの創設者アブラハム・ゴメス氏はすでにSAPセンターの00番目の列を確保しており、「最前列の席を確保したい」と願っていた。午前8時までに、外の列は00キロメートル以上に伸びていた。

音楽生成スタートアップ企業ワンデラのCEOビルは、ジェンセンへの敬意として、自らの黒い革ジャケットを着て最前列に座った。聴衆が熱狂する中、フアンは昨年のロックスターのようなエネルギーに比べ、より落ち着いた口調で話した。今回は、スピーチ全体を通じて「スケールアップ」を繰り返し強調し、NVIDIAの戦略を再確認することを目指した。

昨年、黄氏は「未来は生成的である」と宣言し、今年は「AI は転換点にある」と主張しました。基調講演では、3 つの重要な発表に焦点が当てられました。

1. ブラックウェルGPUが本格生産開始

「需要は信じられないほど高いですが、それには十分な理由があります。AI は転換点を迎えているのです」と Huang 氏は述べ、AI 推論シ​​ステムとエージェント トレーニング ワークロードによって推進されるコンピューティング能力に対するニーズが高まっていることを強調しました。

2. Dynamo AI ソフトウェアを搭載した Blackwell NVLink 72

新しいプラットフォームは、NVIDIA Hopper の 40 倍の AI ファクトリー パフォーマンスを実現します。「AI の規模を拡大していくと、今後 XNUMX 年間は推論がワークロードの主流になるでしょう」と Huang 氏は説明します。Blackwell Ultra の紹介で、同氏は「買えば買うほど節約できます。実際、さらに良いのは、買えば買うほど儲かるということです」という古典的なフレーズを復活させました。

3. NVIDIA の AI インフラストラクチャに関する年間ロードマップ

同社は、クラウド、エンタープライズ、ロボティクスという 3 つの AI インフラストラクチャの柱を概説しました。

あらゆる業界のためのAI

Huang 氏はまた、Blackwell Ultra GB300 (アップグレードされた Blackwell) と Rubin Ultra を搭載した次世代 Vera Rubin アーキテクチャという XNUMX つの新しい GPU も発表しました。

NVIDIA は、昨年の Blackwell のアップグレード版である Blackwell Ultra GB300 と、Rubin Ultra とともに Vera Rubin と呼ばれるまったく新しいチップ アーキテクチャという XNUMX つの新しい GPU を発表しました。

ジェンセン・フアンのスケーリング法則に対する揺るぎない信念は、数世代にわたるチップ アーキテクチャを通じて達成された進歩に根ざしています。

彼の基調講演は主に「大規模 AI 推論のためのエクストリーム コンピューティング」に焦点が当てられました。

AI 推論では、個々のユーザーから大規模な展開に拡張するには、パフォーマンスとコスト効率の最適なバランスを見つける必要があります。システムは、ユーザーへの迅速な応答を保証するだけでなく、ハードウェア機能 (FLOPS、HBM 帯域幅など) を強化し、ソフトウェア (アーキテクチャ、アルゴリズムなど) を最適化することで全体的なスループット (1 秒あたりのトークン数) を最大化し、最終的に大規模推論の経済的価値を引き出す必要があります。

大規模な推論はエクストリームコンピューティングである

スケーリング法則の減速に関する懸念について、ジェンセン・フアン氏は対照的な見解を示し、「新たな拡張方法とテクノロジーが、AI の改善を前例のないペースで加速させている」と主張しました。

かなりのプレッシャーに直面した黄氏は、生放送中は明らかに緊張しているように見え、休憩中に頻繁に水をすすり、プレゼンテーションの終わりには声が少しかすれていた。

AI 市場が「トレーニング」から「推論」へと移行する中、AMD、Intel、Google、Amazon などの競合他社は、NVIDIA への依存を減らすために専用の推論チップを導入しています。一方、Cerebras、Groq、Tenstorrent などのスタートアップは AI アクセラレータの開発を加速させており、DeepSeek などの企業はモデルを最適化することで高価な GPU への依存を最小限に抑えることを目指しています。これらのダイナミクスは、Huang が直面する課題の一因となっています。NVIDIA はトレーニング市場の 90% 以上を独占していますが、Huang は競争が激化する中で推論市場を手放さないと決意しています。イベントの入場バナーは、「AI の次の展開はここから始まる」と大胆に問いかけていました。

AIの未来はここから始まる

「FiberMall」が現地で要約したジェンセン・フアン氏の基調講演の主なハイライトは次のとおりです。

世界はスケーリングの法則を誤解している

AI は過去 10 年間、NVIDIA にとって変革の機会となってきました。そして、Huang 氏はその可能性に深い自信を持っています。今回の GTC で、同氏は 1 月の CES 基調講演で使用した 2 つのスライドを再度紹介しました。

最初のスライドでは、AI 開発の段階である、知覚 AI、生成 AI、エージェント AI、物理 AI について概説しました。

AI開発の段階

2 番目のスライドでは、スケーリング法則の 3 つのフェーズ (トレーニング前のスケーリング、トレーニング後のスケーリング、テスト時のスケーリング (長い思考)) が示されました。

スケーリング法則の3つの段階

黄氏は、スケーリング法則の減速に対する懸念は見当違いであると主張し、主流の見解とは対照的な見解を示した。黄氏の見解では、新たな拡張方法と技術が、前例のないペースで AI の進歩を推進している。

スケーリングの法則を固く信じる Huang 氏の確信は、世界的な AI の進歩が NVIDIA の GPU ビジネスと密接に結びついているという事実に由来しています。同氏はさらに、「段階的に推論」できる AI の進化について説明し、計算需要の促進における推論と強化学習の役割を強調しました。AI が「変曲点」に達するにつれて、クラウド サービス プロバイダーは GPU をますます要求するようになり、Huang 氏はデータ センター建設の価値が 1 兆ドルに達すると予測しています。

Huang 氏は、NVIDIA CUDA-X GPU アクセラレーション ライブラリとマイクロサービスが現在、ほぼすべての業界で利用されていると詳しく説明しました。同氏のビジョンでは、将来、すべての企業が 2 つの工場を運営することになります。1 つは商品を生産するための工場、もう 1 つは AI を生成するための工場です。

CUDA-X GPU

AI は、ロボット工学、自動運転車、工場、無線ネットワークなど、世界中でさまざまな分野に拡大しています。ジェンセン・フアン氏は、AI の最も初期の応用例の 1 つが自動運転車であったことを強調し、「当社が開発した技術は、データ センターと自動車業界の両方で、ほぼすべての自動運転車企業で使用されています」と述べました。

ジェンセン氏は、自動運転における重要なマイルストーンを発表しました。米国最大の自動車メーカーであるゼネラルモーターズが、次世代の車両、工場、ロボットの開発に NVIDIA の AI、シミュレーション、アクセラレーテッド コンピューティングを採用しています。また、ジェンセン氏は、NVIDIA の自動車ハードウェアおよびソフトウェアの安全ソリューションと、自動運転車の安全性に関する最先端の AI 研究を組み合わせた統合安全システムである NVIDIA Halos も紹介しました。

自律車両

データ センターと推論について、Huang 氏は、NVIDIA Blackwell が本格的な生産段階に入ったことを共有し、多数の業界パートナーのシステムを紹介しました。Blackwell の可能性に満足した同氏は、Blackwell が極めて高いスケーラビリティをサポートする仕組みについて詳しく説明し、「私たちは重要な課題に取り組むことを目指しており、これを推論と呼んでいます」と説明しました。

黄氏は、推論にはトークンの生成が伴い、これはビジネスに不可欠なプロセスであると強調した。トークンを生成するこれらのAIファクトリーは、並外れた効率とパフォーマンスで構築されなければならない。ますます複雑化する問題を解決できる最新の推論モデルにより、トークンの需要は今後も高まり続けるだろう。

大規模推論をさらに加速するために、フアンは、AI 工場の推論モデルを最適化および拡張するように設計されたオープンソース ソフトウェア プラットフォームである NVIDIA Dynamo を発表しました。彼はこれを「本質的には AI 工場のオペレーティング システム」と表現し、その変革の可能性を強調しました。

NVIDIA Dynamo を発表

「より多く購入、より多く節約、より多く稼ぐ」

NVIDIA は、昨年の Blackwell のアップグレード版である Blackwell Ultra GB300 と、次世代の Vera Rubin および Rubin Ultra チップ アーキテクチャという XNUMX つの新しい GPU も発表しました。

Blackwell Ultra GB300 は今年後半に発売される予定です。

『ヴェラ・ルービン』は来年後半に公開予定。

Rubin Ultraは2027年後半に発売される予定です。

さらに、Huang 氏は今後のチップのロードマップも発表しました。Rubin の次の世代のアーキテクチャは Feynman と名付けられ、2028 年にリリースされる予定です。この名前は、有名な理論物理学者 Richard Feynman に敬意を表したものと思われます。

NVIDIA の伝統を継承し、各 GPU アーキテクチャは著名な科学者にちなんで命名されています。Blackwell は統計学者の David Harold Blackwell にちなんで、Rubin は暗黒物質の存在を確認した先駆的な天体物理学者である Vera Rubin にちなんで命名されています。

NVIDIAが道路を舗装

過去 13 年間で、NVIDIA は XNUMX 世代の GPU アーキテクチャをリリースしており、平均して XNUMX 年に XNUMX 世代以上のペースで新しいアーキテクチャがリリースされています。これらには、Tesla、Fermi、Kepler、Maxwell、Pascal、Turing、Ampere、Hopper、そして最近では Rubin などの有名なアーキテクチャが含まれています。Huang のスケーリング法則への取り組みは、これらのイノベーションの原動力となっています。

パフォーマンスに関しては、Blackwell Ultra は Blackwell と比較して大幅なアップグレードが提供されており、HBM3e メモリ容量が 192 GB から 288 GB に増加しています。NVIDIA はまた、Blackwell Ultra を 100 年にリリースされた H2022 チップと比較し、FP1.5 推論パフォーマンスの 4 倍を実現できることを指摘しています。これは大きな利点につながります。DeepSeek-R72 1B モデルを実行する NVL671 クラスターは、H10 では 1.5 分かかるのに対し、100 秒でインタラクティブな応答を提供できます。Blackwell Ultra は 1,000 秒あたり 10 トークンを処理し、これは H100 の XNUMX 倍です。

ブラックウェル ウルトラ NVL72

NVIDIA は、以下の機能を備えた GB300 NVL72 シングルラック システムも提供します。

FP1.1の4エクサフロップス、

20TBのHBMメモリ、

40TBの「高速メモリ」

130TB/秒のNVLink帯域幅、および

ネットワーク速度は14.4TB/秒。

ブラックウェル ウルトラの圧倒的なパフォーマンスを認めたフアン氏は、顧客が H100 の購入を見送るかもしれないという懸念について冗談を飛ばした。彼は冗談めかして自らを「売上を最も損なう人間」と呼び、限られたケースではホッパー チップが「まあまあ」だが、そのようなシナリオはまれだと認めた。最後に、彼はいつものセリフでこう宣言した。「たくさん買えば、もっと節約できる。それよりもさらにいい。今なら、買えば買うほど、もっと稼げる」

Rubin アーキテクチャは、NVIDIA にとって画期的な一歩となります。Jensen Huang 氏は、「基本的に、ラック以外のすべてがまったく新しいものです」と強調しました。

強化された FP4 パフォーマンス: Rubin GPU は 50 ペタフロップスを達成し、Blackwell の 20 ペタフロップスを上回ります。Rubin Ultra は、相互接続された 100 つの Rubin GPU を備えた単一のチップで構成され、4 ペタフロップスの FP1 パフォーマンス (Rubin の XNUMX 倍) と、ほぼ XNUMX 倍の XNUMXTB のメモリを実現します。

NVL576 Rubin Ultra ラック: 15 エクサフロップスの FP4 推論と 5 エクサフロップスの FP8 トレーニングを提供し、Blackwell Ultra ラックの 14 倍のパフォーマンスを誇ります。

nvidia rubin システム

フアン氏はまた、フォトニクス技術を NVIDIA の Spectrum-X および Quantum-X シリコン フォトニック ネットワーク スイッチに組み込んでシステムを拡張する統合についても説明しました。これらのイノベーションは電子通信と光通信を融合し、AI ファクトリーが複数の拠点間で数百万の GPU を相互接続しながら、エネルギー消費とコストを削減できるようにします。

フォトニックネットワークスイッチ

スイッチは非常に効率的で、従来の方法と比較して、3.5 倍の電力効率、63 倍の信号整合性、10 倍のネットワーク耐障害性、およびより高速な展開を実現します。

AI時代のコンピューター

クラウド チップやデータ センターを超えて、NVIDIA は NVIDIA Grace Blackwell プラットフォームを搭載したデスクトップ AI スーパーコンピューターを発表しました。AI 開発者、研究者、データ サイエンティスト、学生向けに設計されたこれらのデバイスにより、デスクトップ レベルでの大規模モデルのプロトタイピング、微調整、推論が可能になります。

デスクトップAIスーパーコンピュータ

主な製品は次のとおりです。

DGX スーパーコンピューター: 比類のないローカルまたはクラウド展開機能を実現する NVIDIA Grace Blackwell プラットフォームを搭載しています。

DGX Station: Blackwell Ultra を搭載した高性能ワークステーション。

ブラックウェル ウルトラ

Llama Nemotron 推論シリーズ: マルチステップの推論、コーディング、意思決定が改善されたオープンソースの AI モデル ファミリ。NVIDIA の機能強化により、精度が 20%、推論速度が 5 倍、運用コスト効率が向上します。Microsoft、SAP、Accenture などの大手企業が NVIDIA と提携して、新しい推論モデルを開発しています。

汎用ロボットの時代

ジェンスン フアンは、ロボットが次の 10 兆ドル産業であると宣言し、今世紀末までに 50 万人に達すると予想される世界的な労働力不足に対処します。NVIDIA は、世界初のオープンで完全にカスタマイズ可能なヒューマノイド推論およびスキル基盤モデルである Isaac GR00T N1 と、新しいデータ生成およびロボット学習フレームワークを発表しました。これは、AI の次のフロンティアへの道を開きます。

さらに、NVIDIA は物理 AI 開発用の Cosmos Foundation Model をリリースしました。このオープンでカスタマイズ可能なモデルにより、開発者はこれまでにないほどワールド生成を制御できるようになり、Omniverse との統合を通じて広大かつ体系的に無限のデータセットを作成できます。

黄氏はまた、Google DeepMindおよびDisney Researchと共同開発したロボットシミュレーション用のオープンソース物理エンジンであるNewtonも紹介した。昨年のGTCに登場した「Blue」という名の小型ロボットが再びステージに登場し、観客を喜ばせたという思い出深い瞬間もあった。

青

NVIDIA の継続的な取り組みは、10 年以上前の AlexNet による AI のブレークスルーから、今日のロボット工学と物理 AI への注力に至るまで、GPU の用途を見つけることでした。NVIDIA の次の 10 年間の抱負は実を結ぶでしょうか? 時間が経てばわかるでしょう。

コメント

上へスクロール