NVIDIA が Spectrum-XGS イーサネット テクノロジーを発表: スケールアップ/スケールアウトからクロスドメイン スケーリングまで!

2025年のHot Chipsカンファレンスに先立ち、NVIDIAはSpectrum-XGS Ethernetテクノロジーを正式に発表しました。ネットワーク最適化アルゴリズムを基盤とするこの革新的なソリューションは、「スケールアクロス」機能を導入し、単一のデータセンターが抱える電力とスペースの物理的な制約を打破します。このソリューションは、複数の都市や国に分散する複数のデータセンターを統合された「AIスーパーファクトリー」として接続し、大規模なAIワークロード、特にエージェントAIを支える基盤インフラを提供します。

スケールアップ/アウトからスケールアクロスへ: Spectrum-XGS の必然的な選択

現在の AI データ センターは、スケーリングにおいて 2 つの主要なボトルネックに直面しており、従来のスケールアップおよびスケールアウト モデルではギガ規模の AI の需要を満たすのに苦労しています。

  • スケールアップの制限: 単一のシステムまたはラックのアップグレード(例:GPU数の増加、単一デバイスのパフォーマンス向上)によって実現できますが、水冷などのインフラストラクチャの電力上限によって制約されます。既存のデータセンターでは、電力入力と放熱に物理的な限界があり、ラックまたはデータセンターあたりのコンピューティング密度を無制限に高めることができません。
  • スケールアウトの制限: ラックとサーバーを追加してクラスターを拡張しますが、単一の会場内の物理的なスペースによって制限されるため、機器の容量に厳しい制限が課せられます。

このジレンマを克服するために、NVIDIAは「スケールアクロス」という新たな次元を提案します。これは、地理的に分散したデータセンター間のネットワーク通信を最適化し、分散型AIクラスターを一体化させるものです。NVIDIAの創業者兼CEOであるジェンスン・フアンは、この地域横断型AIスーパーファクトリーをAI産業革命の重要なインフラと位置付け、Spectrum-XGSをその中核技術の実現手段としています。

スペクトラムXGS

Spectrum-XGSのコアテクノロジー

Spectrum-XGS は全く新しいハードウェア プラットフォームではなく、NVIDIA の既存の Spectrum-X Ethernet エコシステムの進化形です。2024 年の発売以来、Spectrum-X は Spectrum-1.6 アーキテクチャの SN4 スイッチと BlueField-5600 DPU により、従来の Ethernet と比較して 3 倍高い生成 AI ネットワーク性能を実現し、NVIDIA GPU を使用する AI データセンターの主流の選択肢となっています。Spectrum-XGS の画期的な点は、XNUMX つのアルゴリズム革新とハードウェアの相乗効果にあり、クロスリージョン GPU クラスターにおける通信遅延、輻輳、同期の課題に対処します。

1.コアアルゴリズム:長距離ネットワーク特性への動的適応 

Spectrum-XGS の中核は、データセンター間通信の主要なパラメータ (距離、トラフィック パターン、輻輳レベル、パフォーマンス メトリック) をリアルタイムで分析し、ネットワーク ポリシーを動的に調整する「距離を考慮したネットワーク最適化アルゴリズム」のセットです。

距離適応型輻輳制御: 従来のイーサネットのすべての接続に対する均一な処理とは異なり、Spectrum-XGS アルゴリズムは、データセンター間の実際の距離 (現在、最大数百キロメートルの展開をサポート) に基づいて輻輳しきい値を自動的に調整し、長距離伝送におけるパケット損失や蓄積を回避します。

正確なレイテンシ管理: パケット単位のきめ細かな適応型ルーティングにより、従来のネットワークにおけるパケット再送信によるレイテンシジッターを排除します。ジッターはAIクラスターにおいて重大な問題です。単一のGPUに遅延が発生すると、連携するすべてのGPUが待機状態となり、全体的なパフォーマンスに直接影響を及ぼします。

エンドツーエンドのテレメトリGPU からスイッチ、データセンター間リンクまでのフルリンク パフォーマンス データをリアルタイムで収集することで、アルゴリズム調整のためのミリ秒レベルのフィードバックが提供され、ネットワーク状態と AI ワークロードの需要が動的に一致するようになります。

2. ハードウェアの相乗効果: Spectrum-Xエコシステムの高帯域幅基盤を活用 

Spectrum-XGS は、特定の NVIDIA ハードウェアと組み合わせると最適なパフォーマンスを実現します。

Spectrum-Xスイッチ: 基盤となるネットワーク バックボーンとして、高いポート密度と低遅延の転送を提供します。

ConnectX-8 SuperNICGPU とスイッチ間の高速データ転送を実現する 800 Gb/s AI 専用ネットワーク アダプター。

ブラックウェル・アーキテクチャー・ハードウェア: B200 GPU や GB10 スーパーチップなど、Spectrum-XGS と緊密に統合され、エンドツーエンドのレイテンシを削減します。NVIDIA は NCCL (Collective Communications Library) ベンチマークで検証済み。Spectrum-XGS は、エンドツーエンドのレイテンシを約 1.9 ミリ秒に抑えながら、データセンター間 GPU 間の通信パフォーマンスを 200 倍向上させます。このレベルは、ユーザー操作において応答性と遅延のない感覚が得られ、AI 推論のリアルタイム要件を満たします。

Spectrum-XGS による AI トレーニングと推論効率のフルスタック最適化

Spectrum-XGSは独立したテクノロジーではなく、NVIDIAのフルスタックAIエコシステムにおける重要な追加要素です。今回のリリースでは、NVIDIAはSpectrum-XGSと相乗効果を発揮し、ハードウェア、アルゴリズム、ソフトウェアの連携を実現するソフトウェアレベルのパフォーマンス強化についても発表しました。

  • Dynamo ソフトウェアのアップグレードBlackwell アーキテクチャ (B200 システムなど) 向けに最適化されており、AI モデルの推論パフォーマンスが最大 4 倍向上し、大規模モデル推論のコンピューティング消費量が大幅に削減されます。
  • 投機的デコード技術: 小規模なドラフトモデルを用いて、メインAIモデルの次の出力トークンを事前に予測することで、メインモデルの計算量を削減し、推論性能をさらに35%向上させます。これは、大規模言語モデル(LLM)における会話型推論シナリオに特に適しています。

NVIDIAのアクセラレーテッドコンピューティング部門ディレクター、デイブ・サルバトール氏は、これらの最適化の核心は、野心的なエージェント型AIアプリケーションのスケールアップにあると述べています。数兆パラメータの大規模モデルの学習から、数百万人の同時ユーザー向けのAI推論サービスのサポートまで、Spectrum-XGSとソフトウェアエコシステムの組み合わせは、予測可能なパフォーマンスを実現します。

Spectrum-XGSの初期の応用と業界への影響

最初のユーザー: CoreWeave がクロスドメイン AI スーパー ファクトリーを開拓 GPUクラウドサービスプロバイダーのCoreWeaveは、Spectrum-XGSをいち早く採用した企業の1つです。同社の共同創業者兼CTOであるピーター・サランキ氏は、この技術により顧客がギガスケールのAI機能にアクセスできるようになるため、業界横断的なブレークスルーが加速すると述べています。例えば、Oracle、ソフトバンク、OpenAIによるStargateイニシアチブのような超大規模AIプロジェクトのサポートなどが挙げられます。

業界動向:AIネットワークの主流としてInfiniBandに代わりイーサネットが主流に 80年にはAIバックエンドネットワーク市場の約2023%をInfiniBandが占めていましたが、業界は急速にイーサネットへの移行を進めています。NVIDIAがSpectrum-XGSをイーサネット上で開発するという選択は、このトレンドに沿ったものです。

互換性とコストの利点: イーサネットは、世界中のデータ センターの標準規格であり、ネットワーク エンジニアに馴染みがあり、InfiniBand よりも導入コストが安価です。

市場規模予測: Dell'Oro Group のデータによると、イーサネット データセンター スイッチ市場は今後 80 年間で XNUMX 億ドル近くに達する見込みです。

NVIDIA自身の成長650 Group のレポートによると、NVIDIA は 2024 年のデータ センター スイッチ市場で「最も急成長しているベンダー」であり、ネットワーク ビジネスの収益は 5 年第 2 四半期 (2024 月 27 日終了) に前年比 56% 増の XNUMX 億ドルに達する見込みです。

Spectrum-XGS の導入により、AI インフラストラクチャにおける NVIDIA のフルスタック独占戦略が拡大し、新たな競争のダイナミクスが生まれます。

  • NVIDIAのフルスタックレイアウトGPU(Blackwell)、インターコネクト(NVLink/NVLinkスイッチ)、ネットワーク(Spectrum-X/Spectrum-XGS、Quantum-X InfiniBand)、ソフトウェア(CUDA、TensorRT-LLM、NIMマイクロサービス)に至るまで、NVIDIAはAIインフラストラクチャのための「コンピューティング、コネクト、ソフトウェア」をカバーするクローズドループを構築しました。Spectrum-XGSはNVLinkと相乗効果を発揮し、ラック内(NVLink)、データセンター内(Spectrum-X)、データセンター間(Spectrum-XGS)の3段階のスケーリングを実現します。
  • 競合他社の反応Broadcomの初期のSUEテクノロジーは、Spectrum-XGSと同様の目標を共有しており、イーサネットパフォーマンスを最適化してInfiniBandとの差を埋めることを目指しています。さらに、Arista、Cisco、MarvellなどのベンダーはAI専用イーサネットスイッチの開発を加速させており、競争はパフォーマンス、コスト、そしてエコシステムの互換性に焦点を当てています。

Spectrum-XGSの中核的な価値は、AIデータセンターの拡張を「単一拠点の制約」から「地域をまたいだ連携」へと押し進めることにあります。電力と土地が単一のデータセンターにとって厳しい制約となるにつれ、都市間や国境を越えたAIスーパーファクトリーが、次世代AIアプリケーション(汎用人工知能、大規模エージェントクラスターなど)を支える中核的な形態となるでしょう。

NVIDIA のネットワーク部門シニア バイスプレジデント、ギラッド シェイナー氏は Hot Chips カンファレンスで次のように述べています。「データセンター間の光ファイバー物理ネットワークは以前から存在していましたが、Spectrum-XGS のようなソフトウェア アルゴリズムが、こうした物理インフラストラクチャの真のパフォーマンスを引き出す鍵となります。」

上へスクロール