加速する AI 業界により 1.6T OSFP-XD の需要が高まる

AI ハードウェアの需要は急増しており、コンピューティング チップの出荷は加速すると予想されます。 FiberMall のコンピューティング パワー産業チェーンの調査に基づいて、FiberMall は、NVIDIA の H シリーズ チップと B シリーズ チップの出荷数が 3.56 年にそれぞれ 350,000 万ユニットと 2024 ユニットに達すると予測しています。2025 年には、GB200 のさらなる出荷により、合計B シリーズ GPU の出荷台数は 2.5 万台に達すると予想されます。さらに、FiberMall は、Google の TPU と AMD の MI300 の展開も継続し、これらすべてがネットワーク レベルで 800G OSFP および 1.6T OSFP-XD 光モジュールの同期した立ち上げを推進すると予想しています。

業界チェーンの前向きな発展により、1.6T の需要は予想を上回ると予想されます。 OFC 2024では、複数の出展者が最新の1.6T OSFP-XD光モジュール製品を展示しました。以前、GTC カンファレンスで発表された NVIDIA の新しい Blackwell AI チップは相互接続性に対するより高い要件を引き上げ、X800 シリーズ スイッチは 1.6T ネットワークの構築を可能にしました。一方、上流の光モジュール産業チェーンも徐々に整備されており、マーベルは 1.6G の単一チャネルを備えた 200T DSP が 2024 年末までに導入されると予想しており、ブロードコムは 200G EML の量産準備が整っていると述べています。 FiberMall は、1.6T の産業チェーンが上流と下流の両方で成熟を加速していると考えています。導入に関して、FiberMall は、2024 年後半に、NVIDIA の B シリーズ チップの量産と連携して 1.6T OSFP-XD 光モジュールが導入され、最初は小規模な立ち上げが達成され、その後、導入されると予想しています。技術的には、FiberMall は、EML シングルモードが 2025T 時代でも依然として主流であると信じていますが、シリコン フォトニクスやリニアなどの新技術ソリューションの普及率の急速な成長についても楽観的です。 -ドライブプラガブルオプティクス(LPO)。

需要に関して、FiberMall は 2025 年に次のように予測しています。

1) 海外の上位 1 ~ 2 社の顧客からの需要は 800G OSFP から 1.6T に急速に移行し、1.6T OSFP-XD 光モジュールの急速な増加につながります。

2) 一部の顧客の 800G OSFP 需要は高速への移行により減少する可能性がありますが、別の顧客グループの需要は 400G OSFP から 800G OSFP に移行し、全体の 800G OSFP 需要に一定のサポートを提供します。

1.6 年の総出荷量 2025T に関する FiberMall のシナリオ分析は、次の 1 つの主要な変数に基づいています。2) AI ハードウェア調達の全体的な繁栄 (B シリーズ GPU の出荷量は 3 ~ 2 万台)。 1.6) 1.6T ネットワークの成熟スケジュール (70T ネットワーク ソリューションと組み合わせた B シリーズ GPU の割合は 90% ~ XNUMX%)。分析によると、 1.6T OSFP-XD 2025 年の光モジュールの出荷台数は 3.6 万~5.95 万台、中立シナリオでは 4.7 万台となり、これは現在の市場予想を上回ります。

1.6T OSFP-XD光モジュールの需要シナリオ分析

FiberMall は、NVIDIA、TPU、MI300 などの AI チップの出荷予測、光モジュールと AI チップの相関関係、光モジュールの速度構成の選択を考慮して、包括的な分析を実施しました。分析によると、800 年の 1.6G OSFP 光モジュールと 2025T OSFP-XD 光モジュールの需要は、それぞれ 7.91 万ユニットと 4.7 万ユニットに達する可能性があります。主な前提条件は次のとおりです。

  • AI チップ出荷予測: GTC 2024 カンファレンスで、NVIDIA は、Blackwell アーキテクチャに基づく第 200 世代 B シリーズ クラウド GPU と、新しい GB200 CPU+GPU アーキテクチャ スーパー チップおよび対応する GB72 NVL1 コンピューティング ユニットを発表しました。単一のキャビネットでスーパーコンピューティング レベルの 300E フロップスのパフォーマンスを提供し、チップからシステムまでのパフォーマンスのアップグレードを実現します。 FiberMall では、汎用 GPU に加えて、Google の TPU と AMD の MI800 の導入も継続し、1.6G OSFP/XNUMXT OSFP-XD 光モジュール構成の需要が高まると予想しています。
  • 光モジュールと AI チップ間の相関関係の推定: InfiniBand ファットツリー ネットワーク アーキテクチャでは、非収束ネットワーク特性により、各ネットワーク層の合計帯域幅は一定です。 AI アクセラレーション カードとネットワーク カードの比率が 1:1 であるという仮定に基づいて、FiberMall は、H100 と 800G OSFP 光モジュールの比率が 1 層ネットワーク アーキテクチャでは 3:1、2 層ネットワーク アーキテクチャでは 2024:800 であると計算しています。レイヤーアーキテクチャ。 GTC 3400 カンファレンスで、NVIDIA は X4 シリーズ スイッチを発表しました。このうち、InfiniBand プロトコルに基づく Q144-RA 800U スイッチには 72 個の 1.6G OSFP ポートがあり、800 個の 144T ポートと同等に割り当てることができます。 FiberMall は、9700 ポートを備えた Quantum-X64 シリーズ スイッチのパフォーマンスが、800 ポートを備えた前世代の QM1 シリーズと比較して大幅に向上しており、ファットツリー アーキテクチャの 2 層 Quantum-X1.6 スイッチによってサポートされるクラスターの数が向上していると考えています。が増えました。比較的保守的な観点から、FiberMall は、B シリーズ GPU と XNUMXT OSFP-XD 光モジュールの比率 XNUMX:XNUMX に基づいて、光モジュールの有効需要を予測します。
  • 光モジュールの速度構成の選択: 一般に、FiberMall は、クラウド プロバイダーや AI メーカーがクラスターのコンピューティング パフォーマンスを最大化するために、より高速なネットワークの構成を優先する傾向があると予想しています。ただし、1.6 年には 2024T ハードウェア エコシステムがまだ完全に成熟していないことを考慮して、FiberMall は、顧客が今年 NVIDIA の B シリーズ チップを使用して小規模ネットワークを展開する場合、主に 800G OSFP 速度を採用し、B と組み合わせた 1.6T 構成を採用する可能性があると予測しています。 -シリーズのチップは、2025T 産業チェーンが成熟するにつれて、1.6 年までに主流のソリューションになると予想されます。現段階では、業界には 2025 年の B シリーズ GPU の総出荷量に関する明確な受注ガイダンスはなく、B シリーズ チップの出荷予測も GPT-5 のリリース タイムラインなどのさまざまな変動要素の影響を受けます。 、新しい AI の大規模モデルまたはアプリケーションの展開、および AI の商業的実現可能性の探求。これらの要因は、大手クラウド プロバイダーやその他の AI 業界参加者による AI ハードウェアの調達全体に影響を与えます。 FiberMall は、2024 年の北米クラウド プロバイダー上位 2025 社の設備投資に対する市場の予想が過去 XNUMX 年間で上方修正されていることを観察しており、これらの企業は今後も AI インフラストラクチャへの投資を増やし続けると公に表明しています。 AI 産業の持続的な進歩と、その根底にあるハードウェア需要の拡大。 FiberMall は、XNUMX 年の AI ハードウェアに対する大手企業の設備投資は、引き続き AI 業界の変化の影響を受けると考えています。

FiberMall は、1.6 年の 2025T OSFP-XD 光モジュールの総出荷量について、次の 1 つの主要な変数を使用してシナリオ分析を実施しました。2) AI ハードウェア調達の全体的な繁栄 (B シリーズ GPU 出荷数 3 ~ 2 万台)。 1.6) 1.6T ネットワークの成熟スケジュール (70T ネットワーク ソリューションと組み合わせた B シリーズ GPU の割合は 90% ~ 800%、残りは XNUMXG OSFP)。

AI 産業の需要の隆盛と 1.6T 光ポートの主要技術の商業的成熟スケジュールを変数として考慮すると、FiberMall のシナリオ分析では、1.6 年の 2025T OSFP-XD 光モジュールの総出荷量は3.6万~5.95万台で、この範囲全体の水準は現在の市場予想を上回っている。新世代のコンピューティング クラスターでは、高速光モジュールに対する高い需要が維持されており、産業チェーンの繁栄は上向きに響いています。

AI 開発の波の下、新世代のコンピューティング クラスターには 2 つの変化の傾向が見られます。

  • 東西トラフィックが主な推進力となるネットワーク トラフィックの急速な増加: 中国移動研究院が発行した「スマート コンピューティング センター ネットワークの進化に関する白書 (2023 年)」によると、インテリジェント コンピューティングには大量の並列コンピューティングが必要です。 、数百GBに達するAll Reduce(集団通信)データ量が発生します。 FiberMall は、大型モデルの急増を背景に、「千モデル戦争」がネットワーク トラフィックの増加をさらに促進すると考えています。一方、東西(サーバ間)トラフィックの割合は大幅に増加しており、Cisco の予測によれば、現在の東西トラフィックの割合はネットワーク トラフィックの 80 ~ 90% に達している可能性があります。
  • 典型的なネットワーク アーキテクチャは、2 層のツリー状アーキテクチャからスパイン リーフ アーキテクチャに代表されるマルチコア アーキテクチャに移行しています。NVIDIA と Inspur China の共同トレーニングによる NVIDIA の新世代データセンター ネットワークの公開情報によるとの製品では、データセンターは主に従来の XNUMX 層アーキテクチャに基づいており、XNUMX つのコアを持ち、北から南へのトラフィックが主な方向として徐々に上向きに収束するツリー状のアーキテクチャを備えていました。 XNUMX 層のネットワーク アーキテクチャは、アクセス層、アグリゲーション層、コア層で構成されます。アクセス層はユーザーに直接接続し、アグリゲーション層はアクセス層とコア層を接続し、ファイアウォールやSSLなどのサービスを提供します。 offロード、侵入検知、ネットワーク分析が含まれ、コア層はネットワークの高速スイッチング バックボーンです。インテリジェント コンピューティングにおける通信パフォーマンスへの需要の高まりにより、AI クラウドのトレーニングと推論への需要により、データセンター ネットワーク アーキテクチャはマルチレイヤーで非コンバージェントでよりスケーラブルな形式へと進化しています。

FiberMall は、スマート コンピューティング センターのトラフィックの全体的な増加とネットワーク アーキテクチャの進化が共同して接続需要の増加を促進し、光モジュールの使用量の増加とアップグレードの速度の向上につながると考えています。

NVIDIA のデータ センターは、ファット ツリー アーキテクチャを使用して非集中ネットワークを構築しており、3 層ネットワークの方が 2 層ネットワークよりも多くのノードを接続できます。従来のファットツリー モデルと比較して、NVIDIA のデータセンター ファットツリー モデルは、多数の高性能スイッチを使用して大規模なノンブロッキング ネットワークを構築し、さらにアップリンク ポートを増やしてパケット損失やネットワーク崩壊を回避します。より拡散型アーキテクチャに似ています。層の数に関しては、2 層と 3 層のネットワーク オプションがあり、3 層ネットワーク アーキテクチャは 2 層アーキテクチャよりも多くのノードを接続できるため、より多くの AI チップを相互接続でき、より大きなパラメーターを使用した AI の大規模モデルのトレーニング。

アクセス層、アグリゲーション層、コア層を備えた従来の 3 層ネットワーク アーキテクチャ
アクセス層、アグリゲーション層、コア層を備えた従来の 3 層ネットワーク アーキテクチャ
DGX SuperPOD 3 層ファット ツリー アーキテクチャ
DGX SuperPOD 3 層ファット ツリー アーキテクチャ

DGX H100 SuperPOD は、XNUMX つのネットワーク オプションを提供します。

  • A100 SuperPOD と同様のネットワーキング アプローチを採用し、CX-7 ネットワーク カードと InfiniBand スイッチを使用してクロスサーバー接続を実現します。 NVIDIA の Web サイトの概略図によると、FiberMall は、各 H100 サーバーが 8 枚の 400G ConnectX-7 シングルポート スマート ネットワーク カードで構成されており、7 枚の CX-2 ネットワーク カードが XNUMX つのネットワーク モジュールに統合され、XNUMX つのネットワーク モジュールがネットワーク モジュールに接続されていることを想定しています。 InfiniBandスイッチ×XNUMX 400G NDR 各 OSFP ポート、つまりネットワーク カード側は 4 つの 800G OSFP 光モジュールに対応し、第 4 層スイッチへのネットワーク カードの接続にも 800 つの 8G OSFP 光モジュールが必要で、第 800 層ネットワークには合計 1 つの 1G OSFP 光モジュールが必要です。非収束ネットワーク特性により、InfiniBand ファットツリー ネットワーク アーキテクチャの各層に対応する合計帯域幅は一貫しており、AI アクセラレーション カードとネットワーク カードの比率が 100:800 であるという仮定に基づいて、FiberMall は次のように計算します。 H1 と 3G OSFP 光モジュールの比率は、1 層ネットワーク アーキテクチャでは 2:XNUMX、XNUMX 層アーキテクチャでは XNUMX:XNUMX です。
DGX H100 システムの内部接続の概略図
DGX H100 システムの内部接続の概略図
  • 新しい NVLink スイッチング システムの採用: サーバー内の高速 GPU 相互接続に使用される NVLink を 256 ノード クラスターに外部化し、第 1 世代 NVLink と第 2 世代 NVSwitch を使用して 32 層 (L256 および L1) NVLink ネットワークを構築します。 、最大 1 ノード (2 GPU) の直接相互接続と共有メモリ アクセスが可能になります。この NVLink ネットワーキング ソリューションでは、GPU と L18 NVSwitch (キャビネット内) が銅線ケーブルを使用して相互接続され、L800 および L100 NVSwitch 層が光相互接続を使用するため、より高い比率で 800 ペアの 256G OSFP 接続が必要になります。最初のネットワーク オプションと比較した場合、H200 ~ 200G OSFP が向上します。 FiberMall は、800 DGX GH1 AI スーパーコンピューターでは、各ノード (9 個の GH8 チップ) と内部の 200 つの L3 NVS 間の相互接続が中心となる前提で、GH1 対 32G OSFP 光モジュールの比率がさらに 200:36 に増加する可能性があると推定しています。ノードは銅線ケーブルを使用し、DGX GH2 の 1,152 ノードは光相互接続を介して 32 個の L36 NVS に接続され、その結果、L1 と L2 の間に 2,304 (800*XNUMX) ペアの接続が形成され、これは XNUMX 個の XNUMXG OSFP 光モジュールに相当します。光モジュールの使用量が大幅に増加。
NVIDIA DGX H100 システムのデータ ネットワーク構成の概略図
NVIDIA DGX H100 システムのデータ ネットワーク構成の概略図
DGX A100 256 SuperPOD、DGX H100 256 SuperPOD、および 256 DGX GH200 クラスターの比較
DGX A100 256 SuperPOD、DGX H100 256 SuperPOD、および 256 DGX GH200 クラスターの比較

256 GPU の相互接続された SuperPOD に基づいてクラスターを 1024 GPU を超える規模にさらに拡張するには、拡張ネットワーキングに InfiniBand リンクを使用する必要があることに注意してください。 NVIDIA の Web サイトによると、4 GPU クラスターを例に挙げると、NDR InfiniBand リンクを介して 100 層のスパイン/リーフ ネットワーク アーキテクチャを形成することで、256 つの DGX H1024 XNUMX SuperPOD クラスターを接続して XNUMX GPU の直接相互接続を実現できます。 FiberMall は、SuperPOD の外側の InfiniBand ネットワークでは、 800G OSFP 光モジュールは、100 層アーキテクチャにおける以前の比率の関係に基づいて推定できます。つまり、H800 GPU と 1G OSFP 光モジュールの比率は約 2:XNUMX です。

DGX A100 256 SuperPOD、DGX H100 256 SuperPOD、および 256 DGX GH200 クラスターの比較
DGX A100 256 SuperPOD、DGX H100 256 SuperPOD、および 256 DGX GH200 クラスターの比較

GTC 2024 カンファレンスで、NVIDIA は、200 個のコンピューティング ノード、72 個の NVLink スイッチ トレイ、および 18 個の Q9-RA 1U InfiniBand スイッチで構成される GB3400 NVL4 を発表しました。各コンピューティング ノードは 4 つの Blackwell GPU と 2 つの CPU で構成されており、GB200 NVL72 には 72 個の GPU が含まれています。各ノードは 4 枚の 800G ConnectX-8 ネットワーク カードで構成されており、Blackwell GPU と CX-8 ネットワーク カードの比率は 1:1 のままです。これは、AI バックエンド ネットワーキングに InfiniBand を使用する場合、B シリーズ GPU と 1.6T OSFP-XD 光モジュールの比率が H100 時代と同じ比率を維持することを意味します (1 層ネットワーキングでは 2:1、3 層ネットワーキングでは XNUMX:XNUMX) -層ネットワーキング)。

前のセクションで述べたように、NVIDIA の新しい Quantum-X800 シリーズ スイッチは 144 個の 800G OSFP ポート (72 個の 1.6T ポートに相当) で構成できるため、1.6T ネットワークの構築が可能になります。前世代の 64 ポート スイッチと比較してパフォーマンスが大幅に向上し、ファット ツリー アーキテクチャの 800 層 Quantum-X10,368 スイッチでサポートされるクラスタの数が 1 ノードに増加しました。これは、2 層ネットワーキングの適用範囲が拡大する可能性があることを示唆しているため、FiberMall はシナリオ分析で保守的に 10,000:XNUMX の比率を採用しました。しかし、FiberMall は、GPU クラスターの規模が拡大し続け、XNUMX カード以上のレベルでの相互接続の需要が増加するにつれて、必要な光モジュールの数がさらに増加する可能性があると考えています。

GB200 コンピューティング ノード内では、4 つの Blackwell GPU が 4 つの ConnectX-8 ネットワーク カードに 1:1 の比率で接続されています。
GB200 コンピューティング ノード内では、4 つの Blackwell GPU が 4 つの ConnectX-8 ネットワーク カードに 1:1 の比率で接続されています。

NVLink ネットワーキングに関しては、GB200 NVL72 シングル キャビネット ソリューションでは、キャビネット内のコンピューティング ノードが銅線ケーブルを使用して NVLink スイッチと相互接続されており、光電気信号変換は必要ありません。これは、以前の GH200 キャビネットの相互接続と一致しています。解決。ただし、特定の高性能 AI コンピューティング シナリオでは、第 8 世代 NVLink を使用して、最大 200 GB72 NVL576 システム (200 Blackwell GPU) の高速相互接続を実現できます。 NVLink に基づいて GB72 NVL200 キャビネットを相互接続する場合、2 × 1 の相互接続では LACC 銅線接続を使用できますが、マルチ キャビネットの相互接続の場合は、以前の GH2 ネットワーキング アーキテクチャで参照されているように、追加の LXNUMX 層 NVS が必要です。 LXNUMX NVS と LXNUMX NVS の間に光インターコネクトが採用されれば、GPU に対する光モジュールの比率がさらに高まると FiberMall は予想しています。

NVIDIA の Web サイトによると、GB200 は前世代に比べてパフォーマンスが大幅に向上しています。同じ 72 個の H100 GPU のコンピューティング クラスターと比較して、GB200 は大規模モデル推論で約 30 倍のパフォーマンスを達成し、コストと消費電力を 25 倍削減できます。 FiberMall は、GB200 の Blackwell GPU の出荷シェアが、Hopper シリーズの GH200 の出荷シェアよりも高くなるだろうと予想しています。要約すると、FiberMall は、GB200 のパフォーマンス上の利点が出荷シェアの増加につながる可能性が高く、システム内の複数のキャビネットにわたる NVLink 接続シナリオにより、単一のキャビネットに比べて光モジュール比率の成長が促進されると予想されます。チップ接続ソリューション。これら XNUMX つの要因の組み合わせにより、新世代コンピューティング エコシステムにおける高速光モジュールの需要の増加が促進されると予想されます。

GB200 コンピューティング クラスターのネットワーク アーキテクチャ
GB200 コンピューティング クラスターのネットワーク アーキテクチャ

危険因子

  1. 200G EML光チップの生産能力は期待を下回っている。 200G EML 光チップの生産能力を利用できるため、1.6T OSFP-XD 光モジュールの成熟した展開に上流のコア原材料サポートを提供できます。 200G EML 光チップの生産スケジュールまたは立ち上げ速度が予想を下回ったとします。その場合、1.6Tの業界展開が遅れ、1.6年の2025T OSFP-XD光モジュールの出荷量に影響が出る可能性があります。
  2. AI 業界の需要は予想を下回っています。社会のデジタル化とインテリジェント化が進むにつれ、AI の大型モデルの導入が加速し、さまざまな業界に力を与えています。 FiberMall は、人工知能の開発の活発化によりコンピューティング能力の需要が持続的に増加し、それがサーバー、光モジュール、スイッチなどの AI ハードウェアの需要を押し上げていると考えています。 AI の大規模モデルやアプリケーションの導入が期待を下回ったり、商業化への道のりが妨げられたりした場合、大手クラウドプロバイダーに代表される AI 業界参加者の AI 関連インフラストラクチャへの投資集中や決意に悪影響を及ぼす可能性があり、上流の AI ハードウェア機器の市場成長と製品のイテレーション速度。

コメント

上へスクロール