前回の記事では、スケールアウトとスケールアップの違いについて解説しました。スケールアップとは、単一ノード内のGPU/NPUカードの数を増やすことで垂直方向にスケーリングし、個々のノードの性能を向上させることです。一方、スケールアウトとは、ノードを追加することでネットワーク全体の規模を拡大し、単一ノードでは対応できない大規模モデルの学習タスクに対応できるようにする水平方向にスケーリングすることです。本記事では、AIコンピューティングセンターにおけるスケールアウト型ネットワークアーキテクチャとその開発動向について紹介します。
目次
トグルAIコンピューティングセンターネットワークの共通アーキテクチャ
AIコンピューティングセンターのネットワークには、CLOS、Dragonfly、Slim Fly、Torusなど、様々な形態があります。さらに、Rail-only、Rail-optimized、MPFT、ZCubeなど、様々なネットワークモデルが進化しています。中でも、Fat-Tree CLOSアーキテクチャは、効率的なルーティング設計、優れたスケーラビリティ、そして管理の容易さから、大規模モデルのトレーニングシナリオで広く採用されています。一般的には、2層のSpine-Leaf CLOSアーキテクチャが用いられます。2層構造ではスケーリングのニーズを満たせない場合は、Super-Spine層を追加することで拡張できます。
2層CLOSアーキテクチャ

3層CLOSアーキテクチャ

レールのみのアーキテクチャ2023 年に MIT によって提案された Rail-only ネットワーク アーキテクチャでは、HB ドメインと Rail スイッチが保持され、Spine スイッチが削除されるため、ネットワーク コストと電力消費が大幅に削減されます。

たとえば、51.2T スイッチを使用すると、わずか 8 個のスイッチ (128 x 400G ポート) で 1,000 枚のカードのトレーニング クラスターを形成できます。
レール最適化ファットツリーアーキテクチャ(ROFT)下図に示すように、マルチレールネットワークアーキテクチャでは、複数のレールをまたぐ並列伝送によってAIトレーニングの通信需要を加速できます。トラフィックの大部分は同一レール内で集約・伝送され(スイッチングレベルは1段階のみ)、少量のトラフィックはクロスレール伝送(2段階以上のスイッチングが必要)されるため、ネットワーク通信の負荷が軽減されます。

デュアルプレーンネットワークアーキテクチャ
2024年、Alibaba Cloudはデュアルポート・デュアルプレーン・ネットワークアーキテクチャを提案し、HPN-7.0に適用されました。このアーキテクチャの主な目的は、パフォーマンスの向上、信頼性の向上、そしてハッシュの偏りの回避です。このマルチレール・デュアルプレーン設計は、ROFTアーキテクチャを基盤とし、各NICの400Gポートを2x200Gポートに分割し、2つの異なるリーフ(ToR)スイッチに接続します。リーフスイッチのダウンリンク400Gポートは、2つの200Gリンクに分割され、それぞれ異なるNICポートに接続されます。

HPN デュアルプレーン設計には、次の主な利点があります。
- ハッシュ二極化の排除従来のネットワークでは、大規模モデルのトレーニングによる低エントロピーかつバースト的なトラフィックはハッシュ偏波を容易に引き起こし、トラフィック分散の不均一化につながります。デュアルプレーン設計は、ToRスイッチを2つの独立したグループに分割し、アップリンクリンクに入るトラフィックのパスを固定することで、アグリゲーション層でのハッシュ偏波を回避し、トラフィック分散の均一化を実現し、キュー長を大幅に短縮することでネットワークパフォーマンスを向上させます。
- 拡張性とコスト管理の強化: 2 層ネットワークは 15K 以上の GPU に対応できるため、従来の 3 層 CLOS アーキテクチャと比較して 1 層が削減され、導入コストが削減されます。
- 信頼性と耐障害性の向上各GPUは2つの独立したToRスイッチにアップリンク接続することで、単一障害点を排除します。障害発生時には、グローバルコントローラの介入なしにローカルECMPグループのみを更新すれば済むため、復旧効率が向上します。これらの機能により、ネットワークの耐障害性が向上し、大規模モデルの学習における安定性が確保されます。
マルチプレーンネットワークアーキテクチャ
2025年5月、DeepSeekチームは次のような論文を発表しました。 DeepSeek-V3の洞察:AIアーキテクチャ向けハードウェアのスケーリングの課題と考察マルチプレーンネットワークの概念を導入しました。LLM(大規模言語モデル)のパラメータスケールが指数関数的に増大するにつれ、従来の3層Fat-Tree CLOSトポロジでは、コスト、スケーラビリティ、堅牢性の面で限界がますます明らかになってきています。
DeepSeek-V3は、従来の3層Fat-Treeアーキテクチャに代わり、InfiniBandベースのMulti-Plane Fat-Tree(MPFT)ネットワークを採用しています。この構成では、各ノードに8基のGPUと8基の400Gbps IB NICが搭載され、各GPUはそれぞれ異なる「ネットワークプレーン」に属する独立したIB NICに対応しています。ノードあたり8基のGPUは、8つの異なるプレーン(つまり、8つの2層Fat-Treeプレーン)に接続されます。64基の400Gbps IBスイッチを使用することで、2層Fat-Treeは最大16,384基のGPUをサポートできます(1つのプレーンには32基のSpineスイッチと64基のLeafスイッチが含まれ、64 x 32基のGPUを収容します。8つのプレーンで合計16,384基のGPU)。プレーン間のトラフィック交換には、ノード内転送が必要です。

このマルチプレーン ネットワーク モードは、デュアルプレーン ネットワークと同様の利点を提供しますが、主な違いは、各 GPU が独立したプレーンへの単一のアップリンクを持ち、カードごとにデュアル アップリンクのフォールト トレランスがないことです。
- 低コスト: 3 層の Fat-Tree と比較すると、MPFT はネットワーク コストを最大 40% 削減できます。
- より高いスケーラビリティ: 理論上は最大 16,384 個の GPU をサポートします。
- トラフィック分離各飛行機は独立して運行し、飛行機間の混雑を防ぎます。
この論文では、いくつかのネットワーク モード (FT2: 2 層 Fat-Tree、MPFT: マルチプレーン Fat-Tree、FT3: 3 層 Fat-Tree、SF: Slim Fly、DF: Dragonfly) を比較しています。

ご覧のとおり、MPFT はノードあたりのコスト、スケーラビリティ、その他の面で明らかな利点を示しています。
しかし、上記のMPFTは最適な実装ではありません。より理想的なマルチプレーン・ネットワーク・モードを以下に示します。

各NICには複数の物理ポート(ここでは4 x 200Gインターフェース)が装備されており、各ポートは独立したネットワークプレーンに接続されます(Alibaba CloudのHPN 7.0デュアルプレーンモードに似ていますが、NICあたり2つではなく4つのインターフェースを備えています)。1つのQP(キューペア)で、利用可能なすべてのポートをパケットの送受信に利用できます。
このマルチプレーン展開の一部を拡大して詳細を見てみましょう。

102.4Tスイッチを例に挙げると、128 x 800Gポート、またはShuffle経由で512 x 200Gポートを提供します(Shuffleについては今後のトピックで詳しく説明します。スイッチは内蔵Shuffleを使用して512 x 200Gリンクを直接提供することも、外付けのShuffle BoxまたはBreakout Shuffleを使用して光ファイバーリンクの割り当てとマッピングを行うこともできます)。各GPUは4つの200Gポートを介して4つの異なるプレーンに接続し、1つのQPによってポート間のパケットごとの負荷分散ルーティングを行います。このモードは、MoEのAll-to-Allトラフィックに特に適しています。
詳細なネットワーク図:

2 層 4 プレーン セットアップでは、16,384 個の GPU も収容できます (注: 各 NIC は 4 x 200G ポートに接続するため、スイッチの数が増加し、1,024 個の Spine スイッチと 2,048 個の Leaf スイッチが必要になります。これは、シングル ポート MPFT の 768 個のスイッチの 4 倍です)。

さらに、これらの機能を実現するために、NICには新たな要件が課せられます。マルチプレーン通信のサポート、つまり複数のプレーンにわたるQPパケットの負荷分散を実現することです。異なるプレーンを経由するパケットの到着順序が不規則であるため、NICはネイティブにアウトオブオーダー処理をサポートする必要があります。
NVIDIA の最新の CX-8 はすでに 4 つのネットワーク プレーン (4 プレーン) をサポートしており、ハードウェア レベルの順序外パケット処理によって単一の QP 上でマルチパス パケット スプレーを可能にし、データの一貫性を確保しています。
まとめると、AI コンピューティング センターにおけるスケールアウト ネットワークの拡張については、近い将来のトレンドとして、3 層ネットワークから 2 層ネットワークへの移行、2 層で 1 万~ 10 万枚のカード クラスターの実現、マルチポート マルチプレーン ネットワークの採用などが考えられます。
デュアルプレーンおよびマルチプレーン・ネットワーク・アーキテクチャの包括的な概要では、AIデータセンター・ネットワーク、GPUクラスタリング、そして大規模AIトレーニングのための高性能コンピューティングの最適化におけるこれらのアーキテクチャの重要な役割に焦点を当てています。これらのイノベーションは、次世代インテリジェンス・コンピューティング・センターにおけるスケーラビリティ、コスト効率、そして信頼性という主要な課題に対処します。
関連製品:
-
NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール
$550.00
-
NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール
$700.00
-
NVIDIA MMA1Z00-NS400互換400G QSFP112 VR4 PAM4 850nm 50m MTP/MPO-12 OM4 FEC光トランシーバーモジュール
$550.00
-
NVIDIA MMS1Z00-NS400 互換 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 FEC 光トランシーバー モジュール付き
$850.00
-
NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール
$650.00
-
NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール
$650.00
-
NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール
$900.00
-
NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール
$1199.00
-
NVIDIA MMS4X50-NM 互換 OSFP 2x400G FR4 PAM4 1310nm 2km DOM デュアルデュプレックス LC SMF 光トランシーバー モジュール
$1200.00
-
NVIDIA MMS4A00 (980-9IAH1-00XM00) 互換 1.6T OSFP DR8D PAM4 1311nm 500m IHS/フィン付きトップデュアルMPO-12 SMF光トランシーバーモジュール
$2600.00
-
NVIDIA 互換 1.6T 2xFR4/FR8 OSFP224 PAM4 1310nm 2km IHS/フィン付きトップデュアルデュプレックス LC SMF 光トランシーバーモジュール
$3100.00
-
NVIDIA MMS4A00 (980-9IAH0-00XM00) 互換 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/フラットトップ デュアル MPO-12/APC InfiniBand XDR SMF 光トランシーバーモジュール
$3600.00
