兆パラメータAIモデルの時代において、高性能AIクラスターの構築は、クラウドプロバイダーやAI企業にとって競争優位の中核となっています。この記事では、AIワークロード特有のネットワーク要件を深く分析し、AIクラスターと従来のデータセンターのアーキテクチャの違いを比較するとともに、Aristaが提唱する2つの主流のネットワーク設計パラダイムを紹介します。 エンドポイントスケジュール (NSF) および スイッチスケジュール(DSF) — トポロジーの選択と 800G相互接続 さまざまなスケールに対応するテクノロジー。
目次
トグルAIクラスターのネットワーク要件とトラフィック特性
コア要件: 極めて高いスケール、効率性、柔軟性

AI モデルが急速に数兆個のパラメータに拡張されるにつれて、トレーニングおよび推論クラスターは基盤となるネットワークに前例のない要求を課します。
- 超大規模拡張: 単一ラックから複数データセンターのシナリオまで、数十万から数百万の XPU (GPU/NPU) にわたる共同コンピューティングをサポートする必要があります。
- 高効率と超低遅延: XPU 間の頻繁な集合通信操作 (AllReduce、AllGather など) には、マイクロ秒レベルのレイテンシと 90% 以上の帯域幅使用率が必要です。
- 異種適応: 異なるベンダーの XPU、さまざまなラック電力バジェット、混合ワークロード (トレーニング + 推論) をシームレスにサポートし、「木製の樽効果」(最も遅いノードによって全体的なパフォーマンスが制限される) によるパフォーマンスの低下を回避する必要があります。
AIトラフィックの4つの特徴
従来のデータセンター トラフィックと比較すると、AI トラフィックはネットワーク設計の決定に直接影響を与える明確に異なるパターンを示します。
- 高同期: トレーニング ジョブは、一定の周期で勾配とパラメータを交換するため、「長時間バーストで高度に同期された」トラフィックが発生し、インキャスト輻輳が簡単に引き起こされます。
- RDMAへの依存度が高い: ロスレス ネットワークが必要です**: RDMA over Converged Ethernet (RoCEv2) は事実上の標準であり、パケット損失が発生すると再送信が発生し、レイテンシが大幅に増加します。
- 安定した流動特性: 個々のフローは存続期間が長く (ジョブの開始から完了まで)、レートが非常に高く、エントロピーが低い (パスが比較的固定されている) ため、従来の ECMP 負荷分散は非効率的です。
- 信頼性はネットワークに移行AI アプリケーションは信頼性の責任を完全にネットワークに委ねます。1 つのパケット損失でも、トレーニングの反復全体が破損する可能性があります。
AIクラスターと従来のデータセンタークラスターのアーキテクチャの違い
従来のクラスターは「CPUサーバー中心」であり、ネットワークは主にデータ取り込み、ストレージ、コンピューティング間の水平トラフィックを処理します。一方、最新のAIクラスターは「XPU中心」であり、明確に分離されています。
- フロントエンドネットワーク – CPU 間および CPU からストレージへのトラフィック (従来の DC と同様)。
- バックエンドネットワーク(レール) – パフォーマンスのボトルネックとなり、設計の主な焦点となる、高帯域幅、低レイテンシの XPU 間相互接続。
このデュアルネットワーク アーキテクチャにより、全体的な複雑さが大幅に増加します。
AIクラスターのための2つのコアネットワーク設計パラダイム
Arista は、スケジューリング責任の所在に基づいて、現在の AI クラスター バックエンド ネットワークを 2 つの主流パラダイムに分類しています。
エンドポイントスケジュールアーキテクチャ(NSF – ネットワークスケジュールファブリック)
核心概念
すべてのスケジューリング・インテリジェンスはエンドポイント(NIC/DPU/IPU)に存在します。ネットワーク・ファブリックは、基本的に従来のイーサネットの最適化された拡張である、基本的なパケット転送のみを実行します。
主な技術的特徴
- トポロジ: クラシックなフラット化されたスパインリーフまたはスーパースパイン クロス、スイッチには高基数と 800G ポートのみが必要です。
- エンドポイント要件: NIC は、動的負荷分散 (DLB)、アダプティブ ルーティング、パケット スプレー、エンドツーエンドの輻輳制御 (ECN/WRED) をサポートする必要があります。
- 利点: シンプルなアーキテクチャ、柔軟なケーブル配線、既存のイーサネット エコシステムとの完全な互換性、小規模から中規模のクラスター (≤10K XPU) に最適です。
- 制限事項: NIC 層での強力なベンダー ロックイン。大規模になるとスケジュールの複雑さが爆発的に増加し、負荷の不均衡やホット スポットが発生しやすくなります。
スイッチスケジュールアーキテクチャ(DSF – ダイレクトスイッチファブリック)
核心概念
スケジューリングの責任はネットワークスイッチに完全にオフロードされます。エンドポイントは汎用NICを使用し、ファブリックはセルベースのスイッチングとクレジットベースのフロー制御を通じてロスレスかつ高性能な配信を実現します。
主な技術的特徴
- トポロジ: リーフ スイッチは、セルのセグメンテーション、VOQ (仮想出力キューイング)、スケジューリング、およびクレジット管理を処理します。スパイン/スーパー スパイン スイッチは、シンプルな低電力フォワーダーです。
- ロスレス メカニズム: クレジット要求/許可プロトコル + PFC + ECN は、エンドツーエンドでゼロ バッファ オーバーフローを保証します。
- スケーリング機能: 単一システムで 4.6K × 800G または 9.2K × 400G XPU をサポートし、2 層拡張により 32K 以上の GPU に到達します。
- 利点: NIC ベンダーに依存せず、超大規模でも非常に安定したパフォーマンス、正確な輻輳制御。
- 制限事項: スイッチ ハードウェアの複雑さとコストが高く、ケーブル配線はセル スイッチング要件に合わせて調整する必要があります。
トポロジと800G相互接続技術の選択
マルチプレーントポロジー - 百万スケールXPUの基盤
数十万または数百万のXPUへの線形スケーリングを実現するために、Aristaは マルチプレーン 建築:
- 各プレーンは独立したスパイン/リーフ ファブリック (通常 4K~10K XPU) です。
- 複数のプレーンが並行して動作し、集約レイヤーを介して相互接続されます。
- 10 プレーンでは、障害分離と線形帯域幅スケーリングを維持しながら、簡単に 100K XPU を超えることができます。
シナリオ別の800G相互接続技術の選択

| シナリオ | 推奨テクノロジー | 距離 | 消費電力 | 費用 | Notes |
| ラック内(<2 m) | DAC / ACC | ≤2m | 非常に低い | 最低 | ダイレクトアタッチ銅線/アクティブ銅線ケーブル |
| イントラロー / ショートリーチ | LPO / LRO | ≤50m | 非常に低い | ロー | リニアドライブプラガブルオプティクス - DSPに比べて大幅な省電力 |
| 中距離(≤500 m) | DSPコヒーレント | ≤500m | 穏健派 | M | 従来のDSP光学系、成熟したエコシステム |
| ロングリーチ(2~100 km) | DSP + DWDM | ≤100 km以上 | より高い | より高い | 複数の建物またはキャンパスレベルのクラスターに必要 |
まとめと今後の動向
アーキテクチャ選択の重要なポイント
- ≤10K XPU → 推奨 エンドポイントスケジュール (NSF) コストと展開の柔軟性を実現します。
- ≥32K XPU → 採用必須 スイッチスケジュール(DSF) 安定したパフォーマンスを保証し、エンドポイントのボトルネックを解消します。
- 百万規模 → マルチプレーン + DSF 現時点では唯一の実証済みの実稼働グレードのソリューションです。
今後の動向
- ネットワーク層での集合通信プリミティブ (AllReduce、AllGather など) のより深い最適化。
- 実際の AI ネットワーク上の MPI/NCCL/RCCL の標準化されたベンチマーク。
- Ultra Ethernet Consortium (UEC) や UALink などの新しい標準規格を統合し、業界を「カスタム サイロ」からオープンで標準化された超低遅延の相互接続へと導きます。
次世代 AI スーパーコンピュータの構築は、もはや単に GPU を追加購入するだけの問題ではなく、ネットワークがパフォーマンス、スケーラビリティ、総所有コストを左右する決定的な戦場となっています。
関連製品:
-
NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール
$550.00
-
NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール
$700.00
-
NVIDIA MMA1Z00-NS400互換400G QSFP112 VR4 PAM4 850nm 50m MTP/MPO-12 OM4 FEC光トランシーバーモジュール
$550.00
-
NVIDIA MMS1Z00-NS400 互換 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 FEC 光トランシーバー モジュール付き
$850.00
-
NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール
$650.00
-
NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール
$650.00
-
NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール
$900.00
-
NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール
$1199.00
-
NVIDIA MMS4X50-NM 互換 OSFP 2x400G FR4 PAM4 1310nm 2km DOM デュアルデュプレックス LC SMF 光トランシーバー モジュール
$1200.00
-
NVIDIA MMS4A00 (980-9IAH1-00XM00) 互換 1.6T OSFP DR8D PAM4 1311nm 500m IHS/フィン付きトップデュアルMPO-12 SMF光トランシーバーモジュール
$2600.00
-
NVIDIA 互換 1.6T 2xFR4/FR8 OSFP224 PAM4 1310nm 2km IHS/フィン付きトップデュアルデュプレックス LC SMF 光トランシーバーモジュール
$3100.00
-
NVIDIA MMS4A00 (980-9IAH0-00XM00) 互換 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/フラットトップ デュアル MPO-12/APC InfiniBand XDR SMF 光トランシーバーモジュール
$3600.00
