AIクラスターの主要な設計原則:スケール、効率性、柔軟性

兆パラメータAIモデルの時代において、高性能AIクラスターの構築は、クラウドプロバイダーやAI企業にとって競争優位の中核となっています。この記事では、AIワークロード特有のネットワーク要件を深く分析し、AIクラスターと従来のデータセンターのアーキテクチャの違いを比較するとともに、Aristaが提唱する2つの主流のネットワーク設計パラダイムを紹介します。 エンドポイントスケジュール (NSF) および スイッチスケジュール(DSF) — トポロジーの選択と 800G相互接続 さまざまなスケールに対応するテクノロジー。

AIクラスターのネットワーク要件とトラフィック特性

コア要件: 極めて高いスケール、効率性、柔軟性

AIクラスターのネットワーク要件とトラフィック特性

AI モデルが急速に数兆個のパラメータに拡張されるにつれて、トレーニングおよび推論クラスターは基盤となるネットワークに前例のない要求を課します。

  • 超大規模拡張: 単一ラックから複数データセンターのシナリオまで、数十万から数百万の XPU (GPU/NPU) にわたる共同コンピューティングをサポートする必要があります。
  • 高効率と超低遅延: XPU 間の頻繁な集合通信操作 (AllReduce、AllGather など) には、マイクロ秒レベルのレイテンシと 90% 以上の帯域幅使用率が必要です。
  • 異種適応: 異なるベンダーの XPU、さまざまなラック電力バジェット、混合ワークロード (トレーニング + 推論) をシームレスにサポートし、「木製の樽効果」(最も遅いノードによって全体的なパフォーマンスが制限される) によるパフォーマンスの低下を回避する必要があります。

AIトラフィックの4つの特徴

従来のデータセンター トラフィックと比較すると、AI トラフィックはネットワーク設計の決定に直接影響を与える明確に異なるパターンを示します。

  • 高同期: トレーニング ジョブは、一定の周期で勾配とパラメータを交換するため、「長時間バーストで高度に同期された」トラフィックが発生し、インキャスト輻輳が簡単に引き起こされます。
  • RDMAへの依存度が高い: ロスレス ネットワークが必要です**: RDMA over Converged Ethernet (RoCEv2) は事実上の標準であり、パケット損失が発生すると再送信が発生し、レイテンシが大幅に増加します。
  • 安定した流動特性: 個々のフローは存続期間が長く (ジョブの開始から完了まで)、レートが非常に高く、エントロピーが低い (パスが比較的固定されている) ため、従来の ECMP 負荷分散は非効率的です。
  • 信頼性はネットワークに移行AI アプリケーションは信頼性の責任を完全にネットワークに委ねます。1 つのパケット損失でも、トレーニングの反復全体が破損する可能性があります。

AIクラスターと従来のデータセンタークラスターのアーキテクチャの違い

従来のクラスターは「CPUサーバー中心」であり、ネットワークは主にデータ取り込み、ストレージ、コンピューティング間の水平トラフィックを処理します。一方、最新のAIクラスターは「XPU中心」であり、明確に分離されています。

  • フロントエンドネットワーク – CPU 間および CPU からストレージへのトラフィック (従来の DC と同様)。
  • バックエンドネットワーク(レール) – パフォーマンスのボトルネックとなり、設計の主な焦点となる、高帯域幅、低レイテンシの XPU 間相互接続。

このデュアルネットワーク アーキテクチャにより、全体的な複雑さが大幅に増加します。

AIクラスターのための2つのコアネットワーク設計パラダイム

Arista は、スケジューリング責任の所在に基づいて、現在の AI クラスター バックエンド ネットワークを 2 つの主流パラダイムに分類しています。

エンドポイントスケジュールアーキテクチャ(NSF – ネットワークスケジュールファブリック)

核心概念

すべてのスケジューリング・インテリジェンスはエンドポイント(NIC/DPU/IPU)に存在します。ネットワーク・ファブリックは、基本的に従来のイーサネットの最適化された拡張である、基本的なパケット転送のみを実行します。

主な技術的特徴

  • トポロジ: クラシックなフラット化されたスパインリーフまたはスーパースパイン クロス、スイッチには高基数と 800G ポートのみが必要です。
  • エンドポイント要件: NIC は、動的負荷分散 (DLB)、アダプティブ ルーティング、パケット スプレー、エンドツーエンドの輻輳制御 (ECN/WRED) をサポートする必要があります。
  • 利点: シンプルなアーキテクチャ、柔軟なケーブル配線、既存のイーサネット エコシステムとの完全な互換性、小規模から中規模のクラスター (≤10K XPU) に最適です。
  • 制限事項: NIC 層での強力なベンダー ロックイン。大規模になるとスケジュールの複雑さが爆発的に増加し、負荷の不均衡やホット スポットが発生しやすくなります。

スイッチスケジュールアーキテクチャ(DSF – ダイレクトスイッチファブリック)

核心概念

スケジューリングの責任はネットワークスイッチに完全にオフロードされます。エンドポイントは汎用NICを使用し、ファブリックはセルベースのスイッチングとクレジットベースのフロー制御を通じてロスレスかつ高性能な配信を実現します。

主な技術的特徴

  • トポロジ: リーフ スイッチは、セルのセグメンテーション、VOQ (仮想出力キューイング)、スケジューリング、およびクレジット管理を処理します。スパイン/スーパー スパイン スイッチは、シンプルな低電力フォワーダーです。
  • ロスレス メカニズム: クレジット要求/許可プロトコル + PFC + ECN は、エンドツーエンドでゼロ バッファ オーバーフローを保証します。
  • スケーリング機能: 単一システムで 4.6K × 800G または 9.2K × 400G XPU をサポートし、2 層拡張により 32K 以上の GPU に到達します。
  • 利点: NIC ベンダーに依存せず、超大規模でも非常に安定したパフォーマンス、正確な輻輳制御。
  • 制限事項: スイッチ ハードウェアの複雑さとコストが高く、ケーブル配線はセル スイッチング要件に合わせて調整する必要があります。

トポロジと800G相互接続技術の選択

マルチプレーントポロジー - 百万スケールXPUの基盤

数十万または数百万のXPUへの線形スケーリングを実現するために、Aristaは マルチプレーン 建築:

  • 各プレーンは独立したスパイン/リーフ ファブリック (通常 4K~10K XPU) です。
  • 複数のプレーンが並行して動作し、集約レイヤーを介して相互接続されます。
  • 10 プレーンでは、障害分離と線形帯域幅スケーリングを維持しながら、簡単に 100K XPU を超えることができます。

シナリオ別の800G相互接続技術の選択

シナリオ別の800G相互接続技術の選択
シナリオ推奨テクノロジー距離消費電力費用Notes
ラック内(<2 m)DAC / ACC≤2m非常に低い最低ダイレクトアタッチ銅線/アクティブ銅線ケーブル
イントラロー / ショートリーチLPO / LRO≤50m非常に低いローリニアドライブプラガブルオプティクス - DSPに比べて大幅な省電力
中距離(≤500 m)DSPコヒーレント≤500m穏健派M従来のDSP光学系、成熟したエコシステム
ロングリーチ(2~100 km)DSP + DWDM≤100 km以上より高いより高い複数の建物またはキャンパスレベルのクラスターに必要

まとめと今後の動向

アーキテクチャ選択の重要なポイント

  • ≤10K XPU → 推奨 エンドポイントスケジュール (NSF) コストと展開の柔軟性を実現します。
  • ≥32K XPU → 採用必須 スイッチスケジュール(DSF) 安定したパフォーマンスを保証し、エンドポイントのボトルネックを解消します。
  • 百万規模 → マルチプレーン + DSF 現時点では唯一の実証済みの実稼働グレードのソリューションです。

今後の動向

  • ネットワーク層での集合通信プリミティブ (AllReduce、AllGather など) のより深い最適化。
  • 実際の AI ネットワーク上の MPI/NCCL/RCCL の標準化されたベンチマーク。
  • Ultra Ethernet Consortium (UEC) や UALink などの新しい標準規格を統合し、業界を「カスタム サイロ」からオープンで標準化された超低遅延の相互接続へと導きます。

次世代 AI スーパーコンピュータの構築は、もはや単に GPU を追加購入するだけの問題ではなく、ネットワークがパフォーマンス、スケーラビリティ、総所有コストを左右する決定的な戦場となっています。

上へスクロール