AI センターの将来のネットワークビジョン: Arista の変革の旅

AIネットワークアーキテクチャの進化と課題

AIネットワークアーキテクチャの進化と課題

AI ネットワークについて議論する場合、2 つの重要な側面を分析できます。1 つ目の側面は、AI に提供される基礎的なネットワーク アーキテクチャです。2 つ目の側面は、ネットワーク運用と保守における AI テクノロジの適用です。当社では、AI 運用 (AIOps) や可観測性など、社内システムを強化するためにさまざまな機能とソリューションを統合しています。当社のスイッチには、AI ネットワークの中核機能である Smart System Upgrade (SSU) などの複数のセンサーとセキュリティ機能が搭載されています。SSU 機能により、重要なネットワーク サービスの運用を維持しながら、シームレスなセキュリティ パッチ更新とシステム アップグレードが可能になり、予測分析もサポートされます。

ネットワークの運用と保守

キャンパス スイッチ、WAN ルーター、400 ポートの大規模 576G データセンター スイッチなど、すべての Arista 製品は、同じ Extensible Operating System (EOS) 上で動作します。さらに、すべての製品は統合ソフトウェア プラットフォーム CloudVision を通じて管理され、さまざまな環境で一貫したパフォーマンスを保証するエンドツーエンドの高品質ソリューションをお客様に提供します。この統一性は、お客様から高く評価されています。

AIセンター

従来、ネットワークは分離されたサイロで運用されていました。たとえば、データセンターにはフロントエンド ネットワークとバックエンド ネットワークがあり、バックエンド ネットワークは主に InfiniBand が主流の HPC で構成されていました。AI テクノロジの進歩により、従来のデータセンターから AI 中心のセンターへの移行が進んでいます。AI センターでは、バックエンド ネットワークが GPU を接続し、フロントエンド ネットワークが従来のデータセンター ネットワーク、ストレージ システム、および WAN を接続し、基本的に統合 AI センターの構築に必要なすべてのネットワーク コンポーネントをカバーしています。

イーサネットスイッチデータセンター

650 グループのスライドには、データセンターのポート速度の歴史的変遷と将来予測が示されています。図に示すように、高速ポートは大幅な成長軌道に乗っています。グラフには 800G と 1.6T の速度がまとめられていますが、これは理にかなっています。800G は 8x100G SERDES に依存し、1.6T は 16x100G または 8x200G SERDES を使用するからです。この成長は、AI クラスター、特にトレーニング クラスターの拡大を反映して、約 30% ~ 40% の AI ネットワーク需要によって推進されています。今後は、推論操作もこの成長を牽引するでしょう。したがって、I/O 機能は GPU パフォーマンスの向上に追いつく必要があります。グラフの右側では、51.2T ASIC が史上最速の採用率を示しており、25.6T から 51.2T への急速な移行を示しています。100T チップはさらに速いペースで追随する可能性があります。従来、速度の向上には数年かかっていましたが、AI の需要に後押しされ、GPU やその他のアクセラレータの帯域幅のニーズを満たすために、現在では 1.5 ~ 2 年ごとに技術の移行が行われています。

従来のデータセンターから AI センターへ: Arista の変革の旅

建築の変容従来のデータセンター ネットワークでは、通常、階層型アーキテクチャが採用されており、フロントエンド ネットワークはユーザー デバイスと外部ネットワークを接続し、バックエンド ネットワークは主に InfiniBand テクノロジを利用して高性能コンピューティング (HPC) の需要に対応しています。しかし、AI テクノロジの急速な進歩により、データセンターの設計哲学は AI 中心のモデルへと移行しています。

コンポーネントの再編成AI データセンター アーキテクチャでは、バックエンド ネットワークが GPU を接続し、フロントエンド ネットワークが従来のデータセンター ネットワーク、ストレージ システム、WAN をリンクし続けます。これにより、AI ワークロードを中心とした包括的なネットワーク環境が実現します。

アリスタ イーサリンク AI ポートフォリオ

モジュラー システムに関しては、Arista の主力 AI バックボーン製品は、最大 576 個の 800G ポートをサポートする最大のシャーシ設計を特徴としています。この構成により、小規模なネットワークを大規模なシャーシに接続して、1100 個を超える 400G ポートを実現し、単一のシャーシからほぼ XNUMX ペタバイトの帯域幅を提供できます。数万から数十万の GPU を備えたクラスターなどの大規模なクラスターの場合、最適な設計では、バックエンドに XNUMX 層のリーフ スパイン ネットワーク アーキテクチャを採用します。負荷分散が主な懸念事項であるため、この XNUMX 層構造を維持することは AI シナリオでは非常に重要です。適切なトラフィック分散を確保することで、輻輳を防ぎ、個々の GPU がワークロード全体を遅くすることを回避し、中断を減らし、高電力ネットワークの電力消費を抑えることができます。

ネットワーク上の AI ワークロードの課題

帯域幅の需要: AI モデルの規模と計算要件は指数関数的に増大しており、ネットワーク帯域幅の需要が急増しています。

バースト トラフィック: AI トレーニング サーバーからの各データ ストリームは、ライン レートでバースト トラフィックを生成します。通常は 4 ~ 8 のデータ ストリームのみが含まれますが、このパターンにより深刻なネットワーク輻輳が発生する可能性があります。

レイテンシのボトルネック: 分散コンピューティングでは、最も遅いトラフィック パスがボトルネックとなり、ネットワークのレイテンシが全体的なパフォーマンスに大きな影響を与える可能性があります。

トラフィック監視: AI トラフィックの監視とトラブルシューティングは、その高速性とバースト性のために非常に困難であり、従来の監視ツールでは不十分です。

アリスタのAIネットワークソリューション

Arista は、高性能スイッチ プラットフォーム、革新的なネットワーク アーキテクチャ、高度なソフトウェア機能、効率的な光テクノロジーを網羅した包括的な AI ネットワーク ソリューション スイートを提供し、AI ワークロードによってもたらされるさまざまな課題に対処します。

高性能イーサネットスイッチ:

製品ライン: Arista は、固定構成やモジュラー システムを含む、800G イーサネット スイッチのフルラインナップを提供します。

Etherlink AI シリーズ:

固定構成システム: Broadcom 512T チップを搭載し、64 個の 800G ポート (128 個の 400G ポートに相当) を備え、小規模から中規模の AI ワークロードに適しています。

モジュラー システム: シャーシあたり最大 576 個の 800G ポートをサポートするフラッグシップ AI バックボーン製品で、超大規模データ センターに最適です。

7700 シリーズ: 分散 Etherlink システムはシングルホップ設計を採用し、32,000 個の GPU への拡張をサポートし、より大規模なコンピューティング ニーズに応えます。

オペレーティング システム: すべてのスイッチは Arista EOS (Extensible Operating System) 上で実行され、CloudVision プラットフォームを通じて均一に管理されるため、管理効率が向上します。

7060x6-64pe シリーズ

51.2ナノメートルプロセスで構築され、5個の64Gポートを備えたAristaの800 Tbpsシャーシは、現在入手可能な最もエネルギー効率の高い選択肢です。AIクラスターでは、負荷分散とエネルギー消費がXNUMXつの主な課題であり、エネルギー効率は顧客にとって大きな懸念事項です。業界では、光モジュールとネットワークの両方のエネルギー効率を高めるために、リニアプラガブルオプティクス(LPO)に移行しています。ネットワーク側で節約したエネルギーは、より多くのGPUまたはxPUに再割り当てできます。

これはスマートなハードウェア イノベーションです。主要顧客からのフィードバックによると、シャーシ内のコンポーネントが故障したときに、すべてのケーブルを外し、シャーシを分解して修理を行うのは面倒な作業です。通常、平均故障間隔 (MTBF) が最も短いコンポーネントは、メモリ (RAM)、ソリッド ステート ドライブ (SSD)、または中央処理装置 (CPU) です。この問題に対処するため、当社のシステム設計では、右側の 2 つのファンを取り外すと CPU モジュール全体を取り外すことができます。

この設計のもう 1 つの利点は、SSD 上の独自データに関する一部の顧客のセキュリティ ニーズを満たすことができることです。CPU モジュールは独立して取り外すことができるため、顧客はメンテナンス中にこのデータを安全に処理できます。この設計は大きな利便性をもたらし、ハードウェアの大きな革新をもたらします。

アリスタの51.2 Tbpsシャーシ

最新世代の製品である 7700R4 には、800G ライン カードが搭載されています。最大構成では、シャーシは最大 1,152 個の 400G ポートをサポートし、ほぼ XNUMX ペタバイトのデータ スループットを実現できます。このシャーシは、完全なセル ベースの仮想出力キュー (VOQ) アーキテクチャを採用しており、完璧な負荷分散を保証します。この設計は、XNUMX つのシャーシで十分な小規模なクラスターを構築するお客様に特に適しています。また、大規模なクラスターを構築するお客様にとっても理想的な AI バックボーン ネットワーク デバイスとして機能します。

7700R4

革新的な負荷分散技術

  • 課題: 従来の等コスト マルチパス (ECMP) アルゴリズムは AI トラフィックの処理に非効率であるため、Arista はさまざまなターゲット負荷分散ソリューションを開発しました。
  • 輻輳を考慮したレイアウト: リアルタイムのネットワーク負荷に基づいてトラフィックをさまざまなアップリンクにインテリジェントに分散し、輻輳のリスクを軽減します。
  • RDMA ベースの負荷分散: ソフトウェア アルゴリズムを使用して、RDMA トラフィックの特性に基づいて正確な負荷分散を実現します。
  • 分散 Etherlink スイッチ (DES): ハードウェア レベルのパケット転送を通じて負荷分散の問題を解決し、シングル ホップ相互接続方式を採用して遅延を削減します。
  • アーキテクチャ設計: メイン チップがリーフ スイッチに配置され、スパインが高速スイッチング デバイスとして機能する、実際には 1 ホップのみを必要とする 2 層ネットワーク アーキテクチャを備えています。
  • パケット スプレー転送プロトコル: 順序が乱れたパケットを処理し、データ転送の安定性を効果的に高めるように設計された、将来の RDMA プロトコルの代替手段です。

仮想出力キューイング (VOQ) と RDMA 対応のロード バランシングの違い: VOQ は、仮想出力キューを使用して入力ポートと出力ポート間でパケットを割り当てる、シャーシ内のアーキテクチャを指します。これは完全にスケジュールされたプロセスです。対照的に、RDMA 対応のロード バランシングでは、RDMA トラフィックの特性に特に重点を置いた動的なロード バランシングが行われ、そのトラフィックに基づいてロード バランシングまたはハッシュが可能になります。

大規模AIネットワーク
ストレージを備えた大規模AIネットワーク

この図は、従来のフロントエンド ネットワークと専用のバックエンド AI ネットワークの両方を含む、ネットワーク アーキテクチャの包括的な概要を示しています。クラスターのサイズに応じて、構成には、より小さな固定シャーシ、ラック、またはその両方のハイブリッドを含めることができます。非常に大規模なクラスターの場合は、3 層アーキテクチャも検討される可能性があります。

AI バックエンドとフロントエンドの両方に専用のストレージ システムが必要です。さらに、WAN 接続も必要です。この概要では、大規模な AI ネットワークの全体的なアーキテクチャを示します。

強化された視覚化機能

  • ネットワーク監視ツール: 従来のネットワーク監視方法では、AI トラフィックのマイクロ秒レベルの変動を捉えることは困難です。Arista は、さまざまな革新的な監視ツールを提供しています。
  • AI アナライザー: 100 マイクロ秒間隔でトラフィック統計をキャプチャし、ネットワークの動作に関する詳細な分析情報を提供し、輻輳や負荷分散の問題を迅速に特定できるようにします。
  • AI エージェント: EOS を NIC サーバーに拡張し、ToR および NIC 接続の集中管理と監視を実現します。
  • 自動検出: AI エージェントは、さまざまな NIC プラグイン拡張をサポートし、スイッチと NIC 間の構成を自動的に検出して同期できます。
  • データ収集: NIC カウンター データを収集し、より包括的なネットワーク ビューと強化された分析機能を提供します。

包括的な輻輳制御メカニズム

  • 輻輳管理技術: Arista は、ネットワーク輻輳を効果的に管理するために、次のような複数の技術を採用しています。
  • 優先フロー制御 (PFC): 優先フロー制御により、ラストホップ トラフィックの集約によって発生するパケット損失を防止します。
  • 明示的輻輳通知 (ECN): PCI バス輻輳時にデータ転送速度を低下させ、ネットワーク クラッシュを回避します。
  • ネットワーク内テレメトリ: ネットワーク輻輳キューの深さに関する詳細な情報を提供し、リアルタイムの監視と最適化を容易にします。

高信頼性保証:

  • 高可用性テクノロジー: Arista は、AI ネットワークの高可用性を確保するためのさまざまな機能を提供します。
  • 非中断アップグレード (SSU): ダウンタイムなしで EOS バージョンのアップグレードをサポートします。
  • データ プレーンの最適化: チップのパフォーマンスを最適化して、安定したネットワーク動作を実現します。
  • 包括的な L1 リンク監視: 400,000 個の光モジュールの状態をリアルタイムで監視し、障害を迅速に特定して対処し、ネットワークの信頼性を確保します。
EOS

Arista の最高傑作: EOS (拡張可能オペレーティング システム) とその機能:

AI 環境では、負荷分散が重要です。動的負荷分散 (DLB)、輻輳負荷分散 (CLB)、RDMA ヘッダーベースのハッシュ、データセンター量子化輻輳通知 (DCQCN)、明示的輻輳通知 (ECN)、優先度フロー制御 (PFC) 輻輳制御方法など、さまざまな機能を提供します。さらに、PFC ウォッチドッグやマルチテナント オプションなどの拡張機能も提供しています。

GPU または xPU クラスターを構築し、それをサービスとして提供することを計画している場合は、セグメンテーションとマルチテナント機能が必要になります。ここで、Virtual Extensible LAN (VXLAN) と Ethernet Virtual Private Network (EVPN) が役立ちます。展開後は、テレメトリ データにアクセスし、輻輳ポイントと障害のあるリンクを特定して、ネットワークの信頼性と堅牢性を確保するために、監視と視覚化が不可欠です。

リニア プラガブル オプティクス (LPO):

  • 設計上の特徴: 800G LPO は線形設計を採用しており、コストと電力消費を大幅に削減します。
  • 将来展望:1.6T LPOはさらに消費電力を削減でき、2025年までに大規模生産が実現すると予想されており、AIクラスターの消費電力を削減するための重要な技術になります。
400Gから800Gへの光通信の移行

ネットワークでも同様に重要です。400G光技術を調べると、電気信号と光信号の不一致が観察されます。電気信号は8X 50Gですが、光信号は4X 100Gであるため、50G電気信号を100G光信号に変換するためのギアボックスが必要です。信号変換に加えて、ギアボックスには信号増幅機能もあります。ギアボックスの役割は何ですか?光信号の電力ゲインを提供しますが、コストも追加されます。800G速度では、状況は線形であり、これは好ましい特性です。電気信号は8X 100G PAM-4であり、光信号も8X 100G PAM-4であるため、光信号速度が完全に一致し、コストが最も低く、光学設計が簡単になります。

ラックレベルの統合:

  • 統合ソリューション: 銅ケーブルの光相互接続を使用して、より多くの GPU とネットワーク テクノロジーを同じラックに統合し、全体的なパフォーマンスを向上させます。
  • ケース分析: Nvidia の NVL72 ラックには、最大 72 キロワットの電力消費量を持つ 120 個の GPU が統合されています。ラック レベルの統合はコストと電力の面で利点がありますが、熱管理の面で課題も抱えています。

AI クラスターで最も一般的に使用されている光接続方式について知りたい場合は、ほとんどの AI クラスターがラックエンド設計を採用していることがわかります。ここでは 800G VSR4 が使用され、ラックの端から任意の GPU を接続するのに十分な 50 メートルの伝送距離が提供されます。リーフとスパインの間では、XDR4 または FR4 を使用できます。500 つは最大 2 メートル、もう XNUMX つは最大 XNUMX キロメートルの伝送をサポートします。

生成AIはすべてを変える

ウルトラ イーサネット コンソーシアム (UEC):

  • 組織の背景: Arista は UEC の創設メンバーの 1 つであり、イーサネット技術の開発を積極的に推進しています。
  • 技術目標: UEC は、伝送プロトコル、輻輳制御、パケット スプレー テクノロジーなど、AI および HPC ワークロードによってもたらされるネットワークの課題に対処することを目指しています。
  • 仕様リリース: UEC は 2024 年後半にマルチレイヤー ネットワーク仕様をリリースし、業界の標準化を推進する予定です。

AI ネットワークのスケーリング:

  • アーキテクチャ サポート: Arista は、さまざまな規模の AI クラスターをサポートするために、次のようなさまざまなネットワーク アーキテクチャを提供しています。
  • デュアルレイヤー リーフ スパイン アーキテクチャ: 小規模から中規模のクラスターに適しており、効率的な帯域幅利用を実現します。
  • 3 層ネットワーク アーキテクチャ: 超大規模クラスターに適しており、ネットワークのスケーラビリティを強化します。
  • マルチプレーン ネットワーク アーキテクチャ: 複数の独立したプレーンを通じてネットワーク スケールを拡張し、より高い同時実行性をサポートします。
  • 分散スケジューリング アーキテクチャ: シングルホップの論理接続を実現し、最大 32,000 個の GPU の拡張ニーズをサポートします。
  • 市場の需要: 超大規模 AI クラスターの構築にはコストがかかりますが、高性能コンピューティングとビッグデータ処理に対する市場の需要の高まりにより、関連技術の革新と開発が促進され続けています。

コメント

上へスクロール