H3CがS12500AIを発表:DDCアーキテクチャに基づく新世代AIネットワークソリューション

New H3Cは最近、DDC(Diversity Dynamic-Connectivity)アーキテクチャを基盤とする画期的なロスレスネットワークソリューションとコンピューティングクラスタスイッチ、H3C S12500AIを発表しました。数万台のコンピューティングカードを相互接続する厳しい要件を満たすように設計されたこのソリューションは、インテリジェントコンピューティングセンターのネットワークアーキテクチャを再定義します。パフォーマンステストでは、従来のネットワーク方式と比較して、DDCベースの設計は実効帯域幅を最大107%向上させ、帯域幅利用率はInfiniBandネットワークに匹敵することが示されています。さらに、1,000ノードから70,000ノードまでの多様なクラスタ展開をサポートできる十分な適応性を備えています。

H3C S12500AI

超大規模インテリジェントコンピューティング環境向けに設計されたH3C S12500AIは、DDCアーキテクチャを全面的に採用し、優れた拡張性と適応性を提供します。ネットワークスイッチングユニット(NCF)はボックス型で、最大128×800G OSFPセルポートをサポートします。一方、ネットワークプロセッシングユニット(NCP)は、36×XNUMXGに対応したダウンリンクポートを備えています。400G Q112 イーサネット ポートと 18×800G OSFP イーサネット ポートにより、主流のネットワーク インターフェイス カードとのシームレスな統合が保証され、効率的で安定したアクセス エクスペリエンスが保証されます。

DDC

DDCアーキテクチャは、NCFユニットとNCPユニットを統合した多層ネットワーク設計を採用し、70,000万枚を超えるカードで構成される大規模クラスタの相互接続を可能にします。さらに、独立したネットワーク要素に基づくオープンネットワーキングアプローチを採用することで、集中型のネットワーク制御ユニットが不要になり、単一障害点に伴う管理リスクを効果的に軽減します。さらに、テストデータでは、DDCアーキテクチャが従来の構成と比較して実効帯域幅を107%向上させるだけでなく、インテリジェントコンピューティングネットワークのスループットと運用安定性を大幅に向上させることが実証されています。

DDC アーキテクチャとは何ですか?

DDC(Diversity Dynamic-Connectivity)は、ネットワークアーキテクチャにおける革新的なイノベーションです。従来のシャーシベーススイッチのコアスイッチングボードをサービスモジュールから分離し、システムを独立したユニットからなる分散型相互接続クラスタとして再構築します。セルベース技術を採用することで、DDCはノンブロッキング伝送を実現します。New H3Cは革新的な技術として、セルスイッチングとイーサネットプロトコルを統合し、多様なコンピューティングリソースに対応するアーキテクチャを実現しながら、複数ブランドのネットワークデバイスの相互接続を容易にしています。簡単に言えば、従来のシャーシベーススイッチ(サービスカードとスイッチングマトリックスカードで構成される)が、独立したボックス型デバイスのセットへと進化したのです。

NCF NCP

DDC技術の中核を成すのは、データストリームを標準化された固定長のセルに分割する、革新的なセルスプレー方式です。このプロセスは、様々な車種を均一サイズの「ミニカー」に置き換えることに例えることができます。すべてのユニットの寸法が同一であるため、各レーンの有効利用が最大化されます。重要なのは、この技術はデータフローの特性に完全に透過的であり、特定のプロトコルの内容には関与しないということです。

InfiniBand (IB) や ROCE で採用されているパケット単位の転送方式とは対照的に、DDC テクノロジーは、ネットワーク インターフェイス カード上のハードウェア ベースのパケット再構成サポートを必要とせずに、ネットワーク側でデータ パケットを再構成します。このアプローチにより、さまざまなブランドの NIC 間の互換性が確保されます。ストリームベース転送などの従来の転送方式では、同一の機能 (共通の 5 タプルなど) を持つすべてのデータ フローが単一のリンクに沿ってルーティングされるため、フローの特性に非常に左右され、特定のチャネルが過負荷になり、他のチャネルが十分に活用されないという結果になることがよくあります。パケット レベルのスプレーは、データ パケットを複数のリンクに分散させようとしますが、パケット サイズの変動により、理想的な負荷分散が妨げられることがよくあります。これは、大型トラックが小型車に割り当てられたスペースを侵害し、負荷分散が不均一になる多目的道路の管理に似ています。

セルベースのスイッチングと転送

DDC アーキテクチャはどのような価値を提供しますか?

DDCアーキテクチャは、セルベースのマルチパス負荷分散によって大きなメリットをもたらします。フローレベルとパケットレベルの両方の転送を採用することで、ネットワーク帯域幅の利用率を大幅に向上させます。この利点は、AIテンソル並列処理やマルチエキスパート並列処理に特に有効で、これらのアプリケーションはスケールアウトネットワークの帯域幅の利点を最大限に活用できます。さらに、スイッチ側でセルの並べ替えを実装することで、ネットワークインターフェースカード(NIC)が担うパケット並べ替えの責任を分離します。この分離により、さまざまなメーカーのデバイスとの互換性が向上するだけでなく、より競争力のある価格のNICソリューションも実現します。AI技術に対する米国の規制が厳しい現状を考えると、このアプローチは、国内GPUとNICで構成されるマルチベンダーエコシステムの異種ネットワークの需要によく適合します。さらに、ネットワークの輻輳を軽減し、エンドポイントのパケット並べ替えに伴う遅延ペナルティを軽減することで、AI事前学習プロセスの効率を大幅に向上させます。

異機種N​​ICと互換性あり(パラメータ調整は不要)

どのようなチップソリューションが採用されていますか?

現在、セルベースフォワーディング分野において最も成熟したチップソリューションは、BroadcomのStrataDNX製品ライン、特にJerichoシリーズチップに搭載されています。StrataDNXシリーズは、Broadcomが2009年にイーサネットスイッチングチップ市場のリーダーであるDune Networksを買収した際に獲得した貴重な資産に基づいています。当時、Dune NetworksはBroadcomよりも優れた技術力と市場シェアを誇り、高い評価を得ていました。買収後、BroadcomはDuneの技術をStrataDNX製品ラインに統合し、高性能で信頼性の高いスイッチングチップを実現しました。

Jerichoシリーズは、機能上の役割に応じて、JerichoとRamonという2つの補完的なサブシリーズに分かれています。Jerichoチップは主にシャーシ型スイッチのラインカードアプリケーションに導入され、DDCソリューションのNCP(ネットワーク制御プロセッサ)コンポーネントに相当します。一方、Ramonシリーズはシャーシ型スイッチングシステムにおいてスイッチングNICチップ(NCF)として機能します。

2023年、BroadcomはJericho3-Ramon3チップの発売により、画期的なアップデートを発表しました。この画期的な製品は、Jerichoシリーズが人工知能コンピューティング時代へと移行したことを象徴するものです。

テーブル

3T の帯域幅を持つ Ramon51.2 チップは、通常 3 つの Ramon12500 チップを組み込んだ 128 × 800G (OSFP112) NFC インターフェイス構成を使用する H3C の SXNUMXAI DDC ソリューションに採用されています。

一方、Jericho3チップは14.4Tの帯域幅を提供し、H3Cソリューションで18つのNCPインターフェース構成をサポートします。XNUMXつはXNUMX× 800G もう 36 つは 400 × 3G で、それぞれに XNUMX つの JerichoXNUMX チップが採用されています。

AIコンピューティング環境において、DDCテクノロジーは堅牢な適応性を発揮します。そのアーキテクチャ設計は、スケーラビリティにおいて飛躍的な進歩を遂げています。単一クラスター構成では約1万枚のGPUカード間の相互接続をサポートし、マルチクラスター構成では数万枚のカードまで拡張可能です。この能力は、現在運用されている最大規模のAIモデルの学習ニーズを満たすのに最適です。

ネットワーク性能面では、DDCは分散トレーニングにおける主要なボトルネックの解消を目的とした最適化を実現します。革新的なトラフィックスケジューリングアルゴリズムを活用することで、従来のECMPベースのネットワークソリューションと比較して、実効帯域幅が107%向上します。この画期的な技術革新は、All-to-All通信モードで特に効果を発揮し、協調型マルチGPUトレーニング中のネットワーク輻輳を軽減します。さらに、All-to-All通信などの高負荷シナリオでは、DDCアーキテクチャに基づくRoCEネットワーク帯域幅性能は、業界標準のソリューションと比較して平均2.5%向上します。全体的な性能指標はInfiniBandネットワークに匹敵し、プラグアンドプレイ機能、固有の負荷分散、エンドポイント機能の完全な分離といった利点も維持しています。

IP転送ドメイン

DDCアーキテクチャの先進性は、マルチテナントサポートと異機種環境への互換性によってさらに実証されています。ハードウェアとソフトウェアの両方の機能を統合することで、システムは16K粒度でのテナント分離を実現します。従来のACLやVxLANアプローチと比較して、よりきめ細かな分離と、より多くのテナントのサポートを実現しながら、帯域幅の損失をゼロに抑えることができます。これは、マルチテナントAIトレーニングの展開において特に有益な機能です。さらに、DDCは様々なベンダーやモデルのNICとGPUデバイスをシームレスに接続することで、異なるNICエコシステムに起因する技術的課題に効果的に対処します。

運用面では、DDCはネットワーク管理を革新的に簡素化します。スイッチングメカニズムはフリットレベルのトラフィックスケジューリングをネイティブにサポートしているため、複雑なチューニング手順が不要になり、真のプラグアンドプレイ機能を実現します。また、ワンクリック自動導入とエンドツーエンドの相互接続可視化をサポートし、ネットワーク運用担当者はいつでもネットワークの状態を明確に把握できます。さらに、チップレベルの障害検出メカニズムにより、障害発生時に即座に自動切り替えが可能で、サービスの継続性を確保し、長時間にわたるAIトレーニングセッションを信頼性の高い形でサポートします。

上へスクロール