NVIDIA の 400G/800G NDR ソリューション

新興テクノロジーとして、人工知能は近年急速に発展しています。 中でもChatGPTをはじめとする一連のAI技術は、生産やライフスタイルを徐々に変え始めています。 深層学習アルゴリズムの継続的な最適化とトレーニング データセットの拡張により、大規模な言語モデルのトレーニングに必要な CPU、GPU、DPU などのコンピューティング リソースも増加しており、モデル トレーニングのためにネットワーク経由でサーバーに接続する必要があります。 したがって、ネットワーク帯域幅と遅延はトレーニングの速度と効率に直接影響します。 この問題に対処するために、NVIDIA は Quantum-2 InfiniBand プラットフォームを立ち上げました。これは、AI 開発者や研究者が困難を克服できるよう強力なネットワーク パフォーマンスと包括的な機能を提供します。

NVIDIA は、高速ネットワーク開発トレンドの理解と高性能ネットワーク プロジェクトの実装における豊富な経験に基づいて、Quantum-2 InfiniBand プラットフォームに基づいて構築された NDR (Next Data Rate) ネットワーク ソリューションを導入しました。 NVIDIA の NDR ソリューションは、主に Quantum-2 InfiniBand 800G スイッチ (2x400G NDR インターフェイス)、ConnectX-7 InfiniBand ホスト アダプター、LinkX InfiniBand 光コネクタで構成されており、次のような重要な分野に低遅延、高帯域幅の超強力なネットワーク パフォーマンスを提供することを目的としています。ハイパフォーマンスコンピューティング、大規模クラウドデータセンター、人工知能など。

使用例には次のようなものがあります。

1. 800 つのスイッチを 400 Gb/s の速度で接続するか、XNUMX つのスイッチにそれぞれ XNUMX Gb/s の速度で接続します。

XNUMX つの OSFP ベースのスイッチを接続するには、XNUMX つのツイン ポート OSFP トランシーバー (MMA4Z00-NS) と 7 本のストレート マルチモード ファイバー ケーブル (MFP10E50-Nxxx) を最大 800 メートルまで接続できます。 これにより、2G (400x400G) の速度を達成できます。 あるいは、XNUMX 本のファイバー ケーブルを XNUMX つの異なるスイッチに配線して、XNUMX つの個別の XNUMX Gb/s リンクを作成することもできます。 追加のツイン ポート OSFP ポートは、必要に応じてさらに多くのスイッチに接続するために使用できます。

スイッチからスイッチへ

2. ConnectX-7 BlueField-3 の 400 つの組み合わせにそれぞれ XNUMXG の速度で接続します。

ツイン ポート OSFP トランシーバーと 7 本のストレート ファイバー ケーブルを使用すると、ConnectX-3 または BlueField-400 を使用して、最大 XNUMX つのアダプターおよび/または DPU の組み合わせを接続できます。 各ケーブルには XNUMX つのチャネルがあり、いずれかの OSFP (MMA4Z00-NS400) または QSFP112 (MMA1Z00-NS400) フォーム ファクターで、最大 50 メートルの距離に対応します。 シングルポート OSFP と QSFP112 フォーム ファクタはどちらも同じ電子機器、光学部品、光コネクタを備えており、8 ワットの電力を消費します。

ConnectX-7/OSFP のみがシングル ポート OSFP フォーム ファクタをサポートし、QSFP112 フォーム ファクタは ConnectX-7/QSFP112 および/または BlueField-3/QSFP112 DPU で使用されることに注意してください。 同じツイン ポート OSFP トランシーバー上で OSFP または QSFP7 を同時に使用して、ConnectX-3 と BlueField-112 を任意に組み合わせて使用​​できます。

2に切り替える

3. ConnectX-7 および/または BlueField-3 の 200 つの組み合わせに、それぞれ XNUMXG の速度で接続します。

ConnectX-7 または BlueField-3 を使用して最大 1 つのアダプターおよび/または DPU の組み合わせを切り替える場合は、2 本の 4:1 ファイバー スプリッター ケーブルを備えたツイン ポート OSFP トランシーバーを使用できます。 2 本の 7 チャネル 20:0 ファイバ スプリッタ ケーブル (MFP400E50-N4xx) はそれぞれ、OSFP (MMA00Z400-NS112) または QSFPXNUMX (MMA1Z00-NS400) フォームファクタ。 シングルポート OSFP と QSFP112 フォーム ファクタの両方に同じ電子機器、光学部品、および光コネクタが使用されます。 400 つのファイバー チャネルの端を接続すると、200G トランシーバーの 400 つのレーンだけがアクティブになり、8G デバイスが作成されます。 これにより、5.5G トランシーバーの消費電力も 15 ワットから XNUMX ワットに自動的に削減されますが、ツイン ポート OSFP の消費電力は XNUMX ワットのままです。

シングル ポート OSFP フォーム ファクタと互換性があるのは ConnectX-7/OSFP のみですが、QSFP112 フォーム ファクタは ConnectX-7/QSFP112 および/または BlueField-3/QSFP112 DPU で使用されることに注意してください。 同じツイン ポート OSFP トランシーバー上で ConnectX-7 タイプと BlueField-3 を任意に組み合わせて使用​​できます。

4に切り替える

4. スイッチを Cedar-100 コンプレックス内の DGX H7「Viking」CPU シャーシにリンクします。

DGX-H100 システムには、上部シャーシに 100 つの Hopper HXNUMX GPU と、XNUMX つの CPU、ストレージ、 または、下部のサーバーセクションのイーサネットネットワーキング。 GPU 間の通信を容易にするために、7 つのメザニン ボードに 400 つの 7Gb/s ConnectX-800 IC が搭載された Cedar-XNUMX カードが使用されます。 これらのカードは、冷却目的で内部ライディング ヒートシンクを備えた XNUMX つの XNUMXG ツインポート OSFP ケージに内部接続されています。

400G IB/EN をサポートするスイッチでは、空気流入口が減少するため、フィン付き上部の 2x400G トランシーバが必要です。 Cedar-7 からスイッチへのリンクでは、InfiniBand またはイーサネット接続用にシングルモードまたはマルチモードの光ファイバー、またはアクティブ銅線ケーブル (ACC) を使用できます。

ツインポート 2x400G トランシーバーは、DGX から Quantum-400 または Spectrum-7 スイッチへの 2 つの 4G ConnectX-100 リンクを提供するため、DGX A100 と比較して複雑さと必要なトランシーバーの数が軽減されます。 DGX-H7 は、ストレージ、クラスタ、および管理への従来のネットワーク用に、InfiniBand および/またはイーサネットで最大 3 つの ConnectX-XNUMX および/または XNUMX つの BlueField-XNUMX データ処理ユニット (DPU) をサポートします。

OSFP GPU ケージの両側にある PCIe カード スロットは、個別のケーブルやトランシーバーを収容でき、OSFP または QSFP400 デバイスで 200G または 112G を使用した追加のネットワークを容易にします。

DGXに切り替える

量子-2 スイッチ

NVIDIA Quantum-9700 の QM9790 および QM2 スイッチは、最新の人工知能およびハイパフォーマンス コンピューティングの分野における主流の IB (InfiniBand) スイッチです。 NVIDIA Networks は、技術革新と信頼性テスト サービスを通じて、ユーザーに優れたネットワーク アクセラレーション サービスを提供します。

インフィニバンド クォンタム 2

これら 1 つのスイッチは、合計 32 個の 800G 物理インターフェイスを備えた 64U 標準シャーシ設計を使用し、400 個の NDR 128Gb/s InfiniBand ポート (最大 200 個の 32Gb/s ポートに分割可能) をサポートします。 これらは、第 XNUMX 世代の NVIDIA SHARP テクノロジー、高度な輻輳制御、適応ルーティング、および自己修復ネットワーク テクノロジーをサポートしています。 前世代の HDR 製品と比較して、NDR は XNUMX 倍のポート速度、XNUMX 倍のスイッチ ポート密度、XNUMX 倍のスイッチ システム容量、XNUMX 倍のスイッチ AI アクセラレーション機能を提供します。

NDRスイッチ

QM9700 および QM9790 スイッチは、空冷式および液冷式、マネージド スイッチおよびアンマネージド スイッチを含む、ラックマウント型 InfiniBand ソリューション用の製品です。 各スイッチは 51.2Tb/s の双方向総帯域幅をサポートでき、66.5 億パケット/秒 (BPPS) を超える驚異的なスループット容量を備えています。 これは、前世代の Quantum-1 のスイッチング容量の約 XNUMX 倍です。

ネットワーク内

QM9700 および QM9790 スイッチは高い柔軟性を備えており、Fat Tree、DragonFly+、多次元トーラスなどのさまざまなネットワーク トポロジをサポートできます。 また、前世代の製品との下位互換性もサポートしており、広範なソフトウェア システムをサポートしています。

Quantum-2 ConnectX-7 スマートNIC

NVIDIA は、シングルポートまたはデュアルポート NDR または NDR200 NVIDIA ConnectX 7 インテリジェント ネットワーク カードを Quantum-2 ソリューションとして提供します。 NVIDIA Mellanox Socket Direct テクノロジーを使用したこのネットワーク カードは、PCIe Gen32 の 4 チャネルを実現します。 7 ナノメートルのテクノロジーで設計された ConnectX-7 には 8 億個のトランジスタが含まれており、主要なハイパフォーマンス コンピューティング ネットワーク チップである NVIDIA ConnectX-6 の XNUMX 倍のデータ転送速度を備えています。 また、RDMA、GPUDirect Storage、GPUDirect RDMA、ネットワーク コンピューティングのパフォーマンスも XNUMX 倍になります。

NDR HCA には、前処理データ アルゴリズムとアプリケーション制御パスを CPU または GPU からネットワークにアンロードできる複数のプログラマブル コンピューティング コアが含まれており、より高いパフォーマンス、スケーラビリティ、コンピューティング タスクと通信タスク間のオーバーラップを実現します。 このインテリジェント ネットワーク カードは、人工知能、科学技術コンピューティング、および大規模なクラウド データ センターにおける従来の企業およびグローバル ワークロードの最も厳しい要件を満たします。

Quantum-2 ConnectX-7 スマート NIC

LinkX InfiniBand 光コネクタ

ファイバーモール offシングルモードおよびマルチモード トランシーバー、MPO ファイバー ジャンパー、アクティブ銅線ケーブル (ACC)、およびパッシブ銅線ケーブル (DAC) を含む柔軟な 400Gb/s InfiniBand 光接続ソリューションは、さまざまなネットワーク トポロジーのニーズに対応します。

このソリューションには、空冷固定構成スイッチ用に設計されたフィンを備えた OSFP コネクタを備えたデュアルポート トランシーバが含まれており、フラット OSFP コネクタを備えたトランシーバは水冷モジュラー スイッチおよび HCA に適しています。

スイッチの相互接続には、新しい OSFP パッケージの 2xNDR (800Gbps) 光モジュールを使用して、97 つの QMXNUMXXX スイッチを相互接続できます。 フィンの設計により、光モジュールの放熱が大幅に向上します。

スイッチと HCA 間の相互接続には、スイッチ側では OSFP パッケージのフィン付き 2xNDR (800Gbps) 光モジュールを使用し、NIC 側ではフラット モジュールを使用します。 OSFP 400Gbps 光モジュール。 MPO ファイバー ジャンパーは 3 ~ 150 メートル、3 対 50 のスプリッター ファイバーは XNUMX ~ XNUMX メートルを提供できます。

光トランシーバ

スイッチと HCA 間の接続は、DAC (最大 1.5 メートル) または ACC (最大 3 メートル) を使用したソリューションを提供します。 400 ~ 400 のブレークアウト ケーブルを使用して、スイッチの 200 つの OSFP ポート (XNUMX つの XNUMXGb/s InfiniBand ポートを装備) を XNUMX つの独立した XNUMXGb/s HCA に接続できます。 XNUMX ~ XNUMX のブレークアウト ケーブルを使用して、スイッチの XNUMX つの OSFP スイッチ ポートを XNUMX つの XNUMXGb/s HCA に接続できます。

スイッチとHCA間の接続

Advantages

NVIDIA Quantum-2 InfiniBand プラットフォームは、ポートあたり 400Gb/s の伝送速度を達成できる高性能ネットワーキング ソリューションです。 NVIDIA ポート分割テクノロジを実装することにより、ポート密度で 2 倍の速度、スイッチ ポート密度で 400 倍、スイッチ システム容量で XNUMX 倍を実現します。 Dragonfly+ トポロジを使用すると、Quantum-XNUMX ベースのネットワークは、消費電力、遅延、空間要件を削減しながら、XNUMX ホップ以内で XNUMX 万を超えるノードに対して XNUMXGb/s の接続を実現できます。

パフォーマンスの面では、NVIDIA は第 3 世代 SHARP テクノロジ (SHARPv64) を導入しました。これは、最大 32 の並列ストリームをサポートするスケーラブルなネットワークを通じて、大規模なデータ集約のためのほぼ無限のスケーラビリティを実現します。 AI 高速化機能は、以前の HDR 製品と比較して XNUMX 倍に向上しました。

ユーザーコストの観点から見ると、NDR デバイスを使用するとネットワークの複雑さが軽減され、効率が向上します。 後でレートをアップグレードする場合は、ケーブルとネットワーク カードのみを交換する必要があります。 NDR ネットワークは、同じネットワークをサポートするネットワークよりも必要なデバイスの数が少ないため、全体の予算と将来の投資のコスト効率が高くなります。 以前の HDR と比較して、NDR デバイスはコストを削減し、効率を向上させることができます。

コメント

上へスクロール