128 DGX H100 でクラスターを構築するにはどうすればよいですか?

100 年にリリースされた NVIDIA DGX H2022 には、NDR 8Gb/s 帯域幅をサポートする 7 つのシングルポート ConnectX-400 ネットワーク カードと、IB/イーサネット ネットワークをサポートできる 2 つのデュアルポート Bluefield-3 DPU (200Gb/s) が装備されています。 。外観を次の図に示します。

帯域内システム管理

DGX H100 には、ストレージ ネットワークとインバンド管理ネットワーク用に 4 つの QSFP56 ポートがあります。さらに、リモート ホスト OS 管理用に 10G イーサネット ポートが 1 つ、リモート システム管理用に XNUMXG イーサネット ポートが XNUMX つあります。

サーバーの内部ネットワーク トポロジの図から、コンピューティング ネットワーク接続用の 4 つの OSFP ポート (紫色のポート) があり、青いブロックはネットワーク カードであり、ネットワーク カードとして機能し、PCIe スイッチ拡張の役割も果たすことができます。 、CPUとGPUの間の橋渡しになります。

CPU

NVIDIA SuperPOD NVLink クラスター相互接続スキームが採用されている場合、32 台の H100 が外部 NVLink スイッチを介して相互接続されます。サーバー内の 8 つの GPU は 4 つの NVSwitch モジュールに接続されており、各 NVSwitch モジュールは 4 ~ 5 に対応します。 OSFP光モジュール、合計 18 個の OSFP があり、OSFP は 18 個の外部 NVLink スイッチに接続されます。 (現在、市販されている H100 にはこれら 18 個の OSFP モジュールが搭載されていません) この記事では、NVLink ネットワーキング方式については説明せず、IB ネットワーキング方式に焦点を当てています。 NVIDIA リファレンス設計ドキュメントによると、DGX H100 サーバー クラスターでは、32 台の DGX H100 ごとに SU を形成し、4 台ごとの DGX H100 が別のラックに配置されます (各ラックの電力は 40KW に近いと推定されます)。各種スイッチは独立した10つのラックに配置されています。したがって、各 SU には 8 ラック (サーバー配置用に 2 ラック、スイッチ配置用に 9700 ラック) が含まれます。コンピューティング ネットワークでは、Spine-Leaf XNUMX 層スイッチ (Mellanox QMXNUMX) を使用するだけで済みます。ネットワーク トポロジは次の図に示されています。

脊椎

スイッチの使用: クラスターでは、32 台の DGX H100 ごとに SU を形成し (各 SU に 8 つのリーフ スイッチがあります)、4 台の H128 サーバー クラスターには 100 つの SU があるため、合計 32 個のリーフ スイッチがあります。 SU 内の各 DGX H100 は、8 つのリーフ スイッチすべてと接続する必要があります。各サーバーにはコンピューティング ネットワーク接続用の OSFP ポートが 4 つしかないため、各ポートに 800G 光モジュールを接続した後、拡張ポートを介して 100 つの OSFP ポートが 8 つの QSFP ポートに拡張され、各 DGX H16 と 16 つのリーフ スイッチの接続が実現します。各リーフ スイッチには、XNUMX 個のスパイン スイッチに接続する XNUMX 個のアップリンク ポートがあります。

光モジュールの使用量: リーフ スイッチのダウンリンク ポートには 400G 光モジュールが必要で、需要は 3284 です。リーフ スイッチのアップリンク ポートには 800G 光モジュールが使用され、需要は 1684 です。800G 光モジュールは、 Spine スイッチのダウンリンク ポート。したがって、128 台の H800 サーバー クラスターで使用されるコンピューティング ネットワークは、 800G光学モジュール 1536 および 400G 光モジュール 1024。

コメント

上へスクロール