NVIDIA HGX B200 とその液体冷却ソリューションについての考察

NVIDIA HGX B200 は、Blackwell GPU アーキテクチャに基づく NVIDIA の最新の高性能コンピューティング プラットフォームです。優れたコンピューティング パフォーマンスとエネルギー効率を実現するように設計された複数の高度なテクノロジとコンポーネントを統合しています。

HGX B200 空冷

HGX B200 空冷モジュールを搭載したシステム全体の高さは 10U に達し、HGX B200 空冷モジュール自体は約 6U を占めます。

Exxact TensorEX 10U HGX B200 サーバー

Exxact TensorEX 10U HGX B200 サーバー

6x 5250W 冗長 (3 + 3) 電源

スーパーサーバー

SuperServer SYS-A22GA-NBRT(10U)6x 5250W 冗長(3 + 3)電源

OCP Global Summit 2024 では、NVIDIA HGX B200 の新しい写真がいくつか公開されました。NVIDIA HGX A100/H100/H200 と比較すると、NVLink スイッチ チップがコンポーネントの片側ではなく中央に再配置されたことが大きな変更点です。この変更により、GPU と NVLink スイッチ チップ間の最大リンク距離が最小限に抑えられます。NVLink スイッチは、前世代の XNUMX つのチップから XNUMX つのチップのみで構成され、サイズが大幅に増加しました。

エッジ コネクタの近くでは、NVSwitch の代わりに PCIe リタイマーが使用されています。これらのリタイマーは、TDP (熱設計電力) が約 10 ~ 15W であるため、通常、より小型のヒートシンクを使用します。

HGX B200 メインブロード(ヒートシンクなし)

HGX B200 マザーボード(ヒートシンクなし) – 1

HGX B200 メインブロード(ヒートシンクなし)-2

HGX B200 マザーボード(ヒートシンクなし) – 2

リタイマー

HGX B200 マザーボード リタイマー チップ ヒートシンク

EXAMAX コネクタの上面のシルクスクリーンには、これが Umbriel GB200 SXM6 8 GPU ベースボードであり、部品番号が 675-26287-00A0-TS53 であることが示されています。詳しく調べると、Retimer チップの製造元は Astera Labs であることがわかります。

B200 部品番号

NVIDIA HGX B200 部品番号情報

NVIDIA HGX B200 Astera Labs リタイマー チップのクローズアップ

NVIDIA HGX B200 Astera Labs リタイマー チップのクローズアップ

HGX B200 マザーボードの周囲は、ヒートシンクを固定し、熱伝導材を取り付けるために使用される黒色のアルミニウム合金の取り付けフレームで覆われています。

NVIDIA HGX B200 マザーボード ヒートシンク マウント フレーム

NVIDIA HGX B200 マザーボード ヒートシンク マウント フレーム

以下は、2024 OCP Global Summit で展示された NVLink スイッチ チップの画像です。

NVIDIA HGX B200 NVLink スイッチ チップのクローズアップ

HGX B200 の液体冷却ソリューションに関する考慮事項

NVIDIA は、B200 の TDP (熱設計電力) 値を 1200 つ設定しました。液体冷却の場合は 1000W、空冷の場合は 100W です。さらに、B700 は以前の H100 SXM と同様に 700W の範囲を提供しているため、OEM メーカーは 4W 空冷設計を再利用することができます。TDP 制限が高くなると、クロック周波数と有効な演算ユニットの数が増加し、パフォーマンスが向上します。実際、FP200 (Tensor Core) のパフォーマンスは、B1200/20W では 200 PFLOPS、B1000/18W では 100 PFLOPS、B700/14W では XNUMX PFLOPS です。

OAI システムは 4×2 のコールド プレート (つまり水道管) ループを採用しており、冷たい液体が最初に OAM 1-4 上のコールド プレートに流れ込み、熱を吸収して少し温まってから OAM 5-8 上のコールド プレートを通過します。これは、空気の流れが XNUMX つの CPU のヒートシンクを順番に通過する空冷に似ています。

対照的に、8×1 コールド プレート ループ レイアウトでは、冷たい液体が 8 つの OAM すべてに均等に分配され、OAM の半分で高温になることは回避されますが、追加の配管によりコストが高くなる可能性があります。

OAM1.5

OAM 1.5 仕様では、コールド プレート アセンブリは 4 並列 2 直列の配置で示されています。

4並列2直列

4並列2直列と8×1構成

nvidia h100 コールドプレート
H3C R5500 G6 H100 モジュール

H3C R5500 G6 H100 モジュール 液体冷却 4 並列 3 直列 (並列 GPU 2 個 + 直列スイッチ 1 個)

H100 8+4 (4並列3直列構成)

上記の H100 コールド プレート構成に基づいて、B200 液体冷却ソリューションの考慮事項は次のとおりです。8 つの GPU と 2 つのスイッチが 2 つのグループに分けられます。各グループは 4 つの GPU と 1 つのスイッチで構成されます。両方のグループで同じ液体冷却方式が使用されます。各グループには、コールド プレート用の入口ポートと出口ポートが 2 つずつあります。上部の 2 つの GPU は並列でスイッチと直列に接続され、下部の 2 つの GPU も同じスイッチと並列で直列に接続されているため、スイッチ コールド プレートには 2 つの入口/出口ポートがあります。

あるいは、マニホールドを 6 つの入口と 6 つの出口で設計し、そのうち 4 つの入口と出口を 8 つの GPU (4 並列 2 直列構成) に使用し、残りの 2 つの入口と 2 つの出口を 2 つのスイッチ (それぞれマニホールドに接続) に使用します。このアプローチでは、配管のルーティング パスとスペースの制約を慎重に考慮する必要があります。ただし、選択したソリューションに関係なく、詳細なシミュレーション評価と実用的なシステム設計が必要です。

コメント

上へスクロール