詳細な分析: NVIDIA GB200 のコンピューティング能力、液体冷却、ネットワーク、電源の選択方法

名前の由来

G – グレースCPU

B – ブラックウェル GPU

200 – 世代

NVL – NVlink 相互接続テクノロジー

72 – 72 GPU

gb200 nvl72 を発表

コンピューティングパワー構成

各 NVL72 には 18 個のコンピューティング トレイがあり、これは NVL72 のコンピューティング パワー構成の基本単位です。各トレイはコンピューティング ノードとして機能します。GB200 NVL72 は Bianca ボードのスーパー チップセットを定義し、各チップセットは 2 つの Grace CPU (ARM アーキテクチャに基づいて NV が開発) と 4 つの Blackwell GPU チップで構成されます。各コンピューティング トレイは 72 つのスーパー チップセット、つまり 18 つの CPU + 18 つの GPU で構成されます。NVL4 の 72 個のコンピューティング トレイは合計 XNUMX * XNUMX = XNUMX 個の GPU になります。

各コンピューティング トレイは 1U フォーム ファクタで、シャーシに直接接続されます。これは日常的な展開とメンテナンスのための最小ユニットであり、各コンピューティング トレイは最大 5400W の電力を消費します。

NVL72 システム全体では 13.8T のビデオ メモリを誇り、各 B200 チップには 192GB のビデオ メモリが搭載されており、H112 の 100GB より 80GB 増加しています。さらに、シングル GPU メモリ帯域幅は H3.35 の 100TB/秒から 8TB/秒にアップグレードされています。システムには 17TB の DDR5X メモリも含まれており、各 Bianca チップには 480GB のメモリが搭載されています。

コンピューティングパワー構成

冷却構成

H100 フェーズでは、各 GPU の消費電力は 700W でした。空冷要件を満たし、より優れた空力環境を作り出すために、システム全体を 6 つの H8 で 8 ~ 100U のスペースに収めました。B200 フェーズでは、各チップの消費電力が 1200W になり、より多くの冷却スペースが必要になったため、システムは 10U サイズ (8 * B200) に拡張されました。

GB200 Bianca ボードのシナリオでは、消費電力が 2700W であるため、19 インチ ラック内で効果的な冷却を行うには空気速度が不十分で、液体冷却ソリューションが必要になります。これにより、システムのボリュームを 1 ~ 2U の範囲内で制御できるため、スペースの利用率と冷却効率が大幅に向上します。

  1. サーバー レベル: 液体冷却は、コールド プレートを介して Bianca ボード上の CPU と GPU の冷却ニーズに対応できます。ただし、各コンピューティング トレイと NVswitch トレイの前面には、ネットワーク カード、PDU、管理カード、ハード ドライブなど、依然として空冷を必要とする多くのカスタム コンポーネントが含まれています。通常、コンピューティング トレイの液体対空気の比率は約 8.5:1.5 です。将来、CX ネットワーク カードに基づいてスケール アウトする場合は、NIC 用のコールド プレートが設計される可能性があります。
  2. ラックレベル: 現在、さまざまな液体冷却ソリューションが利用可能です。
  3. 古い空冷室の改修ソリューション: RDHx と Sidecar の 30 つのオプションがあり、前者は 40 ~ 70KW の冷却を提供し、後者は 140 ~ XNUMXKW の冷却を提供します。これらのソリューションにより、既存の空冷 HVAC ユニットを変更することなく、各ラックに液体冷却システムを追加できます。冷媒を使用してラジエーターに熱を移動させ、空気交換を行います (室内の空気冷却環境を維持します)。最小限の変更で済むため、大規模なパイプラインの改修は不要です。
ラック内
  • 新しい高密度データセンター: NV72 のような新しい高密度データセンターでは、ラック内 CDU と列内 CDU が主な選択肢です。ラック内 CDU はラック内に 4U 以上のスペースを必要とし、通常は冗長性機能なしで約 80KW の冷却効率を提供します。対照的に、列内 CDU は個々のラックの外部に設置され、800 つの CDU システムで構成され、2000KW ~ 576KW の冷却と冗長性を提供する複数のラックまたは列の冷却を提供します。NVLXNUMX クラスターの公式マーケティングでは、列内ソリューションが使用されています。
L2L ラック内 CDU
インローCDU

ネットワーク構成

NVLinkネットワーク

NVL72 は完全に相互接続された NVLink アーキテクチャを備えており、NVL72 モードで RDMA (IB&RoCE) ネットワークが不要になります。

NVL72 システムには 9 つの NVSwitch トレイが装備されており、各トレイには 2 つの NVLink スイッチ チップが含まれています。各チップは 4 * 1.8TB/s の速度をサポートし、合計 7.2TB/s の容量、つまり 57.6Tbps に相当します。この容量は、人気の TH5 チップの 51.2Tbps よりわずかに高くなっています。各 NVSwitch トレイは、2 * 4 * 1.8TB/s = 14.4TB/s の NVLink 容量を提供します。

NVスイッチトレイ内部
NVスイッチトレイ内部2
NVスイッチトレイ前面

GB200 は NVLink 5.0 を利用し、各 B200 チップは 18 個の NVLink 5.0 接続を介して NVLink スイッチ チップに相互接続されます。したがって、NVL72 ユニットには 72 * 18 = 1296 個の NVLink 5.0 ポートがあり、各ポートは双方向 100GB/s を提供し、4 組の差動信号線で構成されています。各ペアは銅線で接続され、1296 * 4 = 5184 個の物理接続になります。

ネフリンク5.0

図に示すように、GB9 NVL200 キャビネットの 72 つの NVSwitch トレイはすべて、72 個の B200 チップを接続するために使用されます。各 B200 チップは、単一の NVLink 18 双方向 5.0GB 接続を介して 100 個の NVSwitch チップにリンクされます。各 NVSwitch チップは 7.2GB の帯域幅をサポートし、これは 72 個の NVLink 5.0 接続に相当し、72 個の B200 GPU の展開に対応します。より大きなクラスターに拡張するための追加の NVLink インターフェイスはありません。

GB9 NVL200キャビネット内の72つのNVSwitchトレイはすべて、72個のB200チップを接続するために使用されます。

GB200 NVL72 内の NVLink ネットワークは完全に相互接続された状態を形成し、単一の NVSwitch ホップを介して 72 個の B200 チップの完全な相互接続を実現します。各スイッチ チップには 4 つの NVLink ポートがあり、各ポートは 72 本の銅線とペアになっているため、光通信の電力消費とコストが大幅に削減され、システムあたり最大 20KW を節約できます。NVL72 の内部通信構造を次の図に示します。

gb200 nvl72 アーキテクチャ

非NVLinkネットワーク(RDMA + 高速TCPネットワーク)

各コンピューティング トレイには、4 つの OSFP スロットと 2 つの QSFP スロットが含まれています。コンピューティング トレイの前面パネルのネットワーク ポート レイアウトを以下に示します。

コンピュートトレイの前面パネルのネットワークポートレイアウト
  1. Bluefield-2 DPU がサポートする 3 つの QSFP スロットは、高性能 TCP/ストレージ ネットワーク相互接続用の 400G/800G ポートを提供し、NV が提案するフロントエンド ネットワークを形成します。

b. CX4/CX7 8G/800TB ポートを備えた 1.6 つの OSFP スロットは、RDMA ネットワーク通信を使用した GB200 の外部拡張をサポートし、NV が提案するバックエンド ネットワークを構成します。

設計アーキテクチャ、伝送コスト、チップ機能のため、NV は現在、最大 576 個の GPU (8 GB200 NVL72 ユニットに相当) に対応する純粋な NVLink ネットワーク ソリューションを提供しています。AI トレーニング/推論クラスターをさらに拡張するには、RDMA ネットワークが必要です。NVLink 5.0 は、GPU あたり 100 GB/秒の帯域幅を実現し、GPU あたり 18 個の接続で合計 1.8 TB/秒の帯域幅を実現します。RDMA の現在の最速の単一ポート レートは 200 GB/秒 (1.6 Tbps) で、NVLink の速度には及びません。

電源構成

全体の定格消費電力: システム全体の定格消費電力は 120KW です。2+4 (または 4+4) 電源シェルフを備えた 2N として構成され、各シェルフは 33KW をサポートします。各電源シェルフには 5.5 つの 5KW PSU ユニットを収容でき、1+XNUMX の冗長性を提供します。

システム全体の定格消費電力は120KWです。

電源シェルフの仕様: 電源シェルフは、3% を超える電力効率を誇る OCP の ORv97.5 HPR 電源シェルフを採用しており、AC-DC 変換プロセス中の電力損失を削減します。さらに、各スロットに 48V/50V の低電圧 DC 出力を使用しているため、従来の 12V 出力に比べて電力伝送損失が低くなります。

ORv3 hpr

ラック入力電源規格: ラック入力電源は、OCP の ORv3 HPR 規格に準拠しており、AC 入力は 415V です。各スロットは、ハード接続を介してラックのバスバーに直接接続されます。

OCP
各スロットは、ハード接続を介してラックのバスバーに直接接続されます。

AC 入力構成: AC 入力側では、システムは ORv3 定義の 7 ピン コネクタを使用します。下の図は、33 つの異なるコネクタ標準を示しています (左は北米用、右はヨーロッパ用)。電源シェルフの 125KW サポートに基づいて、各入力は XNUMXA ブレーカー標準に準拠している可能性があります。

AC 入力構成

上流 AC 入力接続: AC 入力の上流端では、IEC 60309-2 規格に準拠し、IP67 定格の標準産業用コネクタを使用します。これらのモバイル産業用プラグは、125A ブレーカーをサポートします。相電圧に応じて、3 ピン 125A または 5 ピン 125A 構成を選択できます。

コメント

上へスクロール