NVIDIA の最新ハードウェアの分析: B100/B200/GH200/NVL72/SuperPod

概要

以前、NVIDIA の最新 Blackwell GPU について簡単に紹介しましたが、NVIDIA の概念の曖昧さなど、誤解を招きやすい内容も一部含まれている可能性があります。 offアイシアルの紹介。さらに、新世代の GPU の性能については、数十倍のパフォーマンス向上があるという誤解など、いくつかの誤解が見られます。そこで、皆様がより総合的かつ公平に比較​​できるよう、さまざまなデータを総合的に集計することにしました。

この記事では、B100、B200、GH200、NVL72 を含む NVIDIA の Blackwell GPU、SuperPod-576、対応する ConnectX-800G ネットワーク カード、Quantum-X800 IB スイッチ、および Spectrum に関するハードウェア情報を包括的に収集しました。 -X800 イーサネット スイッチをさらに以前のシリーズと比較しました。なお、記事内の一部の表の赤字部分など、記事内の内容は各種情報をもとに推測したデータであり、最終的なデータは以下のとおりとなります。 official ホワイトペーパー (これはまだ見ていません)。また、これにはソフトウェア エコシステムに関連するコンテンツは含まれません。

進化

NVIDIA は、19 年 2024 月 200 日に最新の Blackwell アーキテクチャ GPU をリリースしました。主なものは、B100、B200、GB200 GPU と、対応する GB72-NVL200 および GBXNUMX-SuperPod です。さまざまな GPU 間の関係を次の図に示します。

進化

シングル GPU

以下の表は、Ampere、Hopper、および最新の Blackwell シリーズで最も強力な GPU を示しています。メモリ、演算能力、NVLinkが徐々に強化されていることがわかります。 (注: NVIDIA は、H100 NVL と呼ばれる 100 つの HXNUMX PCIe バージョンが NVBridge 経由で接続される特別なソリューションもリリースしましたが、それでも XNUMX つの GPU であるため、ここでは詳細については説明しません。)

A100 -> H100: FP16 の高密度コンピューティング能力は 3 倍以上増加しましたが、消費電力は 400 W から 700 W に増加しただけです。

H200 -> B200: FP16 の高密度コンピューティング能力は 2 倍以上増加しましたが、消費電力は 700 W から 1000 W に増加しただけです。

B200 FP16 の高密度コンピューティング能力は A7 の約 100 倍ですが、消費電力はわずか 2.5 倍です。

Blackwell GPU は FP4 の精度をサポートし、FP8 の 4 倍の計算能力を備えています。 NVIDIA のレポートのデータの一部では、FP8 の計算能力とホッパー アーキテクチャの FPXNUMX の計算能力を比較しているため、加速率はより誇張されます。

注意すべきこと:

GB200 は完全な B200 チップを使用しますが、B100 と B200 は対応する機能を削減したバージョンです。

GB200 は完全な B200 チップを使用します

HGX サーバー

HGX は NVIDIA の高性能サーバーで、通常は 8 個または 4 個の GPU を備え、通常は Intel または AMD CPU と組み合わせられ、NVLink および NVSwitch を使用して完全な相互接続を実現します (NVL を除き、通常 8 GPU が NVLink 完全相互接続の上限です)とスーパーポッド)。

HGX A100 -> HGX H100 および HGX H200 と比べて、FP16 の高密度コンピューティング能力は 3.3 倍向上し、消費電力は 2 倍未満になりました。

HGX H100 および HGX H200 -> HGX B100 および HGX B200 と比較すると、FP16 の高密度コンピューティング能力は約 2 倍向上しましたが、消費電力は同様で、最大でも 50% 未満です。

注意すべきこと:

HGX B100 および HGX B200 のネットワークはアップグレードされておらず、IB ネットワーク カードは依然として 8x400Gb/s です。

HGX B100 および HGX B200

NVL とスーパーポッド

NVIDIA は、HGX シリーズ GPU サーバーに加えて、フル キャビネットおよびクラスター向けのソリューションも用意しています。これらはすべて最新の Grace CPU + GPU ソリューションを使用し、液冷システムに対応しています。以下の表は、Hopper アーキテクチャと Blackwell アーキテクチャに対応する NVL キャビネットと SuperPod を示しています。

NVL32 -> NVL72: GPU の数が 32 から 72 に増加し、FP16 の高密度コンピューティング能力が 32P から 180P とほぼ 6 倍増加し、消費電力も 40kW (具体的な数値は示されていない、推定データ) から 120kW に増加しました。 、ほぼ3倍。

GH200 SuperPod -> GB200 SuperPod: GPU の数は 256 から 576 に増加し、FP16 の高密度計算能力は 256P から 1440P と 6 倍近く増加しましたが、対応する消費電力は見つかりませんでした。

NVL8 および GB800 SuperPod では、帯域幅 72Gb/s の最新の ConnectX-200 IB ネットワーク カードが使用されていますが、HGX B100 および HGX B200 では帯域幅 7Gb/s の ConnectX-400 IB ネットワーク カードが引き続き使用されています。

注意すべきこと:

NVIDIA は、GB200 SuperPod は 8 つの NVL72 で構成されているが、GH200 SuperPod は 8 つの NVL32 で構成されていないと紹介しました。

GB1 SuperPod の L2 NVSwitch トレイと L200 NVSwitch トレイの数は確認されておらず、推定データです。

GB200 スーパーポッド

ブラックウェル GPU

Blackwell GPU と H100 GPU は両方とも TSMC の 4N プロセス テクノロジーを使用しています。 H100 には 80 億個のトランジスタが含まれているのに対し、Blackwell GPU には 208 億個のトランジスタが含まれています。ただし、H100 はシングル ダイ (単一の完成した半導体ユニット) パッケージですが、Blackwell GPU は 2 つのダイを備えたマルチ ダイ パッケージです。

Blackwell GPU の各ダイは H1.25 の約 100 倍の計算能力を持ち、2.5 つのダイを合わせると H100 の約 XNUMX 倍の計算能力を持ちます。これはトランジスタの数からもわかります。

10 つのダイ間の通信帯域幅は XNUMXTB/秒です。

メモリは HBM3e を使用しており、各チップのサイズは 24GB、理論上の帯域幅制限は 1.2TB/s、実際の帯域幅は 1TB/s です。 Blackwell GPU 全体には、これらのメモリ チップが 8 個搭載されています。

要約すると、完全な Blackwell GPU の主な仕様は次のとおりです。

疎な計算能力 (密な計算能力 * 2):

FP16: 5P フロップス (2 * 2.5P)

FP8/FP6/INT8: 10P フロップス (2 * 5P)

FP4: 20P フロップス (2 * 10P)

メモリ:

サイズ: 192GB (8 * 24GB)

帯域幅: 8TB/秒 (8 * 1TB/秒)

ブラックウェル GPU

GH200&GB200

GH200

GH200 は、NVIDIA が昨年リリースした H200 GPU と Grace CPU を組み合わせたものです。各 Grace CPU は 200 つの H200 GPU とペアになっており、H96 GPU は最大 144 GB または 2 GB のメモリを搭載できます。 Grace CPU と Hopper GPU は、帯域幅 900GB/s の NVLink-C3C 経由で相互接続されています。 HBM480e に加えて、Grace CPU には 5GB の外部 LPDDR500X メモリもありますが、対応する帯域幅は XNUMXGB/s と低くなります。

GH200

GB200

GH200 とは異なり、各 GB200 は 1 つの Grace CPU と 2 つの Blackwell GPU で構成されており、GPU の計算能力とメモリが 900 倍になります。 CPU と GPU は、NVLink-C2C 経由で 1200GB/s で相互接続されています。対応する消費電力はXNUMXWです。

GB200 には、384GB の HBM3e メモリと同じ 480GB の LPDDR5X が含まれており、合計 864GB の高速メモリになります。

GB200
速い記憶力

HGX H100/H200 および HGX B100/B200

HGX H100 および HGX H200

示されているように、H200 は H100 と同じ計算能力を備えていますが、メモリが大きくなっています。 8 GPU の最大メモリは 640GB から 1.1TB に増加します。 16 GPU のスパース FP8 の計算能力は 16P、スパース FP8 は 32P です。 GPU間の通信帯域幅はどちらも900GB/秒。

HGX H100
HGX H200

HGX B100 および HGX B200

B100 と B200 はそれぞれ以前の H100 と H200 に対応しますが、Grace CPU が搭載されていないため、Intel または AMD CPU で使用できます。

B100、B200のメモリはH100、H200よりも大容量です。 8 つの GPU の最大メモリは 1.5 TB です (注: NVIDIA の Web サイトでは当初 1.4 TB と表示されていましたが、これは 192 GB*8 と一致しませんが、後に 1.5 TB に修正されました。一方、DGX B200 データシートには 1440 GB、つまり GPU あたり 180 GB と明記されています)。

B100 の計算能力は B3 の約 4/200 です。 16xB8 のスパース FP100 の計算能力は 28P、8xB200 の場合は 36P であるため、8xB200 は 2.25xH8/H100 の 200 倍になります。これは、単一の B16 のスパース FP200 計算能力が 4.5P であることを意味します。 B200 の実際の計算能力は、B90 全体 (GB200 内) の 200% であることに注意してください。

HGX B200
HGX B100

画像は DGX B200 データシートのデータを示しています。

DGX B200 データシート

Blackwell の Tensor コアには FP6 および FP4 のサポートが追加されており、FP4 の計算能力は FP2 の 8 倍、FP4 の 16 倍です。 Blackwell の CUDA コアは INT8 をサポートしなくなり、Hopper からは INT4 もサポートしなくなります。

Blackwell の Tensor コアは、Microscaling データ形式のサポートを追加しました。これにより、FP8、FP6、FP4、INT8 がサポートされるようになります。

マイクロスケーリング データ形式
形式名

第 3 世代 NVSwitch

第 64 世代 NVSwitch には 2 個の NVLink ポートがあり、それぞれに 64 レーンがあります。帯域幅制限は 50*3.2GB/s=XNUMXTB/s です。

第 3 世代 NVSwitch

第 4 世代 NVSwitch

NVSwitch チップには 72 個の NVLink ポートがあり、それぞれに 2 レーンがあり、双方向帯域幅は 2 x 2 x 200 Gb/s = 100 GB/s、合計 7.2 TB/s です。画像の 1.8TB/s NVLink は 18 ポートに対応します。

第 4 世代 NVSwitch

B100 と B200 は、第 100 世代 NVLink と第 200 世代 NVSwitch を使用します。 B18 および B50 の各 GPU には依然として 100 個の NVLink がありますが、リンクあたりの帯域幅は第 100 世代 NVLink (H100) の 200GB/秒から 1.8GB/秒にアップグレードされました。したがって、BXNUMX および BXNUMX の GPU 間の最大帯域幅は XNUMXTB/s です。

B100 および B200 の最大帯域幅は 1.8TB です

第 1.8 世代 NVSwitch では、GPU 間の帯域幅も 576 倍の 576 TB/秒に増加します。最大 1.8 個の GPU をサポートでき、合計帯域幅制限は 1*XNUMXTB/s=XNUMXPB/s になります。

合計帯域幅制限は 1PB.8TB=1PB

ネットワークカードとネットワークスイッチ

ConnectX-8 InfiniBand ネットワーク カード

NVIDIA も新世代の 対応する通信帯域幅 8Gb/s のネットワーク カード ConnectX-800 (ConnectX-800G)。以前の H100 および H200 は通信帯域幅 7Gb/s の ConnectX-400 ネットワーク カードを使用していましたが、A100 は帯域幅 6Gb/s の ConnectX-200 ネットワーク カードを使用していました。

ConnectX-8 IB ネットワーク カード

ただし、NVIDIA は、HGX B800/B100 で新しい ConnectX-200G ネットワーク カードを使用せず、画像に示すように、代わりに前世代の ConnectX-7 を引き続き使用しました (NVIDIA Launches Blackwell-Powered DGX SuperPOD for Generative AI Supercomputing at兆パラメータ スケールと NVIDIA Blackwell プラットフォームがコンピューティングの新時代を推進します)。

DGX B200 システム
NVIDIA offHGX B200です

BlueField-3 DPU/SuperNIC

BlueField-3 は、最大 400Gb/s の速度でイーサネットおよび IB 接続をサポートし、NVIDIA DOCA を使用してプログラムされたネットワークおよびストレージ ハードウェア アクセラレータと組み合わせることができます。 BlueField-3 には、対応する BlueField-3 DPU および BlueField-3 SuperNIC があります。 BlueField-3 SuperNIC は、GPU サーバー間で最大 400Gb/s の速度でイーサネット リモート ダイレクト メモリ アクセス (RoCE) を提供でき、シングルポート 400Gb/s またはデュアルポート 200Gb/s をサポートします。前世代の BlueField-2 SuperNIC は、シングルポート 200Gb/s またはデュアルポート 100Gb/s のみをサポートしていました。

ブルーフィールド-3 DPU
BlueField-2 SuperNIC

Quantum-X800 IB スイッチ

Quantum-X800 は、新世代の NVIDIA Quantum IB スイッチであり、次のことを実現できます。 800Gb / s 超低遅延のエンドツーエンド接続。主に NVIDIA ConnectX-8 ネットワーク カードをサポートします。対応する Quantum-X800 Q3400-RA スイッチ (4U) は、図に示すように、空冷を使用するだけでなく液体冷却もサポートする 144 個の 800Gb/s ポートを提供できます。

Quantum-X800 IB スイッチ

Spectrum-X800 イーサネット スイッチ

Spectrum-X800 は、新世代の NVIDIA Spectrum Ethernet スイッチで、SN5600 と SN5400 の 2 つのタイプがあり、どちらも XNUMXU 設計を採用しています。

Spectrum-X800 イーサネット スイッチ

表に示すように、SN5600 は 800 ポート、合計帯域幅 64Tb/s でポートあたり最大 51.2Gb/s をサポートできます。一方、SN5400 は 400 ポートで合計帯域幅 64Tb/s でポートあたり最大 25.6Gb/s をサポートできます。 XNUMXTb/秒の帯域幅。

SN5600

GH200 NVL32 & GH200-スーパーポッド

GH200 コンピューティング トレイ

GH200 コンピューティング トレイは、NVIDIA MGX 設計 (1U サイズ) に基づいており、コンピューティング トレイごとに 2 つの GH200 ユニット、つまり 2 つの Grace CPU と 2 つの H200 GPU を備えています。

NVスイッチトレイ

第 2 世代の NVSwitch トレイには 128 つの第 6.4 世代 NVSwitch チップが搭載されており、合計 XNUMX 個の NVLink ポートと最大通信帯域幅 XNUMXTB/秒を備えています。

GH200 NVL32

各キャビネットには 16 個の GH200 コンピューティング トレイと 9 個の NVSwitch トレイが含まれており、合計で 32 個の GH200 GPU と 18 個の NVSwitch になります。 32 個の GH200 GPU には 32×18=576 個の NVLink があり、理論的には完全な相互接続を実現するには 576/64=9 個の NVSwitch のみが必要ですが、この設計には 18 個の NVSwitch が含まれています。

GH200 NVL32

GH200 スーパーポッド

GH200 SuperPod は、完全に相互接続された構成の 256 個の GH200 GPU で構成されていますが、8 個の NVL32 ユニットで構成されているわけではありません。代わりに、32 個の 8-Grace Hopper スーパーチップで構成されています。

図 7 に示すように、各 8-Grace Hopper スーパーチップには次のものが含まれます。

8* ホッパー コンピューティング トレイ (8U)、それぞれに以下が含まれます:

1 * GH200 GPU

1 * ConnectX-7 IB ネットワークカード、 400Gb / s

1*200Gb/秒イーサネットカード

3*NVSwitch トレイ (3U)、合計 6*NVSwitch

8-グレースホッパースーパーチップ

NVLink 接続は図 6 に示すとおりで、各 GH200 と各 NVSwitch には 3 つの NVLink 接続があります。これは、この方向で NVSwitch ごとに 24 ポートを使用します。さらに、各 NVSwitch には L24 NVSwitch に接続された 2 個のポートがあり、NVSwitch ごとに合計 48 個のポートが使用されます。 (注: NVSwitch ポートの一部は冗長であり、理論的には 4.5 個の NVSwitch のみが必要となるため、3 個の NVSwitch トレイが選択されました。)

NVLink接続

図 8 に示すように、GH200 SuperPod は 32 個の 8-Grace Hopper スーパーチップで構成されています。 L1 レベルには 32 x 3 = 96 の NVSwitch トレイ (192 NVSwitch) が含まれ、L2 レベルには 36 の NVSwitch トレイ (64 NVSwitch) が含まれます。各 L1 NVSwitch トレイには、L24 NVSwitch トレイに接続された 2 x 48 = 2 個のポートがあるため、36 個の L2 NVSwitch トレイが必要になります。

nvlinkトポロジ

図 12 に示すように、256 個の GH200 GPU も XNUMX 層 IB スイッチを通じて相互接続されています。

ファブリック管理トポロジ

GH200 SuperPod の完全な接続を図 5 に示します。

GH200 SuperPod の完全な接続

GB200 NVL72 & GB200 スーパーポッド

GB200 コンピューティング トレイ

GB200 コンピューティング トレイも NVIDIA MGX 設計 (1U サイズ) に基づいており、図に示すように、各コンピューティング トレイには 2 GB200 ユニット (2 つの Grace CPU と 4 つの Blackwell GPU) が含まれています。

GB200 コンピューティング トレイ

各 GB200 コンピューティング トレイは 1.7 TB の高速メモリをサポートしています (注: 画像内の「HBM3e」はタイプミスである可能性があります。「HMB3e」ではなく「高速メモリ」である必要があります)。 Blackwell GPU あたりのメモリを参照している場合は、192GB x 4 = 768GB となるはずです。 1.7TB には、GB480 あたり 5GB の LPDDR200X が追加される可能性があり、合計 768GB + 480GB x 2 = 1728GB になります。

ブラックウェル計算ノード
1.7TBの高速メモリ

NVスイッチトレイ

画像に示すように、新世代 NVSwitch トレイには 2 つの NVSwitch チップ (1U サイズ) が含まれており、合計 144 個の NVLink ポート (NVSwitch チップあたり 72 個の NVLink ポート) を備えています。各ポートの帯域幅は 100GB/秒で、合計帯域幅制限 14.4TB/秒をサポートします。第 576 世代 NVSwitch システムは最大 576 個の GPU をサポートできるため、合計帯域幅制限は 1.8 * 1TB/s = 8PB/s に達します。 (注: 画像内の 18 つのポートは NVLink ポートではなく、それぞれが XNUMX の NVLink に対応します。)

画像内の 8 つのポートは NVLink ポートではなく、実際にはそれぞれ 18 の NVLink に対応します。

NVL72 で使用される NVSwitch システムは以下に示されており、9 つの NVSwitch トレイが含まれています。画像内の 72 個のポートは、帯域幅 1.8TB/秒 (18 x 100GB/秒 NVLink) の NVLink ポートではなく、前の画像のポートに対応します。

NVL72で使用されるNVSwitchシステム

GB200 NVL72

200 つの GB72 NVL18 には 200 GB36 コンピューティング トレイが含まれているため、72 個の Grace CPU と 72 個の GPU が搭載されています。合計 GPU メモリは 192 * 13.8GB = 5TB、CPU の高速メモリ LPDDR480X は 36GB x 17 = 30TB であるため、合計の高速メモリは 9TB です。 XNUMX 個の NVSwitch トレイも含まれています。

エヌビディアも offNVL36 構成では、依然として 18 GB200 コンピューティング トレイがありますが、各コンピューティング トレイには GB200 が 18 つしかないため、合計 36 個の Grace CPU と 200 個の B30 GPU になります。対応するコンピューティング能力は画像に示されています。したがって、言及されている 13.5TB は、おそらく 3TB HBM17e + 5TB LPDDRXNUMXX です。

エヌビディアも offNVL36 構成です

対応する計算能力を次の図に示します。

対応する計算能力

したがって、ここでの 30TB HBM3e は 13.5TB HBM3e + 17TB LPDDR5X である必要もあります。

30TB HBM3e

GB200 スーパーポッド

GB200 SuperPod は、8 台の NVL72 ユニット、合計 576 個の Blackwell GPU で構成されています。以前の 256 GH200 GPU と同様に、完全な相互接続を実現するには、576 層 NVSwitch トレイ システム (理論上の帯域幅制限は 1.8 * 1TB/s = XNUMXPB/s) が必要です。

第 576 層の NVSwitch トレイのポートの半分は 576 個の Blackwell GPU に接続されているため、18 * 144 / (2/144) = 144 個の NVSwitch トレイが必要になります (残りの 72 * XNUMX ポート)。

144 段目の NVSwitch トレイでは、すべてのポートが残りの 72 段目の NVSwitch ポートに接続されているため、144 * 72 / 2 = XNUMX の NVSwitch トレイが必要になります。各第 XNUMX 層 NVSwitch トレイは、すべての第 XNUMX 層 NVSwitch トレイに接続されます (接続ごとに XNUMX ポート)。

2 段目の NVSwitch トレイ

パフォーマンスデータ分析

DGX GB200のパフォーマンス

NVIDIA は、DGX B200 (HGX B200 に相当) は、前世代の DGX H3 (HGX H15) と比較して、トレーニング パフォーマンスが 100 倍、推論パフォーマンスが 100 倍向上していると主張しています。ただし、これには一定の前提条件があります。 HGX H16 から HGX B8 までの FP100 または FP200 の計算能力だけを見ると、計算能力は 2.25 倍に増加しています。ただし、メモリ サイズは大きくなり、メモリ帯域幅は約 2.3 倍になり、NVLink 帯域幅も 3 倍になりました。したがって、トレーニング速度の全体的な XNUMX 倍の向上は期待どおりです。

DGX GB200のパフォーマンス

画像に示すように、3 倍のトレーニング速度は、GPT-MoE-4096T モデルをトレーニングする際に、200 HGX B4096 システムと 100 HGX H1.8 システムで測定されました。

3x トレーニング速度は 4096 HGX B200 システムで測定されました

画像に示すように、推論に GPT-MoE-15T モデルを使用して、8 台の HGX B200 システムと 8 台の HGX H100 システムで 1.8 倍の推論速度が測定されました (GPT モデルの推論は通常、I/O バウンドであるため、メモリ帯域幅が重要です) ; より高い同時実行性をサポートするには、大きなメモリ サイズも重要です。また、モデルが大きいため、Tensor Parallel などの戦略がよく使用されるため、NVLink 帯域幅も重要です)。それぞれ 3.5 トークン/秒と 58 トークン/秒を達成しました。GPT 推論に影響を与える要因は多数あり、これら XNUMX つのシステムの改善は次によって決定されます。

  • VRAM 帯域幅 (8×3.35TB/秒 -> 8×8TB/秒)
  • VRAM サイズ (8x141GB -> 8x192GB)
  • NVLink 帯域幅 (7.2TB/秒 -> 14.4TB/秒)
  • 計算能力が 16 倍 (36P -> XNUMXP)
  • FP8 -> FP4 (x2)
リアルタイムの大規模言語モデル推論

最後の画像に示すように、Jensen Huang 氏は GTC 基調講演でより詳細な比較を提供し、B3 FP200 と H8 FP200 を比較した場合、改善が約 8 倍にすぎないことを示しました (TP、EP、DP、PP は Tensor Parallel、Expert Parallel、データ並列、パイプライン並列)。 FP200 で GB4 を使用することによる改善は非常に重要です (おそらく NVL72 の完全な NVLink 相互接続によるものです)。

B200 FP8 と H200 FP8 の比較

GPT-MoE-1.8T トレーニング消費電力

GTC の基調講演で、Jensen Huang 氏は、Hopper GPU と Blackwell GPU を比較しながら、GPT-MoE-1.8T モデルをトレーニングする際の消費電力についても説明しました。

  • 単一の NVL32 キャビネットは 40kW なので、8000 個の GPU では約 10MW となり、その他の消費電力も加えて、おそらく約 15MW になります。
  • 単一の NVL72 キャビネットは 120kW なので、2000 個の GPU では約 3.3MW となり、これにネットワーク スイッチなどの他の消費電力を加えて、合計約 4MW になります。
8000 GPU
2000 GPU

コメント

上へスクロール