NVIDIA GB200 分析: 相互接続アーキテクチャと将来の進化

GB200 相互接続アーキテクチャの分析

NVIDIA では、NVLink 伝送帯域幅の計算とサブリンク/ポート/レーンの概念に多くの混乱があります。通常、単一の B200 チップの NVLink 帯域幅は 1.8TB/秒です。これは通常、メモリ帯域幅アルゴリズムを使用して計算され、単位はバイト/秒 (B/s) です。ただし、NVLink スイッチまたは IB/イーサネット スイッチおよびネットワーク カードについては、ネットワーク帯域幅をビット/秒 (b/s) で計算する Mellanox の観点からのものです。 NVLinkの計算方法を詳しく説明しましょう。 NVLink 3.0 以降、4 つの差動ペアが「サブリンク」を形成します (NVIDIA では、定義がやや曖昧ですが、ポート/リンクという用語がよく使用されます)。これら 400 対の差動信号線には、受信方向信号と送信方向信号の両方が含まれています。ネットワーク帯域幅を計算する場合、400 Gbps インターフェイスとは通常、XNUMX Gbps のデータを同時に送受信できる能力を指します。

400Gbpsインターフェース

RX、TX各4ペア、計2ペアの差動信号線で構成されています。ネットワークの観点からは、これは単方向 400Gbps リンクですが、メモリ帯域幅の観点からは、100GB/秒のメモリ アクセス帯域幅をサポートします。

NVLINK 5.0 インターコネクト帯域幅

Blackwell 世代は 224G Serdes を使用し、サブリンク伝送速度は 200Gbps * 4 (4 差動ペア) / 8 = 100GB/s、単方向ネットワーク帯域幅は 400Gbps です。 B200 には 18 個のサブリンクがあり、帯域幅は 100GB/s * 18 = 1.8TB/s になります。これは、ネットワークの観点から見ると、9 個の単方向 400Gbps インターフェイスに相当します。同様に、NVSwitch の紹介では、デュアル 200Gb/秒 SerDes が 400Gbp を構成すると述べています。

■ ポート。

nvlinkスイッチチップ

明確にするために、次の用語を定義します。

hbm

B200 NVLINK 帯域幅は 1.8TB/秒で、それぞれ 18GB/秒の 100 ポートで構成され、224 つの差動ペアで構成され、各ポートには 2 つの 224Gbps Serdes が含まれています (4xXNUMXG PAMXNUMX は 400Gbps ポートごとの単方向帯域幅)。

NVLINK 4.0 インターコネクト

ホッパーに関しては、NVLINK 4.0 は 112G Serdes を使用し、100Gbps 対応の単一の差動信号ラインを備えているため、累積単一 NVLINK サブリンクは 4x100Gbps = 50GB/s になります。 NVLINK 4.0 をサポートするホッパー製品には 18 個のサブリンク (ポート) があるため、100 台の H50 は 18GB/s * 900 = 8GB/s をサポートします。図に示すように、4 枚のカードを備えた単一システムは接続に XNUMX つの NVSwitch を利用できます。

DGX H100

第 256 レベルのスイッチを追加して XNUMX カードのクラスタを作成することもできます。

nvlinkネットワークによるスケールアップ

拡張インターフェイスは、16 の差動信号線をサポートできる OSFP 光モジュールを使用しており、単一の OSFP で 4 つの NVLINK ポートをサポートできます。

単一の OSFP で 4 つの NVLINK ポートをサポート
OSFPモジュールのピン配置

画像の NVLink スイッチには 32 個の OSFP 光モジュール コネクタが含まれており、合計 32 * 4 = 128 個の NVLINK 4 ポートをサポートします。

128nvlink 4 ポート

GB200 NVL72

GB200 NVL72 システムには次の仕様があり、主に NVLINK 相互接続に重点が置かれています。

NVLINK 相互接続

各 GB200 には、72 つの XNUMX コア Grace ARM CPU と XNUMX つの Blackwell GPU が含まれています。

各 GB200 には、72 つの XNUMX コア Grace ARM CPU と XNUMX つの Blackwell GPU が含まれています。

システム全体は、コンピューティング トレイとスイッチ トレイで構成されます。各コンピューティング トレイには 200 つの GB4 サブシステムが含まれており、合計 XNUMX つの Blackwell GPU になります。

GB200 NVL72

各スイッチ トレイには 72 つの NVLINK スイッチ チップが含まれており、合計 2 * 144 = 36 の NVLINK ポートを提供します。単一のスイッチ チップの内部構造が示されており、上下に 7.2 個のポートがあり、28.8TB/秒の帯域幅を提供します。ネットワーク計算を使用すると、これは 51.2Tbps のスイッチング容量に相当し、現在の主要な XNUMXTbps スイッチ チップよりわずかに小さいですが、これは SHARP (NVLS) 機能の実装によるものです。

SHARP (NVLS) 機能

ラック全体は 18 個のコンピューティング トレイと 9 個のスイッチ トレイをサポートし、72 個の完全に相互接続された Blackwell チップを備えた NVL72 アーキテクチャを形成します。

ラック全体で 18 個のコンピューティング トレイと 9 個のスイッチ トレイをサポートします

各 GB200 サブシステムには 2 * 18 = 36 個の NVLink5 ポートがあります。図に示すように、システムの外部相互接続は OSFP 光モジュールを使用せず、直接銅バックプレーン接続を使用します。

GB200サブシステム
システムの外部相互接続

全体的な NVL72 相互接続トポロジは次のとおりです。

全体的な NVL72 相互接続トポロジ

各 B200 には 18 個の NVLINK ポートがあり、18 つのスイッチ トレイに 9 個の NVLINK スイッチ チップがあります。したがって、各 B200 のポートは 72 つの NVSwitch チップに接続され、NVSwitch あたり合計 72 個のポートになります。これが、NVL72 システムが 200 個の BXNUMX チップすべてを完全に接続する方法です。

NVL576

NVL72 キャビネットでは、すべてのスイッチに、より大きな XNUMX 層スイッチ クラスターを形成するための追加インターフェイスがなくなっていることがわかります。から offNVIDIA のイメージでは、16 個のキャビネットが 72 列に配置されており、合計はちょうど 8 * 576 = XNUMX 枚のカード水冷クラスターですが、カード間の接続ケーブルは、スケールアウト RDMA ネットワーク インターコネクトを介しているようです。スケールアップ NVLINK ネットワーク インターコネクト。

GB200 NVL72 コンピューティング ラック

32,000 枚のカード クラスタの場合、NVL72 キャビネット、9 列の 4 キャビネット、72 つの NVL5 と 18 つのネットワーク キャビネット、XNUMX 列の XNUMX キャビネットを介してサブポッドを形成し、RDMA スケールアウト ネットワークを介して接続されます。

32000 GPU を備えた完全なデータセンター

もちろんいわゆるNVL576ではありません。 NVL576 が必要な場合、各 72 GB200 を 18 台の NVSwitch で構成する必要がありますが、これは単一のキャビネットに収まりません。私たちは、 official は、NVL72 にはシングル キャビネット バージョンとデュアル キャビネット バージョンがあり、デュアル キャビネット バージョンでは、各コンピューティング トレイに GB200 サブシステムが XNUMX つだけあると述べています。

NVIDIA GB200 NVL36

一方、NVSwitch には予備の銅線ケーブル コネクタがあることに気付きました。これは、さまざまな銅線バックプレーン接続用にカスタマイズされている可能性があります。

さまざまな銅バックプレーン接続

これらのインターフェイスに、第 2 層 NVSwitch インターコネクト用の銅線インターコネクト バックプレーンの上に追加の OSFP ケージがあるかどうかは不明ですが、この方法には 1 つの利点があります。それは、シングル キャビネット バージョンはスケーラブルではないのに対し、デュアル キャビネット バージョンはスケーラブルであるということです。画像に示されています。

第 2 層 NVSwitch インターコネクト

デュアルキャビネットバージョンには 18 個の NVSwitch トレイがあり、背中合わせに相互接続して NVL72 を形成できます。スイッチの数は 36 倍になりましたが、各スイッチは 576 カード クラスタへの将来の拡張に備えて 36 個のアップリンク ポートを提供します。 2 つのキャビネットには合計 9*648*16 = 576 個のアップリンク ポートがあり、NVL648 を形成するには 16 個のキャビネットが必要です。その結果、合計 10,368*9 = 36 個のアップリンク ポートとなり、18 つの第 576 層スイッチ プレーンで構築できます。 、それぞれに XNUMX のサブプレーンがあり、XNUMX のスイッチ トレイで形成されます。 NVLXNUMX の配線構造を以下に示します。

NVL576の配線構造

ビジネスの観点からNVL576を検討する

NVL576 のような大規模な単一の NVLink スケールアップ ネットワークに本当に顧客がいるのかどうかについては、私は懐疑的です。 AWS でさえも選択しただけです offNVL72 をクラウド サービスで利用できます。主な問題は、576 層ネットワーク アーキテクチャの信頼性とスケーラビリティの課題であり、NVLXNUMX はシステムの複雑さが高いため、理想的なソリューションではありません。

一方、次世代の大規模モデルのコンピューティング要件を考慮する場合、メタ論文「大規模言語モデル用の低コストのネットワークを (パフォーマンスを犠牲にすることなく) 構築する方法?」はこれについて議論します。この論文では、NVLink ベースのスケールアップ ネットワークを「高帯域幅ドメイン (HBD)」と呼び、HBD 内の最適なカードの数を分析しています。

高帯域幅ドメイン (HBD)

GPT-1T モデルの場合、K=36 と比較して K>8 の場合でもパフォーマンスの向上は依然としてかなり顕著ですが、K>72 から K=576 への拡張によるわずかな利点は、システムの複雑さの増加を正当化するものではありません。さらに、スケールアップ NVLINK ネットワークのサイズが大きくなるにつれて、HBD 間の RDMA 帯域幅によるパフォーマンスの利点が減少し始めます。最終的なバランスは、NVL72 と RDMA スケールアウトを組み合わせて使用​​し、32,000 枚のカード クラスタを構築することです。

スケールアップ NVLINK ネットワーク サイズが増大する

相互接続システムの進化: シスコの物語

コンピューティング/メモリのボトルネックによる分散アーキテクチャ

初期の頃、Cisco のルータは単一の PowerPC プロセッサを使用して転送を実行していました。インターネットが爆発的に普及するにつれて、ルーティング テーブルの検索などのメモリを大量に消費する操作によってパフォーマンスのボトルネックが発生しました。これにより、データ バスを介して複数のプロセッサを接続するプロセス スイッチング/CEF のようなアプローチが徐々に登場しました。

分散アーキテクチャ

これらの方法は、Pascal 世代のようにチップがバスを介して直接相互接続されていた初期の NVLINK 1.0 / NVLINK 2.0 に似ています。

任意対任意

スイッチ ファブリックの登場

1995 年、Nick Mckeown は論文「ギガビット スイッチ ルータの高速スイッチ バックプレーン」の中で、CrossBar スイッチ ファブリックを使用してより大規模なギガビット ルータをサポートすることを提案しました。これが後に Cisco のハイエンド 12000 シリーズ ルータとなりました。

ラインカード

これらのシステムのスイッチ ファブリックは、NVL8 ~ NVL72 システムを構築する現在の NVSwitch および NVSwitch トレイと概念的には同じです。これらはすべて、単一のチップがメモリの壁にぶつかったときに、複数のチップを相互接続して大規模なシステムを構築することを目的としています。

NVスイッチトレイ

Cisco 12000 のシングル シャーシ設計は、中央にスイッチ ファブリックがあり、9 つのスイッチ トレイを備えており、GB200 と似ており、上部と下部にそれぞれ 8 つのラインカード スロットがあり、GB200 のコンピューティング トレイに対応します。

ここでのコアテクノロジーは、VOQ (Virtual Output Queuing) 設計と iSLIP スケジューリング アルゴリズムです。モデルが All-to-All を実行すると、複数の B200 が同じ B200 に同時に書き込み、Head-Of-Line Blocking (HOLB) を引き起こす可能性があります。人間は、交差の前後にバッファ (入力キューと出力キュー) を巧みに追加します。

入力キューと出力キュー

残念ながら、出力キューは帯域幅使用率を最大化できますが、N*R 速度が必要です。一方、入力キューは R 速度で処理できますが、HOLB が発生します。 HOLB によって制限される IQ スイッチの最大スループットは、58.6% と計算されます。

IQ HOLB 問題の簡単な解決策は、仮想出力キュー (VOQ) を使用することです。VOQ では、各入力ポートに各出力のキューがあり、R 速度のバッファリングを維持しながら HOLB を排除します。

仮想出力キュー

もちろん、NVIDIA の NVLINK はクレジット ベースの設計を採用しており、クレジット分配の調停は国内の GPU スタートアップにとって詳細な研究に値する領域です。

マルチステージアーキテクチャと光インターコネクトの進化

NVL576 は、1 年に導入された Cisco のキャリア ルーティング システム (CRS-2003) に似ています。

キャリアルーティングシステム

当時、シスコはインターネット バブル期の膨大な帯域需要に直面して、多段スイッチング ネットワーク システムを構築しました。

多段交換ネットワークシステム

スイッチ トレイを使用して構築された単一キャビネット内の 3 ステージ スイッチング ネットワークは、拡張性のない現在の GB200 NVL72 と同等です。マルチキャビネット構造は NVL576 に対応します。当時、シスコは 16 枚のラインカードを備えた単一のキャビネットから、8 つのファブリック キャビネット + 72 枚のラインカード キャビネットを備えたシステムに拡張して、大規模な 1152 ラインカード クラスタを構築できました。シスコの内部接続でも光インターコネクトが使用されます。

大規模な 1152 ラインカード クラスタ

シャーシ間の光コネクタが画像に示されています。

シャーシ間光コネクタ

この時期に、現在 NVIDIA の主任研究員である Bill Dally が Avici を設立し、3D-Torus インターコネクトを使用してテラビット規模のルーターを構築したことは注目に値します。

テラビット規模のルーター

3D-Torus 相互接続は Google の TPU を思い出させます。その後、ファーウェイはコアルーター製品 NE5000E を開発する前に、Avici のシステムを OEM し、NE5000 というブランド名を付けました。同時に、ジュニパーの出現により、コア ルータ ドメインにおいてシスコに大きな圧力がかかりました。おそらく、NVIDIA の優位性も今後、さらなる課題に直面することになるでしょう。

一方で、MEMS ベースの光スイッチも同時代に導入されており、Google の現在の光スイッチの使用法といくつかの類似点があるようです。

MEMSベースの光スイッチ

NVIDIA の将来の進化

インターコネクト システムに関する 2023 年の HOTI カンファレンスで、ビル ダリー氏は「アクセラレータ クラスター、新しいスーパーコンピューター」と題した基調講演を行い、オンチップ ネットワークとインターコネクト システムの観点から XNUMX つの主要なトピックについて議論しました。

トポロジー:

  • CLOS/3D-トーラス/トンボ
  • ルーティング:
  • 流量制御

デバイスの接続が異なれば、帯域幅と消費電力も異なります。

新しいスーパーコンピューター

課題は、電力、コスト、密度、接続距離などの要素を考慮して、それらをどのように有機的に組み合わせるかです。

課題はそれらをいかに有機的に組み合わせるか

光インターコネクト

これらの寸法測定を通じて、Co-Package Optic DWDM が実行可能な選択肢になります。

光 DWDM を共同パッケージ化する

光インターコネクトを構築するためのシステム概念図は以下のとおりです。

システムコンセプト

最終的な目標は、大規模な光インターコネクトシステムを構築することです。

GPUラック

この側面では、シスコが構築したマルチシャーシ CRS-1 システムとほぼ同一であることがわかります。GPU ラックは Cisco のラインカード シャーシに相当し、スイッチ ラックはシスコのファブリック シャーシに相当します。どちらも光インターコネクトと DWDM テクノロジーを使用して、接続の複雑さを軽減し、帯域幅を増やします。

Cisco ラインカード シャーシ

チップ アーキテクチャ レベルでは、光学エンジンが相互接続用のチップレットとして使用されます。

フォトニック接続されたGPU

相互接続構造については、Dragonfly トポロジの採用と OCS 光スイッチの利用への傾向が大きくなっています。

トンボ

フロー制御アルゴリズムと輻輳制御に関しては、Bill は HOMA/NDP とアダプティブ ルーティングに似たメカニズムについて説明しました。新しいスイッチ機能を必要としない、より優れた MultiPath CC アルゴリズムがあるため、それほど複雑である必要はありません。

アルゴリズムと特殊なハードウェアの統合

一方、Transformer は 7 年前から存在しており、計算重視の演算子とメモリ重視の演算子のバランスをとる優れたアルゴリズムです。しかし、業界にはさらに洗練されたアルゴリズムがあるのでしょうか?

Monarch Mixer のような疎な注意モデル、Mamba/RMKV のような注意を必要としないモデル、さらに圏論、代数幾何学、代数トポロジーに基づいたアルゴリズムが研究されています。 Blackwell でサポートされている FP4/FP6 や、将来的には Log8 などのさまざまな数値形式もサポートされています。

歴史的に、シスコはまた、アルゴリズムと特別なハードウェアに依存して、シングルチップのパフォーマンスを徐々に向上させ、相互接続構造の複雑さを克服しました。彼らは、通常の DRAM 上の大規模なルーティング テーブル検索に TreeBitMap などのアルゴリズムを使用しました。

ツリービットマップ

マルチコアおよびオンチップ ネットワークの開発に伴い、高性能 SPP/QFP/QFA ネットワーク プロセッサが構築され、これらのテクノロジは AWS Nitro、NVIDIA BlueField、および Intel IPU DPU プロセッサに再び登場しました。

まとめ

FibeMall は、最新の Blackwell GPU のインターコネクト アーキテクチャを分析し、「NVIDIA の Cisco Moment」で説明されているように、2023 つのテクノロジーの波の中でシングル チップのパフォーマンスが爆発的な需要に追いつけなくなったときに Cisco と NVIDIA が直面した分散システム構築とインターコネクト アーキテクチャを調査しました。また、Bill Dally の XNUMX 年の HOTI 基調講演を分析し、NVIDIA の将来の開発の道筋を明確に示しました。

ただし、インターネット バブルのピーク時に、Juniper や Avici などの企業が Cisco への挑戦者として現れ、NVIDIA もプロフェッショナル市場を支配する前に、その時代に挑戦者として 3Dfx を破ったことにも注目します。どの時代にもチャンスはあり、勝者となるのは、単により多くのリソースを積み上げた人ではなく、アルゴリズムとコンピューティング能力とハードウェアの組み合わせを通じてイノベーションを起こした人です。

挑戦者の観点から見ると、CUDA エコシステムは別として、コンピューティング コア自体の難易度はそれほど高くありません。最近ではジム・ケラー氏や韓国、日本の一部のHBMプレイヤーが活躍しており、BUDA+RISC-V+HBMが新たな新興勢力となるか注目される。

分散コンピューティングへの新たなトレンド

IB/NVLINK 相互接続システムを置き換えるという観点から見ると、イーサネットにはすでに 51.2Tbps のスイッチ チップが搭載されており、SHARP のようなネットワーク内コンピューティングをサポートする HBM への高速イーサネット接続に基づく通信プロトコルは、すでに XNUMX 年前に NetDAM で設計されていました。

コメント

上へスクロール