GPU には何個の光トランシーバーが必要ですか?

市場には、光トランシーバと GPU の数の比率がさまざまなバージョンで示されていますが、さまざまなバージョンの数値は一貫していません。これは主に、異なるネットワーク アーキテクチャで必要な光モジュールの量が同じではないためです。 実際に使用される光モジュールの数は主に次の側面に依存します。

1) NIC モデル

主に 6 種類のネットワーク カードが含まれており、ConnectX-200 (100Gb/s、主に AXNUMX で使用) で主に使用される光モジュールは、 MMA1T00-HS (200G Infiniband HDR QSFP56 SR4 PAM4 850nm 100m) および ConnectX-7 (400Gb/s、主に H100 で使用)。

コネクトX-6
コネクトX-7

2) スイッチモデル

次世代の ConnectX-8 800Gb/s スイッチ モデルには、主に 9700 種類のスイッチ、QM32 シリーズ (2 ポート OSFP (400*64Gb/s)、転送速度 400Gb/s で合計 51.2 チャネル、合計スループット速度 8700Tb/s) と QM40 シリーズ (56 ポート QSFP40、200Gb/s で合計 16 チャネル) が含まれます。 /s、合計 XNUMXTb/s のスループット レート)。

QM9700
QM8700

3) ユニット数(スケーラブルユニットSU)

ユニット数はスイッチングアーキテクチャのレベルに影響し、ユニット数が少ない場合は XNUMX 層アーキテクチャのみが使用され、ユニット数が多い場合は XNUMX 層アーキテクチャが使用されます。

H100 SuperPOD: 各ユニットは 32 ノード (DGX H100 サーバー) で構成され、4 層スイッチング アーキテクチャでクラスターを形成するために最大 XNUMX 台のユニットをサポートします。

A100 SuperPOD: 各ユニットには 20 ノード (DGX A100 サーバー) が含まれ、クラスターを形成するために最大 7 ユニットをサポートします。5 ユニットを超える場合は XNUMX 層スイッチング アーキテクチャが必要です。

スケーラブルユニットSU

結論:

(1) A100+ConnectX6+QM8700 1 層ネットワーク: 比率 6:200、すべて 56G QSFPXNUMX 光モジュールを搭載

(2) A100+ConnectX6+QM9700 1 層ネットワーク: 0.75:800 1G OSFP トランシーバー + 1:200 56G QSFPXNUMX 光モジュール

(3) H100+ConnectX7+QM9700 1 層ネットワーク: 1.5:800 1G OSFP 光モジュール + 1:400 XNUMXG OSFP 光モジュール

(4) H100+ConnectX8 (未リリース) + QM9700 1 層ネットワーク: 6:XNUMX の比率、すべて 800G OSFP トランシーバ

300,000 年に 100 個の H900,000 + 100 個の A2023 が出荷されると仮定すると、合計 3.15 万個の 200G QSP56 + 300,000 個の 400G OSFP + 787,500 個の 800G OSFP の需要が生成され、AI 市場スペースは 1.38 億 XNUMX 万ドル増加します。

1.5 年に 100 万台の H1.5 + 100 万台の A2024 が出荷されると仮定すると、合計 750,000 台 200G QSFP56s + 750,000 400G OSFP + 6.75 万 800G OSFP の需要が生成され、AI 向けに 4.97 億 2021 万ドルの市場空間が増加します (XNUMX 年のデジタル パススルー光モジュール市場規模の合計にほぼ等しい)。

以下は、上記の各シナリオの詳細な測定プロセスです。

シナリオ 1: A100+ConnectX6+QM8700 XNUMX 層ネットワーク。

A100 には、図の左側に 100 つ、右側に 6 つ、合計 200 つのコンピューティング インターフェイスがあります。 現在、AXNUMX の出荷品は主に外部通信用に ConnectXXNUMX とペアリングされており、インターフェイス速度は XNUMXGb/s です。

A100

第 8 層のアーキテクチャでは、各ノード (Node) には 8 つのインターフェイス (Port) があり、各ノードは 20 つのリーフ スイッチ (Leaf) に接続され、8 ノードごとにユニット (SU) を形成するため、第 8 層では合計 20 つの*SU リーフ スイッチが必要で、2*SU*8 ケーブル (ケーブル) が必要で、20*200*SU*XNUMX XNUMXG 光トランシーバーが必要です。

最初の層

レイヤ 2 アーキテクチャでは、ノンブロッキング アーキテクチャにより、アップリンク レートはダウンリンク レートと等しくなります。 レイヤ 1 では、合計単方向伝送速度は 200G* ケーブルの数です。 レイヤ 2 も単一ケーブル 200G 伝送速度を採用しているため、レイヤ 2 のケーブルの数はレイヤ 1 のケーブル数と同じである必要があり、8*SU*20 ケーブル (ケーブル) と 2*8*SU*20 200G トランシーバが必要です。 必要なリッジ スイッチ (スパイン) の数は、ケーブルの数をリーフ スイッチの数で割ったもので、(8*SU*20)/(8*SU) のリッジ スイッチが必要になります。 ただし、リーフ スイッチの数が十分に大きくない場合は、リッジ スイッチの数を節約するために、リーフとリッジの間に 40 つ以上の接続を作成できます (1 インターフェイスの制限を超えない限り)。 したがって、ユニット数がそれぞれ2/4/5/4の場合、必要なリッジスイッチ数は10/20/20/320、必要な光モジュール数はそれぞれ640/1280/1600/XNUMXとなります。リッジ スイッチの数は同じ割合で増加しませんが、トランシーバの数は同じ割合で増加します。

ユニット数が 7 に達すると、ノンブロッキング アーキテクチャにより XNUMX 層目のアーキテクチャが必要となるため、XNUMX 層目のアーキテクチャに必要なケーブルの数は XNUMX 層目のケーブル数と同じになります。

NVIDIA 推奨構成 SuperPOD: NVIDIA はネットワーキングに 7 ユニットを推奨します。レイヤー 3 アーキテクチャとコア スイッチ (Core) を増やす必要があり、スイッチの数、各層のユニットの数はさまざまで、図に接続されているケーブルの数も異なります。

スーパーポッド

140 台のサーバー、合計 140*8=1120 個の A100、合計 56+56+28=140 個のスイッチ (QM8790)、1120+1120+1120=3360 個のケーブル、3360*2=6720 個の 200G QSFP56 光モジュール、間のマッピングA100 および 200G QSFP56 トランシーバーは 1120/6720=1:6 です。

シナリオ 2: A100+ConnectX6+QM9700 レイヤ 2 ネットワーク

現時点では、このソリューションは推奨構成では利用できませんが、将来的には QM100 ネットワーキングを選択する A9700 が増える可能性があります。これにより、使用される光トランシーバーの数は減りますが、800G OSFP 光モジュール要件が必要になります。 最大の違いは、最初の層の接続が 8 つの外部接続から変換されていることです。 200Gケーブル 2 および 1 ~ 4 を使用して QSFP から OSFP へのインターフェイスに接続します。

QSFP から OSFP へのインターフェイス 1 ~ 4

第 7 層: 140 ユニットのクラスタの場合、140 台のサーバーに 8 * 1120 = 1120 個のインターフェイスがあり、合計 4/280 = 1 本の 4-280-800 ケーブルが外部接続され、結果として 1120 個の 200G OSFP と 56 個の 12G OSFP9700 光ケーブルになります。モジュールの要件。 合計 XNUMX 個の QMXNUMX スイッチが必要です。

レイヤ 2: 800G 接続のみの場合、280*2=560 個の 800G OSFP トランシーバーが必要となり、9 個の QM9700 スイッチが必要になります。

したがって、140 台のサーバーと 1120 台の A100 には、12+9=21 個のスイッチ、560+280=840 個の 800G OSFP 光モジュール、および 1120 個の 200G QSFP56 光トランシーバーが必要です。

A100 と 800G OSFP 光モジュール間のマッピングは 1120:840 = 1:0.75、A100 と 200G QSFP56 光モジュール間のマッピングは 1:1 です。

シナリオ 3: H100+ConnectX7+QM9700 レイヤ 2 ネットワーク

H100 設計の特別な点は、ネットワーク カードが 400 つの 800G ネットワーク カードを備えた 800 つの Gpu であるにもかかわらず、インターフェイスが XNUMX つの XNUMXG インターフェイスに統合されており、これにより多数の XNUMXG OSFP 光モジュール要件がもたらされることです。

H100+ConnectX7+QM9700 レイヤ 2 ネットワーク

レイヤ 1 では、NVIDIA の推奨構成に従って、2 つの [400*800G] XNUMXG OSFP 光モジュールをサーバー インターフェイスに接続することが推奨されます。 MMA4Z00-NS (800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF) または MMS4X00-NM (800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 MMF)、ツインポート経由。 )、XNUMX 本の光ファイバー ケーブル (MPO) がツイン ポート経由で接続され、XNUMX つのスイッチのそれぞれに差し込まれます。

層1

したがって、最初の層では、32 つのユニットに 2 台のサーバーが含まれ、4 台のサーバーが 8*4=4 台のスイッチに接続され、SuperPOD には 8 台のユニットが含まれ、合計 32*XNUMX=XNUMX 台のリーフ スイッチを最初の層で接続する必要があります。

NVIDIA は、光トランシーバーの使用への影響が限定的であるため、管理目的 (UFM) のためにノードを確保する必要があることを提案しています。省略された計算に従って 4 サーバーの 128 ユニットに従います。

最初の層では、合計 4*128 = 512 個の 800G OSFP 光モジュール、および 2*4*128 = 1024 個の 400G OSFP 光モジュール: MMA4Z00-NS400 (400G OSFP SR4 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO) -12) または NVIDIA MMS4X00-NS400 (400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m)。

層2

レイヤ 2 では、スイッチは 800G 光モジュールで相互に直接接続され、32 つのリーフ スイッチが 400*16G の一方向レートで下向きに接続されます。 アップストリームとダウンストリームのレートが同じであることを保証するため、上り接続には 800*16G の単方向レートが必要で、4 個のリッジ スイッチが必要で、合計 8*16*2*1024=800 個の XNUMXG 光トランシーバが必要になります。

32ノード

したがって、このアーキテクチャでは、512 つのレイヤーに合計 1024+1536=800 個の 1024G OSFP 光モジュールと XNUMXx が必要になります。400G OSFP 光トランシーバー、合計 4*32*8=1024 H100。したがって、GPU と 800G OSFP 光モジュール間のマッピングは 1024/1536 → 1:1.5 となり、GPU と 400G OSFP 光モジュール間のマッピングは 1024/1024 → 1:1 となります。

シナリオ 4: H100+ConnectX8 (未リリース) + QM9700 レイヤ 3 ネットワーク

このシナリオはまだリリースされていませんが、H100 も 800G NIC にアップグレードした後、外部インターフェイスを 4 つの OSFP インターフェイスから 8 つの OSFP インターフェイスにアップグレードする必要があると仮定します。 各層間の接続は 800G で接続されており、ネットワーク全体のアーキテクチャは最初のシナリオと同様ですが、200G 光モジュールが 800G 光モジュールに置き換えられるだけです。 したがって、このアーキテクチャにおける GPU と光学モジュールの比率も 1:6 になります。

上記の XNUMX つのシナリオを次の表に整理します。

上記の XNUMX つのシナリオ

300,000 年に 100 個の H900,000+ 100 個の A2023 が出荷され、合計 3.15 万個の 200G+ 300,000 400G+ 787,500 800G OSFP 需要がもたらされると仮定します。

1.5 年に 100 万台の H1.5+ 100 万台の A2024 が出荷され、合計 750,000 台の 200G+ 750,000 台の 400G+ 6.75 万台の 800G OSFP 需要がもたらされると仮定します。

A100 H100

* A100 の半分は 200G スイッチを使用し、半分は 400G スイッチを使用します。

** H100 の半分は 400G スイッチを使用し、半分は 800G スイッチを使用します。

上記の A100 H100 数量の推定値は単なる仮定であり、将来の予想を表すものではありません。

1 年の平均価格 2023 ドル/GB、0.85 年の平均価格 2024 ドル/GB の単純計算によると、AI は光トランシーバーに 13.8/4.97 億 XNUMX 万米ドルの AI 追加市場スペースをもたらすと予想されます。

コメント

上へスクロール