ネットワーク プロトコルは、コンピュータ ネットワークでのデータ交換のために確立された一連の規則、標準、または規約です。法的なレベルでは、OSI 7 層プロトコルは国際的なプロトコルです。
HPC/AI ではネットワークの高スループットと低レイテンシが求められるため、データセンターでは TCP/IP が徐々に RDMA に移行しています。RDMA にはさまざまなブランチがあります。その中でも、Infiniband は RDMA 専用に設計されており、ハードウェア レベルから信頼性の高い伝送を保証します。高度なテクノロジを備えていますが、高価です。RoCE と iWARP はどちらも Ethernet RDMA テクノロジに基づいています。
この記事では、スイッチと AI の関係について、以下の点に焦点を当てて説明します。
Q: プロトコルとは何ですか?
Q: データセンター アーキテクチャにおけるスイッチの役割は何ですか?
Q: NVIDIA スイッチ = IB スイッチですか?
Q: NVIDIA SuperPOD を理解するにはどうすればいいですか?
Q: スイッチ市場の現状はどうなっていますか?
プロトコルとは何ですか?
ネットワーク プロトコルは、コンピュータ ネットワークでのデータ交換のために確立された一連の規則、標準、または規約です。法的レベルでは、OSI 1980 層プロトコルは国際的なプロトコルです。XNUMX 年代には、コンピュータ間の通信方法を標準化し、オープン ネットワークのニーズを満たすために、XNUMX 層ネットワークを採用した OSI (Open System Interconnection) プロトコルが提案されました。
- 物理層: ハードウェア同士の通信方法を決定します。主な機能は、ビット ストリーム (0 と 1 で表されるデータ ストリーム) の伝送を実現するために、物理デバイスの標準 (インターフェイスの種類、伝送速度など) を定義することです。
- データリンク層: 主な機能はフレームコーディングとエラー訂正制御です。具体的な作業は、物理層からデータを受信し、それをフレームにカプセル化してから上位層に送信することです。同様に、ネットワーク層からのデータはビットストリームに分割され、物理層に送信できます。各フレームには、送信されるデータに加えて検証情報が含まれているため、エラー訂正機能を実現できます。
- ネットワーク層: ノード間に論理回線を作成し、IP を通じてアドレスを検索します (ネットワーク内の各ノードには IP があります)。この層で送信されるデータはパケット形式です。
- トランスポート層: データ転送の品質を監視する役割を担います。パケット損失が発生した場合は、再送信する必要があります。
- セッション層: 主な機能は、ネットワーク デバイスのセッション接続を管理することです。
- プレゼンテーション層: 主にデータ形式の変換、暗号化などを担当します。
- アプリケーション層: ユーザーにさまざまなネットワーク サービスを直接提供し、さまざまなネットワーク タスクを完了できるアプリケーション インターフェイスを提供します。
TCP/IP は、さまざまなプロトコルを含むプロトコル スタックです。これらのプロトコルは、アプリケーション層、トランスポート層、ネットワーク層、データ リンク層の 4 つの層に大まかに分類できます。実際、TCP/IP プロトコルは、OSI 7 層プロトコルの最適化バージョンとして理解できます。

OSI 7層ネットワークモデルとTCP/IP 4層モデルの比較
HPC では高いネットワーク スループットと低レイテンシが求められるため、TCP/IP は徐々に RDMA に移行しています。TCP/IP にはいくつかの大きな欠点があります。
まず、数十マイクロ秒の遅延があります。TCP/IP プロトコル スタックは送信中に複数のコンテキスト スイッチを必要とし、カプセル化に CPU に依存するため、遅延は比較的長くなります。
2 番目に、CPU の負荷が高くなります。TCP/IP ネットワークでは、ホスト CPU がプロトコル スタック メモリのコピーに複数回参加する必要があり、CPU 負荷とネットワーク帯域幅の相関係数が大きすぎます。
RDMA (リモート ダイレクト メモリ アクセス): オペレーティング システム カーネルの介入なしに、ネットワーク インターフェイスを介してメモリ データに直接アクセスできます。これにより、高スループット、低レイテンシのネットワーク通信が可能になり、特に大規模な並列コンピュータ クラスターでの使用に適しています。

RDMAの3つのモード
RDMA はプロトコル スタック全体を指定するわけではありませんが、特定の送信に対して高い要求を課します。たとえば、損失なし、高スループット、低遅延などです。RDMA にはさまざまなブランチがあり、その中でも Infiniband は RDMA 専用に設計されており、ハードウェア レベルで信頼性の高い送信を保証します。技術的には先進的ですが、コストがかかります。RoCE と iWARP はどちらも Ethernet RDMA テクノロジーに基づいています。
データセンター アーキテクチャにおけるスイッチの役割は何ですか?
スイッチとルーターは異なるレベルで動作します。スイッチはデータ リンク層で動作し、MAC (ネットワーク カードのハードウェア アドレス) 識別に基づいてデータ パケットをカプセル化して転送できるため、さまざまなデバイスが相互に通信できます。ルーター (パス セレクターとも呼ばれる) はネットワーク層で動作して相互接続を実現し、IP に基づくアドレス指定を実装し、さまざまなサブネットワークを接続します。
従来のデータセンターでは、アクセス層、アグリゲーション層、コア層の 3 層アーキテクチャが採用されることが多いです。しかし、小規模なデータセンターでは、アグリゲーション層の存在は無視できます。このうち、アクセス層は通常サーバーに直接接続されており、TOR (Top of Rack) スイッチがよく使用されます。アグリゲーション層は、ネットワーク アクセス層とコア層の間の「仲介者 (中間層)」です。コア スイッチは、データセンターに出入りするパケットの転送を提供し、アグリゲーション層への接続を提供します。
クラウド コンピューティングの発展に伴い、従来の 3 層ネットワークの欠点がより顕著になってきました。
- 帯域幅の無駄: 集約スイッチの各グループは POD (Point Of Delivery) を管理し、各 POD には独立した VLAN ネットワークがあります。通常、集約スイッチとアクセス スイッチの間ではスパニング ツリー プロトコル (STP) が使用されます。STP では、VLAN ネットワークで使用できる集約レイヤー スイッチは 1 つだけになり、他の集約レイヤーはブロックされます。これにより、集約レイヤーを水平方向に拡張することもできなくなります。
- 大規模な障害ドメイン: STP アルゴリズムにより、ネットワーク トポロジが変更されると再収束が必要になり、障害が発生しやすくなります。
- 長い遅延: データ センターの発展に伴い、東西トラフィックが大幅に増加し、3 層アーキテクチャのサーバー間の通信はレイヤーごとにスイッチを通過する必要があり、大きな遅延が発生します。さらに、コア スイッチとアグリゲーション スイッチの作業負荷は増加し続けており、パフォーマンスのアップグレードもコストの上昇を引き起こします。
リーフ スパイン アーキテクチャには、フラットな設計、低レイテンシ、高帯域幅など、明らかな利点があります。リーフ スパイン ネットワークはネットワークをフラット化します。リーフ スイッチは従来のアクセス レイヤー スイッチと同等で、スパイン スイッチはコア スイッチに似ています。
ECMP (Equal Cost Multi Path) により、リーフ スイッチとスパイン スイッチ間で複数のパスが動的に選択されます。リーフ レイヤーのアクセス ポートとアップリンクにボトルネックがない場合、このアーキテクチャはノンブロッキングを実現します。ファブリック内の各リーフは各スパインに接続されているため、スパインに障害が発生しても、データ センターのスループット パフォーマンスはわずかに低下するだけです。
NVIDIA スイッチ = IB スイッチ?
いいえ。NVIDIA Spectrum および Quantum プラットフォームには、イーサネット スイッチと IB スイッチの両方が搭載されています。
IBスイッチは、NVIDIAが2020年に買収に成功したメーカーのmellanoxが主に運営しています。また、NVIDIAのSpectrumプラットフォームのスイッチは主にイーサネットをベースとしており、その製品は絶えず進化しています。4年にリリースされたSpectrum-2022は400Gスイッチ製品です。

NVIDIA Spectrum および Quantum プラットフォーム
Spectrum-X は生成 AI 向けに設計されており、従来のイーサネット スイッチの制限を最適化します。NVIDIA Spectrum X プラットフォームの 4 つの重要な要素は、NVIDIA Spectrum-3 イーサネット スイッチと NVIDIA BlueField-XNUMX DPU です。
Spectrum-X の主な利点は次のとおりです。AI およびアダプティブ ルーティング (AR) 向けに RoCE を拡張し、NVIDIA Collective Communications Library (NCCL) のパフォーマンスを最大限に高めます。NVIDIA Spectrum-X は、ハイパースケール システムの負荷と規模で最大 95% の有効帯域幅を実現できます。
- パフォーマンス分離を活用して、マルチテナントおよびマルチジョブ環境で、1 つのジョブが別のジョブに影響を与えないようにします。
- ネットワーク コンポーネントに障害が発生した場合でも、ネットワーク インフラストラクチャが最高のパフォーマンスを継続的に提供できるようにします。
- 最適な NCCL および AI パフォーマンスを得るために BlueField-3 DPU と同期します。
- さまざまな AI ワークロードにわたって一貫性のある安定したパフォーマンスを維持します。これは、SLA を達成するために重要です。
ネットワークモードでは、IBとイーサネットのどちらを選ぶかが重要な問題です。現在の市場では、イーサネットが市場シェアの大部分を占めていますが、一部の大規模コンピューティングシナリオでは、IBが際立っています。ISC 2021スーパーコンピューティングカンファレンスでは、IBがTOP70システムの10%、TOP65システムの100%を占めていました。検討範囲が広がるにつれて、IBの市場シェアは減少しています。
Spectrum プラットフォームと Quantum プラットフォームは、異なるアプリケーション シナリオを対象としています。Nvidia のビジョンでは、AI アプリケーション シナリオは AI クラウドと AI ファクトリーに大別できます。AI クラウドでは従来のイーサネット スイッチと Spectrum-X イーサネットを使用できますが、AI ファクトリーでは NVLink + InfiniBand ソリューションが必要です。
NVIDIA SuperPOD を理解するには?
SuperPOD は、複数のコンピューティング ノードを接続してスループット パフォーマンスを向上させるサーバー クラスターです。
NVIDIA DGX A100 SuperPODを例にとると、NVIDIAが公式に推奨する構成で使用されるスイッチは QM9700、40 個の 200G ポートを提供できます。第 100 層では、DGX A8 サーバーには合計 8 つのインターフェイスがあり、ファット ツリー (非収束) アーキテクチャを採用しているため、それぞれ 20 つのリーフ スイッチに接続されています。8 台のサーバーが 1 つの SU を形成するため、合計 8 台の SU サーバーが必要です。第 5 層アーキテクチャでは、ネットワークが収束せず、ポート速度が一定であるため、スパイン スイッチによって提供されるアップリンク ポートは、リーフ スイッチのダウンリンク ポート以上である必要があります。したがって、2 SU は 16 個のリーフ スイッチと 10 個のスパイン スイッチに対応し、6 SU は XNUMX 個のリーフ スイッチと XNUMX 個のスパイン スイッチに対応します。また、SU の数が XNUMX を超える場合は、コア レイヤー スイッチを追加することが公式に推奨されています。

NVIDIA DGX A100 SuperPOD アーキテクチャ リファレンス
DGX A100 SuperPOD では、コンピューティング ネットワーク内のサーバー: スイッチの比率は 1:1.17 (SU 7 台を例にとると) ですが、DGX A100 SuperPOD では、この比率は 1:0.38 です。ストレージとネットワーク管理の要件を考慮すると、DGX A100 SuperPOD と DGX H100 SuperPOD のサーバー: スイッチの比率は、それぞれ 1:1.34 と 1:0.50 になります。
ポートに関しては、DGX H100 の推奨構成では、各 SU は 31 台のサーバーで構成されます。一方で、DGX H100 にはコンピューティング用のインターフェイスが 4 つしかありませんが、スイッチは QM9700 であり、DGX H64 SuperPOD に 400 個の 100G ポートを提供します。
スイッチ性能面では、DGX H9700 SuperPODの推奨構成においてQM100の性能が大幅に向上しました。Infinibandスイッチはシャープの技術を導入しています。アグリゲーションマネージャを介して物理トポロジにストリーミングアグリゲーションツリー(SAT)を構築し、ツリー内の複数のスイッチに並列操作を行わせることで、レイテンシを大幅に削減し、ネットワーク性能を向上させることができます。QM8700/8790+CX6は最大2つのSATしかサポートしていませんが、QM9700/9790+CX7は最大64をサポートします。スタッキングポートの数が増えるため、使用するスイッチの数は減ります。
スイッチの価格から判断すると、QM9700の価格はQM8700/8790の約2倍です。SHI公式サイトによると、Quantum-9700 QM38,000の単価は8700米ドル、Quantum QM8790/23,000の単価はそれぞれ17,000/XNUMX米ドルです。
スイッチ市場の現状はどうなっているのでしょうか?
スイッチ市場は短期的には活況を呈しており、AIの発展に伴い、市場の需要はさらに拡大し、ハイエンドの反復に向かう傾向を示すことが予想されます。
構造的な観点から見ると、スイッチ市場は依然としてブルーオーシャンであり、シスコが大きなシェアを占め、アリスタが急速に成長しています。
市場規模別では、1年第2023四半期の世界のイーサネットスイッチの売上高は10.021億31.5万米ドルで、前年同期比200%増でした。400G/41.3Gスイッチの売上高は前年同期比100%増、18.0Gスイッチの売上高は前年同期比XNUMX%増でした。
ポート出荷数量では、229年第2023四半期に14.8億200万台が出荷され、前年同期比400%増加しました。100G/224.2Gポートと17.0GポートはそれぞれXNUMX%とXNUMX%増加しました。
スイッチの競争環境はサーバー市場よりも良好です。theNextPlatformによると、シスコは46年第1四半期に市場シェアの2023%を占め、売上高は約4.61億33.7万ドルで、前年同期比1.15%増加しました。アリスタは、データセンターでの優れたパフォーマンスにより、2023年第61.6四半期にXNUMX億XNUMX万ドルの収益を達成し、前年同期比XNUMX%増加しました。
収益性に関して言えば、シスコとアリスタはともに粗利益率が60%近くあります。比較的良好な環境により、業界チェーンのメーカーは良好な収益性を実現しています。シスコとアリスタの粗利益率は若干低下傾向にありますが、全体としては依然として60%前後の粗利益率を維持しています。今後も、スイッチ市場はAIの発展の恩恵を受け続けると予想されます。
関連製品:
-
NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $550.00
-
NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $650.00
-
NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $650.00
-
NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $900.00
-
NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $900.00
-
NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $700.00
-
Mellanox MMA1T00-HS 互換 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 光トランシーバー モジュール $180.00
-
NVIDIA MFP7E10-N010 互換 10 メートル (33 フィート) 8 ファイバー 低挿入損失 メス - メス MPO トランク ケーブル 極性 B APC - APC LSZH マルチモード OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT 互換 3m (10 フィート) 800G ツインポート OSFP ~ 2x400G フラットトップ OSFP InfiniBand NDR ブレイクアウト DAC $260.00
-
NVIDIA MCP7Y70-H002 互換 2m (7 フィート) 400G ツインポート 2x200G OSFP から 4x100G QSFP56 パッシブ ブレークアウト ダイレクト アタッチ銅線ケーブル $155.00
-
NVIDIA MCA4J80-N003-FTF 互換 3m (10 フィート) 800G ツインポート 2x400G OSFP から 2x400G OSFP InfiniBand NDR アクティブ銅線ケーブル、一方の端はフラット トップ、もう一方の端はフィン付きトップ $600.00
-
NVIDIA MCP7Y10-N002 互換性のある 2m (7 フィート) 800G InfiniBand NDR ツインポート OSFP から 2x400G QSFP112 ブレイクアウト DAC $190.00