スイッチとAIの関係

ネットワーク プロトコルは、コンピュータ ネットワークでのデータ交換のために確立された一連の規則、標準、または規約です。法的なレベルでは、OSI 7 層プロトコルは国際的なプロトコルです。

HPC/AI ではネットワークの高スループットと低レイテンシが求められるため、データセンターでは TCP/IP が徐々に RDMA に移行しています。RDMA にはさまざまなブランチがあります。その中でも、Infiniband は RDMA 専用に設計されており、ハードウェア レベルから信頼性の高い伝送を保証します。高度なテクノロジを備えていますが、高価です。RoCE と iWARP はどちらも Ethernet RDMA テクノロジに基づいています。

この記事では、スイッチと AI の関係について、以下の点に焦点を当てて説明します。

Q: プロトコルとは何ですか?

Q: データセンター アーキテクチャにおけるスイッチの役割は何ですか?

Q: NVIDIA スイッチ = IB スイッチですか?

Q: NVIDIA SuperPOD を理解するにはどうすればいいですか?

Q: スイッチ市場の現状はどうなっていますか?

プロトコルとは何ですか?

ネットワーク プロトコルは、コンピュータ ネットワークでのデータ交換のために確立された一連の規則、標準、または規約です。法的レベルでは、OSI 1980 層プロトコルは国際的なプロトコルです。XNUMX 年代には、コンピュータ間の通信方法を標準化し、オープン ネットワークのニーズを満たすために、XNUMX 層ネットワークを採用した OSI (Open System Interconnection) プロトコルが提案されました。

  • 物理層: ハードウェア同士の通信方法を決定します。主な機能は、ビット ストリーム (0 と 1 で表されるデータ ストリーム) の伝送を実現するために、物理デバイスの標準 (インターフェイスの種類、伝送速度など) を定義することです。
  • データリンク層: 主な機能はフレームコーディングとエラー訂正制御です。具体的な作業は、物理層からデータを受信し、それをフレームにカプセル化してから上位層に送信することです。同様に、ネットワーク層からのデータはビットストリームに分割され、物理層に送信できます。各フレームには、送信されるデータに加えて検証情報が含まれているため、エラー訂正機能を実現できます。
  • ネットワーク層: ノード間に論理回線を作成し、IP を通じてアドレスを検索します (ネットワーク内の各ノードには IP があります)。この層で送信されるデータはパケット形式です。
  • トランスポート層: データ転送の品質を監視する役割を担います。パケット損失が発生した場合は、再送信する必要があります。
  • セッション層: 主な機能は、ネットワーク デバイスのセッション接続を管理することです。
  • プレゼンテーション層: 主にデータ形式の変換、暗号化などを担当します。
  • アプリケーション層: ユーザーにさまざまなネットワーク サービスを直接提供し、さまざまなネットワーク タスクを完了できるアプリケーション インターフェイスを提供します。

TCP/IP は、さまざまなプロトコルを含むプロトコル スタックです。これらのプロトコルは、アプリケーション層、トランスポート層、ネットワーク層、データ リンク層の 4 つの層に大まかに分類できます。実際、TCP/IP プロトコルは、OSI 7 層プロトコルの最適化バージョンとして理解できます。

OSI 7層ネットワークモデルとTCP/IP 4層モデルの比較

OSI 7層ネットワークモデルとTCP/IP 4層モデルの比較

HPC では高いネットワーク スループットと低レイテンシが求められるため、TCP/IP は徐々に RDMA に移行しています。TCP/IP にはいくつかの大きな欠点があります。

まず、数十マイクロ秒の遅延があります。TCP/IP プロトコル スタックは送信中に複数のコンテキスト スイッチを必要とし、カプセル化に CPU に依存するため、遅延は比較的長くなります。

2 番目に、CPU の負荷が高くなります。TCP/IP ネットワークでは、ホスト CPU がプロトコル スタック メモリのコピーに複数回参加する必要があり、CPU 負荷とネットワーク帯域幅の相関係数が大きすぎます。

RDMA (リモート ダイレクト メモリ アクセス): オペレーティング システム カーネルの介入なしに、ネットワーク インターフェイスを介してメモリ データに直接アクセスできます。これにより、高スループット、低レイテンシのネットワーク通信が可能になり、特に大規模な並列コンピュータ クラスターでの使用に適しています。

RDMAの3つのモード

RDMA はプロトコル スタック全体を指定するわけではありませんが、特定の送信に対して高い要求を課します。たとえば、損失なし、高スループット、低遅延などです。RDMA にはさまざまなブランチがあり、その中でも Infiniband は RDMA 専用に設計されており、ハードウェア レベルで信頼性の高い送信を保証します。技術的には先進的ですが、コストがかかります。RoCE と iWARP はどちらも Ethernet RDMA テクノロジーに基づいています。

データセンター アーキテクチャにおけるスイッチの役割は何ですか?

スイッチとルーターは異なるレベルで動作します。スイッチはデータ リンク層で動作し、MAC (ネットワーク カードのハードウェア アドレス) 識別に基づいてデータ パケットをカプセル化して転送できるため、さまざまなデバイスが相互に通信できます。ルーター (パス セレクターとも呼ばれる) はネットワーク層で動作して相互接続を実現し、IP に基づくアドレス指定を実装し、さまざまなサブネットワークを接続します。

従来のデータセンターでは、アクセス層、アグリゲーション層、コア層の 3 層アーキテクチャが採用されることが多いです。しかし、小規模なデータセンターでは、アグリゲーション層の存在は無視できます。このうち、アクセス層は通常サーバーに直接接続されており、TOR (Top of Rack) スイッチがよく使用されます。アグリゲーション層は、ネットワーク アクセス層とコア層の間の「仲介者 (中間層)」です。コア スイッチは、データセンターに出入りするパケットの転送を提供し、アグリゲーション層への接続を提供します。

クラウド コンピューティングの発展に伴い、従来の 3 層ネットワークの欠点がより顕著になってきました。

  • 帯域幅の無駄: 集約スイッチの各グループは POD (Point Of Delivery) を管理し、各 POD には独立した VLAN ネットワークがあります。通常、集約スイッチとアクセス スイッチの間ではスパニング ツリー プロトコル (STP) が使用されます。STP では、VLAN ネットワークで使用できる集約レイヤー スイッチは 1 つだけになり、他の集約レイヤーはブロックされます。これにより、集約レイヤーを水平方向に拡張することもできなくなります。
  • 大規模な障害ドメイン: STP アルゴリズムにより、ネットワーク トポロジが変更されると再収束が必要になり、障害が発生しやすくなります。
  • 長い遅延: データ センターの発展に伴い、東西トラフィックが大幅に増加し、3 層アーキテクチャのサーバー間の通信はレイヤーごとにスイッチを通過する必要があり、大きな遅延が発生します。さらに、コア スイッチとアグリゲーション スイッチの作業負荷は増加し続けており、パフォーマンスのアップグレードもコストの上昇を引き起こします。

リーフ スパイン アーキテクチャには、フラットな設計、低レイテンシ、高帯域幅など、明らかな利点があります。リーフ スパイン ネットワークはネットワークをフラット化します。リーフ スイッチは従来のアクセス レイヤー スイッチと同等で、スパイン スイッチはコア スイッチに似ています。

ECMP (Equal Cost Multi Path) により、リーフ スイッチとスパイン スイッチ間で複数のパスが動的に選択されます。リーフ レイヤーのアクセス ポートとアップリンクにボトルネックがない場合、このアーキテクチャはノンブロッキングを実現します。ファブリック内の各リーフは各スパインに接続されているため、スパインに障害が発生しても、データ センターのスループット パフォーマンスはわずかに低下するだけです。

NVIDIA スイッチ = IB スイッチ?

いいえ。NVIDIA Spectrum および Quantum プラットフォームには、イーサネット スイッチと IB スイッチの両方が搭載されています。

IBスイッチは、NVIDIAが2020年に買収に成功したメーカーのmellanoxが主に運営しています。また、NVIDIAのSpectrumプラットフォームのスイッチは主にイーサネットをベースとしており、その製品は絶えず進化しています。4年にリリースされたSpectrum-2022は400Gスイッチ製品です。

NVIDIA Spectrum および Quantum プラットフォーム

Spectrum-X は生成 AI 向けに設計されており、従来のイーサネット スイッチの制限を最適化します。NVIDIA Spectrum X プラットフォームの 4 つの重要な要素は、NVIDIA Spectrum-3 イーサネット スイッチと NVIDIA BlueField-XNUMX DPU です。

Spectrum-X の主な利点は次のとおりです。AI およびアダプティブ ルーティング (AR) 向けに RoCE を拡張し、NVIDIA Collective Communications Library (NCCL) のパフォーマンスを最大限に高めます。NVIDIA Spectrum-X は、ハイパースケール システムの負荷と規模で最大 95% の有効帯域幅を実現できます。

  • パフォーマンス分離を活用して、マルチテナントおよびマルチジョブ環境で、1 つのジョブが別のジョブに影響を与えないようにします。
  • ネットワーク コンポーネントに障害が発生した場合でも、ネットワーク インフラストラクチャが最高のパフォーマンスを継続的に提供できるようにします。
  • 最適な NCCL および AI パフォーマンスを得るために BlueField-3 DPU と同期します。
  • さまざまな AI ワークロードにわたって一貫性のある安定したパフォーマンスを維持します。これは、SLA を達成するために重要です。

ネットワークモードでは、IBとイーサネットのどちらを選ぶかが重要な問題です。現在の市場では、イーサネットが市場シェアの大部分を占めていますが、一部の大規模コンピューティングシナリオでは、IBが際立っています。ISC 2021スーパーコンピューティングカンファレンスでは、IBがTOP70システムの10%、TOP65システムの100%を占めていました。検討範囲が広がるにつれて、IBの市場シェアは減少しています。

Spectrum プラットフォームと Quantum プラットフォームは、異なるアプリケーション シナリオを対象としています。Nvidia のビジョンでは、AI アプリケーション シナリオは AI クラウドと AI ファクトリーに大別できます。AI クラウドでは従来のイーサネット スイッチと Spectrum-X イーサネットを使用できますが、AI ファクトリーでは NVLink + InfiniBand ソリューションが必要です。

NVIDIA SuperPOD を理解するには?

SuperPOD は、複数のコンピューティング ノードを接続してスループット パフォーマンスを向上させるサーバー クラスターです。

NVIDIA DGX A100 SuperPODを例にとると、NVIDIAが公式に推奨する構成で使用されるスイッチは QM9700、40 個の 200G ポートを提供できます。第 100 層では、DGX A8 サーバーには合計 8 つのインターフェイスがあり、ファット ツリー (非収束) アーキテクチャを採用しているため、それぞれ 20 つのリーフ スイッチに接続されています。8 台のサーバーが 1 つの SU を形成するため、合計 8 台の SU サーバーが必要です。第 5 層アーキテクチャでは、ネットワークが収束せず、ポート速度が一定であるため、スパイン スイッチによって提供されるアップリンク ポートは、リーフ スイッチのダウンリンク ポート以上である必要があります。したがって、2 SU は 16 個のリーフ スイッチと 10 個のスパイン スイッチに対応し、6 SU は XNUMX 個のリーフ スイッチと XNUMX 個のスパイン スイッチに対応します。また、SU の数が XNUMX を超える場合は、コア レイヤー スイッチを追加することが公式に推奨されています。

NVIDIA DGX A100 SuperPOD アーキテクチャ リファレンス

DGX A100 SuperPOD では、コンピューティング ネットワーク内のサーバー: スイッチの比率は 1:1.17 (SU 7 台を例にとると) ですが、DGX A100 SuperPOD では、この比率は 1:0.38 です。ストレージとネットワーク管理の要件を考慮すると、DGX A100 SuperPOD と DGX H100 SuperPOD のサーバー: スイッチの比率は、それぞれ 1:1.34 と 1:0.50 になります。

ポートに関しては、DGX H100 の推奨構成では、各 SU は 31 台のサーバーで構成されます。一方で、DGX H100 にはコンピューティング用のインターフェイスが 4 つしかありませんが、スイッチは QM9700 であり、DGX H64 SuperPOD に 400 個の 100G ポートを提供します。

スイッチ性能面では、DGX H9700 SuperPODの推奨構成においてQM100の性能が大幅に向上しました。Infinibandスイッチはシャープの技術を導入しています。アグリゲーションマネージャを介して物理トポロジにストリーミングアグリゲーションツリー(SAT)を構築し、ツリー内の複数のスイッチに並列操作を行わせることで、レイテンシを大幅に削減し、ネットワーク性能を向上させることができます。QM8700/8790+CX6は最大2つのSATしかサポートしていませんが、QM9700/9790+CX7は最大64をサポートします。スタッキングポートの数が増えるため、使用するスイッチの数は減ります。

スイッチの価格から判断すると、QM9700の価格はQM8700/8790の約2倍です。SHI公式サイトによると、Quantum-9700 QM38,000の単価は8700米ドル、Quantum QM8790/23,000の単価はそれぞれ17,000/XNUMX米ドルです。

スイッチ市場の現状はどうなっているのでしょうか?

スイッチ市場は短期的には活況を呈しており、AIの発展に伴い、市場の需要はさらに拡大し、ハイエンドの反復に向かう傾向を示すことが予想されます。

構造的な観点から見ると、スイッチ市場は依然としてブルーオーシャンであり、シスコが大きなシェアを占め、アリスタが急速に成長しています。

市場規模別では、1年第2023四半期の世界のイーサネットスイッチの売上高は10.021億31.5万米ドルで、前年同期比200%増でした。400G/41.3Gスイッチの売上高は前年同期比100%増、18.0Gスイッチの売上高は前年同期比XNUMX%増でした。

ポート出荷数量では、229年第2023四半期に14.8億200万台が出荷され、前年同期比400%増加しました。100G/224.2Gポートと17.0GポートはそれぞれXNUMX%とXNUMX%増加しました。

スイッチの競争環境はサーバー市場よりも良好です。theNextPlatformによると、シスコは46年第1四半期に市場シェアの2023%を占め、売上高は約4.61億33.7万ドルで、前年同期比1.15%増加しました。アリスタは、データセンターでの優れたパフォーマンスにより、2023年第61.6四半期にXNUMX億XNUMX万ドルの収益を達成し、前年同期比XNUMX%増加しました。

収益性に関して言えば、シスコとアリスタはともに粗利益率が60%近くあります。比較的良好な環境により、業界チェーンのメーカーは良好な収益性を実現しています。シスコとアリスタの粗利益率は若干低下傾向にありますが、全体としては依然として60%前後の粗利益率を維持しています。今後も、スイッチ市場はAIの発展の恩恵を受け続けると予想されます。

コメント

上へスクロール