Nvidia の NvLink と NvSwitch の進化を理解する: トポロジとレート

人工知能 (AI)、ハイパフォーマンスコンピューティング (HPC)、そしてデータ分析の急速な発展には、最先端の相互接続技術が求められています。NVIDIA の NVIDIA H100 GPU は、高度な NVLink および NVSwitch 技術と組み合わせることで、この革命の最前線に立ち、データ集約型のワークロードに比類のないパフォーマンスを提供します。Hopper アーキテクチャを基盤とする NVIDIA H100 は、NVLink 4.0 と NVSwitch を活用して GPU 間の高速かつスケーラブルな通信を可能にし、データセンターやスーパーコンピュータを変革します。このガイドでは、NVLink と NVSwitch の進化を探り、NVIDIA H100 が AI、HPC、そしてエンタープライズアプリケーションにおけるその可能性を最大限に引き出す方法に焦点を当てます。AI スーパーコンピュータを設計する場合でも、データセンターをアップグレードする場合でも、NVIDIA H100、NVLink、NVSwitch の相乗効果を理解することは、次のレベルのパフォーマンスを実現するために不可欠です。

100年にHopperアーキテクチャの一部として導入されたNVIDIA H2022 GPUは、AI、HPC、データ分析向けのNVIDIAの最も先進的なGPUです。最大80億個のトランジスタとFP8精度のサポートを備えたNVIDIA H100は、前身のA3と比較して最大100倍の性能を発揮します。NVLink 4.0およびNVSwitchとの統合は、NVIDIAの相互接続の進化における重要なマイルストーンです。NVLink 4.0は最大900GB/秒の双方向帯域幅を提供し、NVSwitchはNVIDIA DGX H100などのシステムで複数のNVIDIA H100 GPU間のスケーラブルな高速通信を可能にします。この相乗効果により、NVIDIA H100は大規模なAIモデル、科学シミュレーション、リアルタイム分析をかつてない効率で処理できます。

2014年: Tesla P100によるPascalアーキテクチャの導入

2014 年、Nvidia は Pascal アーキテクチャに基づく Tesla P100 を発売しました。この GPU は第 4 世代の NVLink テクノロジを搭載し、8 個または 1.0 個の GPU 間の高速通信を可能にしました。NVLink 3.0 の双方向相互接続帯域幅は、PCIe 16×XNUMX の XNUMX 倍でした。計算は次のとおりです。

  • PCIe 3.0×16: 双方向通信帯域幅32GB/s (1GBx16x2)。
  • NVLink 1.0: 双方向相互接続帯域幅 160GB/秒 (20GBx4x2)。

NvSwitch チップがないため、GPU はメッシュ トポロジで相互接続されており、160 つの GPU から XNUMX つの直接接続された GPU までの合計帯域幅は XNUMX GB/秒です。

Tesla P100 を使用した Pascal アーキテクチャ

2017: Volta ArchitectureとV100

2017 年、Nvidia は V100 GPU を搭載した Volta アーキテクチャをリリースしました。V100 の NVLink は、リンクあたりの単方向帯域幅を 20GB/秒から 25GB/秒に、リンク数を 4 から 6 に増やし、サポートされる GPU NVLink 帯域幅の合計を 300GB/秒に引き上げました。ただし、100 年にリリースされた V1 DGX-2017 システムには NvSwitch は搭載されていませんでした。トポロジは NVLink 1.0 に似ており、リンク数が増加しました。

V100 を使用した Volta アーキテクチャ

2018年:V100 DGX-2システムの導入

GPU 間通信帯域幅とシステム全体のパフォーマンスをさらに強化するために、Nvidia は 100 年に V2 DGX-2018 システムを導入しました。これは NvSwitch チップを組み込んだ最初のシステムであり、単一の DGX-16 システム内で 100 個の SXM V2 GPU 間の完全な相互接続を可能にしました。

V100 DGX-2 システム

NVSwitch には 18 個の NVLink ポートがあり、そのうち 8 個は GPU に接続し、8 個は別のベースボード上の別の NVSwitch チップに接続します。各ベースボードには、別のベースボードとの通信用に XNUMX 個の NVSwitch が含まれています。

各ベースボードには、別のベースボードと通信するための 6 つの NVSwitch が含まれています。

2020: A100を搭載したAmpereアーキテクチャ

2020 年、Nvidia は A100 GPU を搭載した Ampere アーキテクチャを発表しました。NVLink チップと NVSwitch チップは、それぞれバージョン 3.0 と 2.0 にアップグレードされました。リンクあたりの単方向帯域幅は 25 GB/秒のままですが、リンクの数は 12 に増加し、双方向相互接続帯域幅の合計は 600 GB/秒になりました。DGX A100 システムには 6 つの NVSwitch 2.0 チップが搭載されており、各 A100 GPU は 12 の NVLink 接続を介して 6 つの NVSwitch チップに相互接続され、各 NVSwitch に XNUMX つのリンクが確保されます。

GPU システムの論理トポロジは次のとおりです。

GPUシステムの論理トポロジ

HGX モジュールと「サーバー ヘッド」の論理的な関係については、多くの人が明確に理解していません。以下は、SXM GPU ベースボードが PCIe リンクを介してサーバー マザーボードと相互接続されていることを示す図です。PCIe スイッチ (PCIeSw) チップは、サーバー ヘッド マザーボードに統合されています。ネットワーク カードと NVMe U.2 PCIe 信号も、PCIeSw から発信されます。

HGXモジュールとサーバーヘッド間の論理的な関係

2022: H100を使用したホッパーアーキテクチャ

Hopper アーキテクチャに基づく H100 GPU は、2022 年に NVLink と NVSwitch のバージョンがそれぞれ 4.0 と 3.0 でリリースされました。リンクあたりの単方向帯域幅は 25 GB/秒のまま変わりませんでしたが、リンクの数は 18 に増加し、双方向相互接続帯域幅の合計は 900 GB/秒になりました。各 GPU は、4+5+4+4 のグループを使用して 5 つの NVSwitch と相互接続されています。

H100 を使用したホッパーアーキテクチャ

DGX システムの NVSwitch チップの OSFP インターフェイスは、DGX H100 256 SuperPOD ソリューションなどの Nvidia の大規模な GPU ネットワークに使用されます。

DGX H100 256 スーパーポッド

2024年:ブラックウェル・アーキテクチャーとB200

2024 年、Nvidia は B200 GPU で Blackwell アーキテクチャを導入しました。これは、それぞれ NVLink と NVSwitch バージョン 5.0 と 4.0 を搭載しています。リンクあたりの単方向帯域幅は 50 のリンクで 18GB/秒に倍増し、合計双方向相互接続帯域幅は 1.8TB/秒になりました。各 NVSwitch チップには 72 個の NVLink 5.0 ポートがあり、各 GPU は 9 つの NVSwitch チップへの XNUMX つの NVLink 接続を使用します。

ブラックウェル・アーキテクチャーとB200

B200 のリリースと同時に、Nvidia は NVLink ネットワーク スイッチを利用して 72 個の GPU 間の完全な相互接続を実現する統合 GPU システムである NVL72 も発表しました。

72 つの NVLink スイッチを使用して 9 個の GPU を相互接続するための論理トポロジは次のとおりです。

72 つの NVLink スイッチを使用した 9 個の GPU

各 B200 GPU には 18 個の NVLink ポートがあり、合計 1,296 個の NVLink 接続 (72×18) になります。72 つのスイッチ トレイには 144 つの NVLink スイッチ チップが含まれており、それぞれが 9 個のインターフェイス (合計 72 個) を提供します。したがって、XNUMX 個の GPU を完全に相互接続するには XNUMX 個のスイッチ トレイが必要です。

NVIDIA H100 GPU は、NVLink 4.0 および NVSwitch と組み合わせることで、高性能コンピューティングに革新的なメリットをもたらします。

  • 比類のない帯域幅: NVLink 4.0 は、NVIDIA H900 あたり 100 GB/秒を提供し、AI および HPC ワークロードの高速データ転送を可能にします。
  • 大規模なスケーラビリティ: NVSwitch は最大 256 個の NVIDIA H100 GPU を接続し、DGX H100 などの大規模システムをサポートします。
  • 超低遅延: サブマイクロ秒の通信により、時間に敏感なアプリケーションのリアルタイム処理が保証されます。
  • AI 最適化: NVIDIA H100 の Transformer Engine は、NVLink と組み合わせることで、大規模な言語モデルと生成 AI を高速化します。
  • エネルギー効率: 高帯域幅リンクにより接続数が削減され、電力消費が抑えられます。
  • コヒーレント メモリ: NVSHMEM は、NVIDIA H100 GPU 間でキャッシュ コヒーレント メモリ アクセスを可能にし、効率を向上させます。
  • 将来性: AI 推論や科学的シミュレーションなどの新しいワークロードをサポートします。

これらの利点により、NVLink と NVSwitch を搭載した NVIDIA H100 は次世代コンピューティングの基礎となります。

NVIDIA H100 を A100 などの他の NVLink 対応 GPU と比較すると、その利点が明確になります。

機能エヌビディア H100Nvidia A100NVIDIA V100
アーキテクチャホッパー(2022)アンペア(2020)ボルタ (2017)
NVLinkバージョンNVLink 4.0(900 GB/秒)NVLink 3.0(600 GB/秒)NVLink 2.0(300 GB/秒)
NVSwitch サポート第3世代(57.6 TB/秒)第2世代(4.8 TB/秒)第1世代(2.4 TB/秒)
パフォーマンス3x A100 (FP8 精度)V2×100台ベースライン
メモリ141 GB HBM380GB HBM2e32 GB HBM2
Use CaseAI、HPC、大規模分析AI、HPC、データ分析初期のAI、HPC

NVLink 100 と NVSwitch を搭載した NVIDIA H4.0 は、優れたパフォーマンスとスケーラビリティを提供し、最先端の AI および HPC アプリケーションに最適です。

NVLink および NVSwitch を搭載した NVIDIA H100 を導入するには、慎重な計画が必要です。

  • ハードウェアの選択: NVIDIA H100 GPU と NVLink 4.0 互換システム (例: DGX H100、HGX H100) を使用します。
  • NVSwitch を組み込む: 大規模システムでマルチ GPU のスケーラビリティを実現するために第 3 世代の NVSwitch を導入します。
  • NVLink を構成する: 最大帯域幅 (NVIDIA H4.0 あたり 900 GB/秒) を実現するために NVLink 100 接続を最適化します。
  • ソフトウェアのインストール: NVIDIA CUDA、NVSHMEM、NCCL ライブラリを使用して、NVIDIA H100 のキャッシュ コヒーレント機能を有効にします。
  • パフォーマンスのテスト: NCCL などのツールを使用してデータ転送のベンチマークを実行し、NVIDIA H100 のパフォーマンスを確認します。
  • インフラストラクチャの拡張: NVSwitch を活用して複数の NVIDIA H100 GPU を接続し、将来の成長を見据えて設計します。

NVLink と NVSwitch を搭載した NVIDIA H100 は優れたパフォーマンスを提供しますが、次のような課題もあります。

  • 高コスト: NVIDIA H100 GPU と NVSwitch システムは高価であり、多大な投資が必要です。
  • 独自のエコシステム: NVIDIA H100 は NVIDIA の NVLink/NVSwitch に制限されているため、NVIDIA 以外のハードウェアとの互換性が低下します。
  • 構成の複雑さ: NVLink 100 および NVSHMEM を使用して NVIDIA H4.0 を最適化するには専門知識が必要です。
  • 電力消費: NVSwitch を使用した大規模な NVIDIA H100 の導入では、電力消費が増加します。
  • スケーラビリティの制限: NVSwitch は NVIDIA エコシステム向けに最適化されており、CXL などのオープン スタンダードよりも柔軟性が低くなります。

NVIDIA H100、NVLink、NVSwitch は、新興テクノロジーとともに進化していきます。

  • より高い帯域幅: 将来の NVLink バージョンでは 1 TB/秒を超え、NVIDIA H100 のパフォーマンスが向上する可能性があります。
  • AI 最適化: 高度な NVSHMEM と NVSwitch により、NVIDIA H100 上の次世代 AI モデルが効率化されます。
  • より広範な統合: NVIDIA H100 は、異種システム向けの CXL などのハイブリッド相互接続をサポートする可能性があります。
  • エネルギー効率: 将来の設計では、NVIDIA H100 の展開における電力消費が削減されます。
  • エッジ AI: NVLink を搭載した NVIDIA H100 は、エッジでの低遅延 AI 推論をサポートします。

コメント

上へスクロール