NVLink、NVSwitch、NVIDIA H100の進化
人工知能 (AI)、ハイパフォーマンスコンピューティング (HPC)、そしてデータ分析の急速な発展には、最先端の相互接続技術が求められています。NVIDIA の NVIDIA H100 GPU は、高度な NVLink および NVSwitch 技術と組み合わせることで、この革命の最前線に立ち、データ集約型のワークロードに比類のないパフォーマンスを提供します。Hopper アーキテクチャを基盤とする NVIDIA H100 は、NVLink 4.0 と NVSwitch を活用して GPU 間の高速かつスケーラブルな通信を可能にし、データセンターやスーパーコンピュータを変革します。このガイドでは、NVLink と NVSwitch の進化を探り、NVIDIA H100 が AI、HPC、そしてエンタープライズアプリケーションにおけるその可能性を最大限に引き出す方法に焦点を当てます。AI スーパーコンピュータを設計する場合でも、データセンターをアップグレードする場合でも、NVIDIA H100、NVLink、NVSwitch の相乗効果を理解することは、次のレベルのパフォーマンスを実現するために不可欠です。
NVLinkとNVSwitchの進化におけるNVIDIA H100の役割
100年にHopperアーキテクチャの一部として導入されたNVIDIA H2022 GPUは、AI、HPC、データ分析向けのNVIDIAの最も先進的なGPUです。最大80億個のトランジスタとFP8精度のサポートを備えたNVIDIA H100は、前身のA3と比較して最大100倍の性能を発揮します。NVLink 4.0およびNVSwitchとの統合は、NVIDIAの相互接続の進化における重要なマイルストーンです。NVLink 4.0は最大900GB/秒の双方向帯域幅を提供し、NVSwitchはNVIDIA DGX H100などのシステムで複数のNVIDIA H100 GPU間のスケーラブルな高速通信を可能にします。この相乗効果により、NVIDIA H100は大規模なAIモデル、科学シミュレーション、リアルタイム分析をかつてない効率で処理できます。
2014年: Tesla P100によるPascalアーキテクチャの導入
2014 年、Nvidia は Pascal アーキテクチャに基づく Tesla P100 を発売しました。この GPU は第 4 世代の NVLink テクノロジを搭載し、8 個または 1.0 個の GPU 間の高速通信を可能にしました。NVLink 3.0 の双方向相互接続帯域幅は、PCIe 16×XNUMX の XNUMX 倍でした。計算は次のとおりです。
- PCIe 3.0×16: 双方向通信帯域幅32GB/s (1GBx16x2)。
- NVLink 1.0: 双方向相互接続帯域幅 160GB/秒 (20GBx4x2)。
NvSwitch チップがないため、GPU はメッシュ トポロジで相互接続されており、160 つの GPU から XNUMX つの直接接続された GPU までの合計帯域幅は XNUMX GB/秒です。

2017: Volta ArchitectureとV100
2017 年、Nvidia は V100 GPU を搭載した Volta アーキテクチャをリリースしました。V100 の NVLink は、リンクあたりの単方向帯域幅を 20GB/秒から 25GB/秒に、リンク数を 4 から 6 に増やし、サポートされる GPU NVLink 帯域幅の合計を 300GB/秒に引き上げました。ただし、100 年にリリースされた V1 DGX-2017 システムには NvSwitch は搭載されていませんでした。トポロジは NVLink 1.0 に似ており、リンク数が増加しました。

2018年:V100 DGX-2システムの導入
GPU 間通信帯域幅とシステム全体のパフォーマンスをさらに強化するために、Nvidia は 100 年に V2 DGX-2018 システムを導入しました。これは NvSwitch チップを組み込んだ最初のシステムであり、単一の DGX-16 システム内で 100 個の SXM V2 GPU 間の完全な相互接続を可能にしました。

NVSwitch には 18 個の NVLink ポートがあり、そのうち 8 個は GPU に接続し、8 個は別のベースボード上の別の NVSwitch チップに接続します。各ベースボードには、別のベースボードとの通信用に XNUMX 個の NVSwitch が含まれています。

2020: A100を搭載したAmpereアーキテクチャ
2020 年、Nvidia は A100 GPU を搭載した Ampere アーキテクチャを発表しました。NVLink チップと NVSwitch チップは、それぞれバージョン 3.0 と 2.0 にアップグレードされました。リンクあたりの単方向帯域幅は 25 GB/秒のままですが、リンクの数は 12 に増加し、双方向相互接続帯域幅の合計は 600 GB/秒になりました。DGX A100 システムには 6 つの NVSwitch 2.0 チップが搭載されており、各 A100 GPU は 12 の NVLink 接続を介して 6 つの NVSwitch チップに相互接続され、各 NVSwitch に XNUMX つのリンクが確保されます。
GPU システムの論理トポロジは次のとおりです。

HGX モジュールと「サーバー ヘッド」の論理的な関係については、多くの人が明確に理解していません。以下は、SXM GPU ベースボードが PCIe リンクを介してサーバー マザーボードと相互接続されていることを示す図です。PCIe スイッチ (PCIeSw) チップは、サーバー ヘッド マザーボードに統合されています。ネットワーク カードと NVMe U.2 PCIe 信号も、PCIeSw から発信されます。

2022: H100を使用したホッパーアーキテクチャ
Hopper アーキテクチャに基づく H100 GPU は、2022 年に NVLink と NVSwitch のバージョンがそれぞれ 4.0 と 3.0 でリリースされました。リンクあたりの単方向帯域幅は 25 GB/秒のまま変わりませんでしたが、リンクの数は 18 に増加し、双方向相互接続帯域幅の合計は 900 GB/秒になりました。各 GPU は、4+5+4+4 のグループを使用して 5 つの NVSwitch と相互接続されています。

DGX システムの NVSwitch チップの OSFP インターフェイスは、DGX H100 256 SuperPOD ソリューションなどの Nvidia の大規模な GPU ネットワークに使用されます。

2024年:ブラックウェル・アーキテクチャーとB200
2024 年、Nvidia は B200 GPU で Blackwell アーキテクチャを導入しました。これは、それぞれ NVLink と NVSwitch バージョン 5.0 と 4.0 を搭載しています。リンクあたりの単方向帯域幅は 50 のリンクで 18GB/秒に倍増し、合計双方向相互接続帯域幅は 1.8TB/秒になりました。各 NVSwitch チップには 72 個の NVLink 5.0 ポートがあり、各 GPU は 9 つの NVSwitch チップへの XNUMX つの NVLink 接続を使用します。

B200 のリリースと同時に、Nvidia は NVLink ネットワーク スイッチを利用して 72 個の GPU 間の完全な相互接続を実現する統合 GPU システムである NVL72 も発表しました。
72 つの NVLink スイッチを使用して 9 個の GPU を相互接続するための論理トポロジは次のとおりです。

各 B200 GPU には 18 個の NVLink ポートがあり、合計 1,296 個の NVLink 接続 (72×18) になります。72 つのスイッチ トレイには 144 つの NVLink スイッチ チップが含まれており、それぞれが 9 個のインターフェイス (合計 72 個) を提供します。したがって、XNUMX 個の GPU を完全に相互接続するには XNUMX 個のスイッチ トレイが必要です。
NVLinkとNVSwitchを搭載したNVIDIA H100の利点
NVIDIA H100 GPU は、NVLink 4.0 および NVSwitch と組み合わせることで、高性能コンピューティングに革新的なメリットをもたらします。
- 比類のない帯域幅: NVLink 4.0 は、NVIDIA H900 あたり 100 GB/秒を提供し、AI および HPC ワークロードの高速データ転送を可能にします。
- 大規模なスケーラビリティ: NVSwitch は最大 256 個の NVIDIA H100 GPU を接続し、DGX H100 などの大規模システムをサポートします。
- 超低遅延: サブマイクロ秒の通信により、時間に敏感なアプリケーションのリアルタイム処理が保証されます。
- AI 最適化: NVIDIA H100 の Transformer Engine は、NVLink と組み合わせることで、大規模な言語モデルと生成 AI を高速化します。
- エネルギー効率: 高帯域幅リンクにより接続数が削減され、電力消費が抑えられます。
- コヒーレント メモリ: NVSHMEM は、NVIDIA H100 GPU 間でキャッシュ コヒーレント メモリ アクセスを可能にし、効率を向上させます。
- 将来性: AI 推論や科学的シミュレーションなどの新しいワークロードをサポートします。
これらの利点により、NVLink と NVSwitch を搭載した NVIDIA H100 は次世代コンピューティングの基礎となります。
NVIDIA H100とNVLinkおよびNVSwitch搭載の他のGPUの比較
NVIDIA H100 を A100 などの他の NVLink 対応 GPU と比較すると、その利点が明確になります。
機能 | エヌビディア H100 | Nvidia A100 | NVIDIA V100 |
---|---|---|---|
アーキテクチャ | ホッパー(2022) | アンペア(2020) | ボルタ (2017) |
NVLinkバージョン | NVLink 4.0(900 GB/秒) | NVLink 3.0(600 GB/秒) | NVLink 2.0(300 GB/秒) |
NVSwitch サポート | 第3世代(57.6 TB/秒) | 第2世代(4.8 TB/秒) | 第1世代(2.4 TB/秒) |
パフォーマンス | 3x A100 (FP8 精度) | V2×100台 | ベースライン |
メモリ | 141 GB HBM3 | 80GB HBM2e | 32 GB HBM2 |
Use Case | AI、HPC、大規模分析 | AI、HPC、データ分析 | 初期のAI、HPC |
NVLink 100 と NVSwitch を搭載した NVIDIA H4.0 は、優れたパフォーマンスとスケーラビリティを提供し、最先端の AI および HPC アプリケーションに最適です。
NVLinkとNVSwitchを使ってNVIDIA H100を実装する方法
NVLink および NVSwitch を搭載した NVIDIA H100 を導入するには、慎重な計画が必要です。
- ハードウェアの選択: NVIDIA H100 GPU と NVLink 4.0 互換システム (例: DGX H100、HGX H100) を使用します。
- NVSwitch を組み込む: 大規模システムでマルチ GPU のスケーラビリティを実現するために第 3 世代の NVSwitch を導入します。
- NVLink を構成する: 最大帯域幅 (NVIDIA H4.0 あたり 900 GB/秒) を実現するために NVLink 100 接続を最適化します。
- ソフトウェアのインストール: NVIDIA CUDA、NVSHMEM、NCCL ライブラリを使用して、NVIDIA H100 のキャッシュ コヒーレント機能を有効にします。
- パフォーマンスのテスト: NCCL などのツールを使用してデータ転送のベンチマークを実行し、NVIDIA H100 のパフォーマンスを確認します。
- インフラストラクチャの拡張: NVSwitch を活用して複数の NVIDIA H100 GPU を接続し、将来の成長を見据えて設計します。
NVLinkとNVSwitchを搭載したNVIDIA H100の課題
NVLink と NVSwitch を搭載した NVIDIA H100 は優れたパフォーマンスを提供しますが、次のような課題もあります。
- 高コスト: NVIDIA H100 GPU と NVSwitch システムは高価であり、多大な投資が必要です。
- 独自のエコシステム: NVIDIA H100 は NVIDIA の NVLink/NVSwitch に制限されているため、NVIDIA 以外のハードウェアとの互換性が低下します。
- 構成の複雑さ: NVLink 100 および NVSHMEM を使用して NVIDIA H4.0 を最適化するには専門知識が必要です。
- 電力消費: NVSwitch を使用した大規模な NVIDIA H100 の導入では、電力消費が増加します。
- スケーラビリティの制限: NVSwitch は NVIDIA エコシステム向けに最適化されており、CXL などのオープン スタンダードよりも柔軟性が低くなります。
NVIDIA H100、NVLink、NVSwitchの将来
NVIDIA H100、NVLink、NVSwitch は、新興テクノロジーとともに進化していきます。
- より高い帯域幅: 将来の NVLink バージョンでは 1 TB/秒を超え、NVIDIA H100 のパフォーマンスが向上する可能性があります。
- AI 最適化: 高度な NVSHMEM と NVSwitch により、NVIDIA H100 上の次世代 AI モデルが効率化されます。
- より広範な統合: NVIDIA H100 は、異種システム向けの CXL などのハイブリッド相互接続をサポートする可能性があります。
- エネルギー効率: 将来の設計では、NVIDIA H100 の展開における電力消費が削減されます。
- エッジ AI: NVLink を搭載した NVIDIA H100 は、エッジでの低遅延 AI 推論をサポートします。
関連製品:
-
NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $550.00
-
NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $650.00
-
NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $650.00
-
NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $900.00
-
NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $900.00
-
NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $700.00
-
Mellanox MMA1T00-HS 互換 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 光トランシーバー モジュール $149.00
-
NVIDIA MFP7E10-N010 互換 10 メートル (33 フィート) 8 ファイバー 低挿入損失 メス - メス MPO トランク ケーブル 極性 B APC - APC LSZH マルチモード OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT 互換 3m (10 フィート) 800G ツインポート OSFP ~ 2x400G フラットトップ OSFP InfiniBand NDR ブレイクアウト DAC $260.00
-
NVIDIA MCP7Y70-H002 互換 2m (7 フィート) 400G ツインポート 2x200G OSFP から 4x100G QSFP56 パッシブ ブレークアウト ダイレクト アタッチ銅線ケーブル $155.00
-
NVIDIA MCA4J80-N003-FTF 互換 3m (10 フィート) 800G ツインポート 2x400G OSFP から 2x400G OSFP InfiniBand NDR アクティブ銅線ケーブル、一方の端はフラット トップ、もう一方の端はフィン付きトップ $600.00
-
NVIDIA MCP7Y10-N002 互換性のある 2m (7 フィート) 800G InfiniBand NDR ツインポート OSFP から 2x400G QSFP112 ブレイクアウト DAC $190.00