NVIDIA の製品エコシステムと命名規則を理解する

コンピューティング チップ - V100、A100、H100、B200 など。

これらの用語は、人工知能に関する議論で最もよく使われる用語の一つです。AIコンピューティングカード、特にGPUモデルを指します。

GPUモデル
GPU カード (6 モデル)

NVIDIAは数年ごとに新しいGPUアーキテクチャをリリースしており、それぞれ著名な科学者にちなんで名付けられています。特定のアーキテクチャをベースにしたカードは、ゲーミングGPUを除き、通常、アーキテクチャ名の頭文字で始まります。例えば、

  • V100 は Volta アーキテクチャ (Alessandro Volta にちなんで命名) に基づいています。
  • A100 は、Ampere アーキテクチャ (André-Marie Ampère にちなんで命名) から派生したものです。
  • H100/H200 は Hopper (グレース・ホッパーにちなんで命名) に由来します。
  • B100/B200 は Blackwell (David Blackwell にちなんで命名) に由来します。
NVIDIAは数年ごとに新しいGPUアーキテクチャをリリースしている

「200」で終わるモデルは、通常、「100」で終わる前モデルのアップグレード版です。例えば、H200はH100の強化版で、HBM3eメモリなどの改良が施されています。

L40とL40s。これら40つのモデルは名称が若干異なります。どちらもAda Lovelaceアーキテクチャ(女性初のプログラマーに敬意を表して)に基づいています。L40sはLXNUMXのアップグレード版です。どちらもデータセンター市場向けに設計されており、コスト効率とパフォーマンスに重点を置いています。

H20と輸出規制 H20は、米国の輸出規制に対応して開発されたNVIDIA GPUの改良版です。同様に、B200にもB20と呼ばれる制限付きバリアントが存在する可能性があるという報道もあります。

将来のアーキテクチャ NVIDIAの次世代AIプラットフォーム「Rubin」は、2026年にリリース予定です。当初、GPUはR100/R200シリーズになると予想されていましたが、NVIDIAのロードマップではX100シリーズが示唆されており、今後の動向にはまだ憶測の余地があります。同社は2028年までに、後継プラットフォーム「Feynman」をリリースする予定です。

スーパーチップ - GH200、GB200 など

GPU は NVIDIA のコンピューティング能力の中核を形成していますが、同社は GPU を超えた補完的なソリューションも開発しています。

初期のパートナーシップとCPU開発 当初、NVIDIAはIBMのPOWER CPUと提携していました。しかし、パフォーマンスへの懸念から、Grace CPU(ARMベース)などの独自のCPUの開発を開始し、Vera CPUも開発中でした。

NVIDIAはNVLinkテクノロジーを活用して、GPUとCPUを組み合わせ、スーパーチッププラットフォームを構築しています。例としては、以下のようなものがあります。

  • GH200 (Grace CPU + Hopper GPU)
  • GB200 (Grace CPU + 200 つの Blackwell BXNUMX GPU)
  • GB300(ブラックウェル ウルトラ)

GB200 は特に強力で、H100 の約 XNUMX 倍の性能を誇ります。

GB200

スーパーコンピュータ プラットフォーム - DGX、EGX、IGX など

より高次のコンピューティング層では、NVIDIA は、DGX、EGX、IGX、HGX、MGX などのチップ アーキテクチャに基づいたスーパーコンピュータ プラットフォームを開発しました。

スーパーコンピュータプラットフォーム

DGX シリーズはよく知られており、Jensen Huang 氏が第 1 世代の DGX-XNUMX を OpenAI に寄贈しました。

第一世代のDGX-1

現在、最新の DGX システムは、通常、特徴的なゴールド デザインとプレミアム価格を特徴としています。

デスクトップ アプリケーション向けに、NVIDIA はワークステーション クラスのマシンとして機能する DGX Spark と DGX Station を提供しています。

DGX Spark と DGX Station
DGX Spark と DGX Station

ノード内接続 - スケールアップ(スーパーノード) - DGX GB200 NVL72

通信レベルでは、NVIDIAはGPUを相互接続するために設計されたNVLinkテクノロジーを開発しました。これはPCIeを実質的に置き換えるものです。NVLinkはCPUとGPUをNVLink経由で接続します。

NVLink

マルチノード構成では、NVLinkによる直接接続は非現実的となり、NVLinkスイッチチップ(NVSwitchとも呼ばれる)が必要になります。時が経つにつれ、これらのチップはスタンドアロンデバイスへと進化しました。

NVスイッチ

NVLinkは、多数のGPUを統合論理ノード(超大規模コンピューティングプラットフォーム)に接続することを可能にします。よく言及されるセットアップは、DGX GB200 NVL72でNVLink5と以下の組み合わせを利用するものです。

  • 18 個のコンピュート トレイ (各トレイに 200 個の GBXNUMX スーパーチップが搭載)
  • 9 NVLink ネットワーク スイッチ トレイ

各コンピュート トレイには、2 個の GB200 スーパーチップ (システム全体では合計 36 個の Grace CPU と 72 個の B200 GPU) が搭載されています。

DGX GB200 NVL72

さらに、200 台の DGX GB72 NVL576 ユニットを組み合わせて、XNUMX 個の GPU を備えた SuperPod ノードを作成することもできます。

この構造化された製品エコシステムは、AI と高性能コンピューティングにおける NVIDIA の位置付けを定義します。

スーパーポッドノード

外部ノード相互接続: スケールアウト (IB および Ethernet)

単一ノード内でGPUを継続的に追加することをスケールアップ(垂直方向の拡張)と呼びます。しかし、ノードが一定の大きさに達すると、それ以上の拡張は困難になります。この時点で、ノード数を増やし、それらを相互接続することが必要になります。これをスケールアウト(水平方向の拡張)と呼びます。

外部ノード相互接続

NVIDIAは、主にInfiniBand(IB)テクノロジーを通じてスケールアウトソリューションを提供しています。これはMellanoxによって開発されたものです。 2019年にNVIDIAがMellanoxを買収した後、InfiniBandはNVIDIA独自の技術となりました。InfiniBandは製品名ではなく技術用語であり、InfiniBandをベースにしたNVIDIAの製品プラットフォームはNVIDIA Quantumです。

例えば、NVIDIAは2024年800月に、エンドツーエンドで800Gbpsのスループットを実現するQuantum-X3400ネットワークスイッチプラットフォームを発表しました。このプラットフォームには、Quantum Q8スイッチやConnectX-800 SuperNICネットワークカードなどのハードウェアが含まれています。これらのコンポーネントは、より広範なシリーズに属しており、Quantum-X2は前身のQuantum-8の後継であり、ConnectX-6はConnectX-7とConnectX-XNUMXに先行しています。

NVIDIA Blackwellプラットフォーム

ConnectX高速ネットワークカードもMellanox社製です。InfiniBandは800つの主要なスケールアウトソリューションのうちの800つであり、もう5600つはEthernetです。NVIDIAもこの分野で製品を開発しており、特にSpectrum-X3プラットフォームが有名です。Spectrum-X800ラインナップには、Spectrum SNXNUMXスイッチとBlueField-XNUMX SuperNICネットワークカードが含まれており、いずれもXNUMXGbpsという高いスループットを実現しています。

スペクトラムX800

BlueFieldは、データ処理ユニット(DPU)として大きな注目を集めています。NVIDIAは、MellanoxのConnectXネットワークカード技術と自社のイノベーションを組み合わせ、2年にBlueField-2 DPUとBlueField-2020X DPUを正式にリリースしました。その後、この技術はBlueField-3へと進化を遂げました。

さらに、NVIDIA は最近、Spectrum-X Photonics や Quantum-X Photonics などの CPO (Co-Packaged Optics) 統合ネットワーク スイッチを導入しました。

NVIDIAフォトニクススイッチシステム

NVIDIA は、さまざまなネットワーク カード、コネクタ、ケーブルなどの追加のネットワーク アクセサリを提供していますが、それぞれの詳細な説明はここでは扱いません。

最近、Jensen Huang 氏は、今後の Rubin プラットフォーム リリースに NVLink 6、ConnectX-9 SuperNIC、Quantum (Spectrum)-X1600 が含まれることを示唆しました。これは期待に値します。

開発フレームワーク: CUDA

NVIDIA のコンピューティング ハードウェア プラットフォームとネットワーク ソリューションについて説明した後、重要なソフトウェア コンポーネントである CUDA について説明します。

NVIDIAはハードウェアとネットワーク技術に優れていますが、その中核的な競争優位性はCUDAプラットフォームにあると広く認識されています。CUDA(Compute Unified Device Architecture)は、NVIDIAが2006年に導入した並列コンピューティングプラットフォームおよびプログラミングモデルです。開発者はCUDAを利用することで、GPU用に直接コードを記述し、計算パフォーマンスを大幅に向上させることができます。

現在、CUDA は、プログラミング モデル、コンパイラ、API、ライブラリ、ツールを統合し、ユーザーが NVIDIA ハードウェアの機能を最大限に活用できるように、インテリジェント コンピューティングのオペレーティング システムとして機能しています。

CUDAは単なるツールにとどまらず、強力なAI開発エコシステムを育み、NVIDIAのビジネスフレームワーク全体の中枢神経として機能しています。多くのAI開発プロジェクトはNVIDIAのハードウェアとCUDAに大きく依存しており、ハードウェアの切り替えは比較的容易ですが、エコシステム全体の移行ははるかに大きな課題となります。

コンピューティング統合デバイス アーキテクチャ

コメント

上へスクロール