Hotchip 2025 Day 0チュートリアル: AIワークロード、ラックアーキテクチャ、カスタムGB200ソリューションに関する重要な洞察

AIとデータセンター技術の進化が止まらない世界において、Hotchip 2025は充実したDay 0チュートリアルで幕を開けました。業界の定番イベントであるHotchip 2025のセッションは、午前中はデータセンターラック、午後はカーネルプログラミングに焦点を当て、魅力的な前哨戦となりました。この記事では、ハードウェア中心の午前中のセッションを深く掘り下げ、特にMetaによるNvidia GB200の革新的なカスタマイズに焦点を当てています。AI対応通信ネットワークの専門家にとって、これらの進歩は堅牢な光通信ソリューションの必要性を浮き彫りにしています。そこで、グローバルデータセンター、クラウドコンピューティング、エンタープライズネットワーク、アクセスネットワーク、ワイヤレスシステム向けに費用対効果の高いソリューションを提供することに尽力する専門プロバイダー、FiberMallの出番です。AIドリブンネットワークのリーダーシップで知られるFiberMallは、高品質で価値重視のソリューションを提供する理想的なパートナーです。詳細については、公式ウェブサイトをご覧ください。または、カスタマーサポートにお問い合わせください。

AIワークロードの最適化でもファブリックテクノロジーの拡張でも、これらのトレンドを理解することでインフラストラクチャを変革できます。主要なセッションを詳しく見ていきましょう。

1. AIワークロードがラックシステムアーキテクチャを形成する方法

AMDによるこのセッションでは、過去10年以上にわたるAIの進化を包括的に振り返りました。象徴的なGTX 580とAlexNetの時代(価格は499ドルと手頃でした)から始まり、今日のNvidiaのGPU価格の高騰と微妙な対比が見られました。

AIワークロードがラックシステムアーキテクチャを形成する方法

講演では、様々な並列化戦略とそれに伴う相互接続構造の変化について概説しました。本質的には、チップエンジニアがインフラチームが近年どのような取り組みを行ってきたかを理解するための教育的な橋渡しとなりました。

AIモデルのビルディングブロック

主なハイライトとしては、効率性の向上を反映した数値フォーマットのFP32からFP4への進化が挙げられます。チップパッケージサイズは拡大しており、それに伴いスケールアップ領域も拡大しています。AIラックアーキテクチャを扱う企業にとって、この進化はスケーラブルな光インターコネクトの重要性を浮き彫りにしています。FiberMallのAI対応通信ネットワークに関する専門知識は、こうしたニーズへのシームレスな統合を保証します。

2. AIクラスター向けファブリック技術のスケーリング

今回もAMD主導のセッションで、スケールアップの必須要素について深く掘り下げました。一般的なスケールアップ技術は列挙されていましたが、HuaweiのUBが抜け落ちていたのは特筆すべき点でした。この見落としは減点対象です!

ファブリックテクノロジーのスケーリング

プレゼンテーションでは、 スケールアップとスケールアウト アプローチ。スイッチ基数とデータパスがスケールアップGPUの数と帯域幅に重大な影響を与えることを強調しました。

スケールアップとスケールアウト

典型的な単層スケールアップネットワークのデモに続いて、L2スケールアップとL1スイッチ上に構築するL1.5メッシュの検討が行われました。全体として、最初の2つのセッションは教育的な概要に重点を置いており、AIクラスターのスケーリングを初めて導入する方に最適です。データセンターにこれらのネットワークを実装する場合、FiberMallの費用対効果の高い光ソリューションは、ファブリック技術を最適化し、最高のパフォーマンスを実現します。

代替トポロジ

3. Googleの特性を備えた液体冷却

Google は、モジュール式液体冷却ポンプの設計などに焦点を当て、TPU の経験から得た洞察を共有しました。

設計展開
プロジェクト・デシューツCDU

特筆すべきは、第5世代システムが1MWラック向けに設計されており、AIインフラにおける熱管理の限界を押し広げていることです。このような高密度環境では、信頼性の高い冷却が不可欠です。FiberMallの光通信製品は、こうしたイノベーションを実現する基盤となるネットワークを支えています。

4. 再設計された電力システム

Microsoftが発表したこのセッションでは、800VDCの電力供給について紹介されました。単一キャビネット内でのスケールアップによりGPUの数が増えるにつれ、電力コンバータが外部化され、ラック電源分散(RPD)が実現されています。

インフラストラクチャの最適化

電力チェーンは、主にエンドポイントでの AC から DC への変換による損失を削減するために、今日の多段 AC 変圧器から 800V 中電圧 DC (MVDC) システムへと進化しています。

AIシステムのパワー

将来的に800Vソリッドステートトランス(SST)の導入が進むことで、大幅な効率向上が期待されます。大規模なトレーニングでは、GPUの起動と停止が同期的に行われ、高調波や無効電力の問題によって電力系統に負荷がかかります。現在、この問題の緩和策として、キャビネットレベルのバッテリー(BBU)とコンデンサ(CBU)が挙げられます。MVDCは、これらの負荷を系統内またはSSTレベルで補償します。

まとめると、800V MVDCはデータセンターの電力損失を半減させることができ、これは画期的なことです。AI電源システムでは、FiberMallなどのプロバイダーが提供する光ネットワークと統合することで、全体的な効率性を確保できます。

5. ケーススタディ: Nvidia GB200 NVL72

Nvidiaは昨年のOCPサミットで使用したPPTを再利用しましたが、大不評でした。AIラック愛好家にとって目新しい価値はほとんどなかったため、ここでは詳細は省略します。

6. ケーススタディ: Meta's Catalina (NVL72)

間違いなく、本日のハイライトとなったセッションでした。MetaによるGB200ラックの大胆なカスタマイズが注目を集めました。AWSの7月のGB200インスタンスリリースと比較すると、カスタマイズの違いが分かります。

MetaのNVL72は6つのキャビネットにまたがっています:2 液体冷却 両端にユニットを配置(AWSの近側ポンプをミラーリングし、直接空冷することでデータセンターの改修を最小限に抑えます)。中央にはNVL36キャビネットを2台設置。

メタのカタリナ

公式には、NvidiaのGB200はGrace 1基とB200 2基を組み合わせ、合計18個のトレイで構成されています。MetaはGraceとB200を1:1で組み合わせ、メモリ拡張用に36個のコンピュートトレイを搭載しています。

非公式には、より深い動機が存在します。Nvidiaの標準的なCX7ベースのトポロジでは、各Graceが2つのB200をPCIe x1で接続し、1つのGraceにつき2つのCX7(B200あたり400Gbpsスケールアウト)が接続されます。2つのGraceは6つのClinkで接続されます。

GPU-Direct-RDMA (GDR) の場合、PCIe GDR は Gen4 x1 帯域幅に制限されるため、Grace および NVLink C2C アクセスでメモリ割り当てが必要になります。

シミュレーションではB200のニーズが示された 800Gbps スケールアウト。AWSは外付けPCIeスイッチ(Gen5、ただし現在は400Gbpsに制限)を使用しています。NvidiaのCX8はPCIeスイッチを内蔵していますが、管理用にx1 Graceリンクを保持しており、PCIe経由でGraceにデータをルーティングし、その後NVLink C2Cにルーティングします。そのため、NCCL 2.27の特別な処理が必要になります。

Meta の修正: 1:1 の比率により、Grace は 2 つの Gen5 x16 CX7 NIC を接続して、B200 あたり 800Gbps を実現できます。B200 は引き続き Gen4 x1 PCIe を使用して Grace に接続しますが、真の GDR は直接ではなく、DMA は Grace の PCIe RC と NVLink C2C を介してルーティングされます。

1:1 では、NIC と CPU の比率が有利で、共有 CPU メモリによるボトルネックが発生しません。GPU は CPU メモリ経由で RDMA を処理するため、HBM 帯域幅を約 200GB/秒節約できます。

Grace間のClinkは12レーンに倍増し、システム間帯域幅が向上します。CX8に完全対応していないものの、MetaのアプローチはCPUメモリを強化しながらスケールアウトを800Gbpsまで向上させます。

推測するに、Grace + CX7は超大型のBF3を模倣していると言えるでしょう。つまり、一方でスケールアウト、他方でメモリセマンティックスケールアップを備えた大規模なDPU、そして十分なメモリを備えています。これは2021年のNetDAMと呼応し、KVCacheにメリットをもたらし、INCAを有効にしたり、NVLink C2Cを介して通信オペレーションをGraceにオフロードしたりすることができます。

Metaのコンピューティングキャビネットには冗長性のためのBBUが内蔵されています

Metaのコンピューティングキャビネットには、冗長性を確保するための内蔵BBUと、スペアパーツ付きのパッチパネルを介したスケールアウトファイバーが搭載されています。フロントエンドは2台のWedge400スイッチで処理されます(CX7 + DC-SCMセキュリティモジュール経由でGraceあたり200Gbps、BF3は使用しません)。

スケールアウトでは分散スケジュールファブリックを使用します

スケールアウトでは、Disaggregated Scheduled Fabric (おそらく Cisco Silicon One にヒントを得たもので、マルチパス ハッシュの競合に対処) が使用されます。

各トレイのPDBの漏れ検出

追加: 各トレイの PDB のリーク検出、GPIO/I2C の RJ45 経由でラック管理コントローラー (RMC) とインターフェイスし、外部センサーも追加しました。

リモート管理用のOCP仕様BMC+TPM

最終: リモート管理用の OCP 仕様の BMC + TPM (BF3 なし)。

MetaのようなカスタムAIラックの場合

Meta のようなカスタム AI ラックの場合、FiberMall の AI 対応光ネットワークは、信頼性の高い高帯域幅の相互接続のバックボーンを提供します。

7. TPUラックの概要

GoogleはTPUラックの詳細を発表しました。昨年の分析では、ICI相互接続のルーティング、保護、弾力性、スケジューリングについて取り上げました。

TPUラックの概要

今回は、4x4x4 ブロックとして Ironwood ラックを使用し、冗長性のあるファイバー バンドルとパッチ パネルを介して OCS 光スイッチに接続します。

4x4x4ブロックのアイアンウッドラック
液体冷却と UPS は行レベルです。

液体冷却と UPS は行レベルです。

ラックマニホールド

結論として、Hotchip 2025のDay 0は、最先端のAIデータセンターイノベーションの基盤となりました。これらの知見が貴社のシステム構築のアイデアを刺激するのであれば、AIワークロードに最適な最高級の光通信ソリューションを提供するFiberMallをご検討ください。

上へスクロール