MetaのGB300液冷AIサーバー:Clemente(1U 4xGPU) – AIインフラの革新

急速に進化するAIデータセンターの世界では、液冷サーバーが高性能コンピューティングの基盤となっています。クラウドコンピューティング、エンタープライズネットワーク、AI対応環境向けの最先端ソリューションをお探しなら、MetaのGB300液冷AIサーバー(コードネーム:Clemente)はまさにうってつけです。この1Uサイズのパワフルサーバーは、コンパクトなフォームファクターに4基のGPUを搭載し、密度、効率、そして拡張性の限界を押し広げます。このブログ記事では、そのアーキテクチャ、冷却技術の革新、電力管理、そしてAIラックの幅広いトレンドへの適合性について詳しく解説します。ITアーキテクトであれ、データセンターに携わる方であれ、GB300 Clementeを理解することは、次世代のシステムを最適化する上で大きな助けとなるでしょう。

AI スーパーノードの進化: 集約ラックから非集約ラックへ?

AIスーパーノードの進化

GB300の詳細を詳しく説明する前に、AIインフラストラクチャのスケーリングという大局を見ていきましょう。2025 OCP Global Summitで行われたMetaのプレゼンテーション「データセンター地域へのAIインフラストラクチャのスケーリング」では、AIラック設計の変化が強調されました。図の左から右へ:AMD MI300Xを活用した既存のキャビネット、Metaの自社製MTIAアクセラレータ、そしてNVIDIAを搭載したGB300です。

NVIDIA 搭載 GB300

大規模なスケールアップ コンピューティング ドメインには、より大きなラックが必要です。

側面ORv3 HPRORW(オープンラックワイド)将来のモデル
ステータス/時間ノード展開済み(現在)3 Q20263 Q2027
サポートされているアクセラレータの数≤72≤144≥256
相互接続タイプケーブル接続されたバックプレーンケーブル接続されたバックプレーン(特に指定なし、より高度な内容が想定されます)
電力供給計画48 VDC / ±400 VDC48 VDC / ±400 VDC±400VDC
冷却方法空冷/液冷空冷/液冷主に液体冷却
ラック仕様IT/電源キャビネット シングル幅ITキャビネット ダブル幅ITキャビネットサイズ未定
電力容量(指定されていない)(指定されていない)900kW以上

大規模AIコンピューティング分野における主要トレンド

  • より大きなコンピューティングのためのより大きなラックAIワークロードがより多くのxPU(アクセラレータ)を必要とするにつれ、ラックは進化しています。Metaのロードマップでは、現在の構成から2027年第3四半期までに256xPU以上へと拡張され、消費電力は900kWを超えると示されています。ここで登場するのが、MetaとAMDの共同開発によるOpen Rack Wide(ORW)規格です。ORW規格は2026年第3四半期の導入を目指しており、将来のInstinct MI450 GPUをサポートし、AIインフラストラクチャのオープン性を重視しています。
  • 分散化の台頭従来の「集約型」設計では、バックプレーン(図の緑とオレンジの線)を使用して、1つまたは2つのラック内にコンポーネントを緊密に統合します。しかし、xPUの数が増えると、相互接続の複雑さは飛躍的に増大します。そこで、分散型設計の登場です。リソースは低密度のラックに分散され、光インターコネクトを介して接続され、低遅延で高帯域幅の通信を実現します。

GB300のようなAIサーバーにとって、なぜこれが重要なのでしょうか?分散化は、大規模なAIトレーニングの弾力性を高め、単一ラックの電力と冷却の限界を回避し、光学技術を活用して電気的なボトルネックを解消します。これは、AIおよびHPCワークロードの効率性を追求するハイパースケールデータセンターにとって、画期的なイノベーションです。

オープン ラック標準の詳細については、AMD の「Helios」と Meta の 2025 OCP Dual-Wide Open Rack に関する最近の考察をご覧ください。

未来は分散化だ

GB300 NVL72 密度: 1UにCPU 2基とGPU 4基を搭載

クレメンテコンピュートトレイの全体図

GB300エコシステムの中心となるのはNVL72構成であり、MetaのClementeコンピュートトレイは優れた密度を実現します。この1OUトレイには、 2つのNVIDIA GB300 HPMモジュールそれぞれにGrace ARM CPU 1基とB300 GPU 2基が搭載されています。つまり、1Uスロット1つに合計4基のGPUが搭載されており、従来のGB200 Catalina(1UあたりGPU 2基)と比べて密度が2倍になっています。

Clemente Compute Trayの正面図

正面図と接続の内訳

Clemente のフロント パネルは接続ハブです。

  • スケールアウトネットワーク: 高速 AI ファブリック用の 4x 800G OSFP ポート。
  • マネジメント: 下のDC-SCMモジュール。
  • 追加I/O: 左側に 2 つの 400G ポート、右側に高速ストレージ用の 4 つの E1.S NVMe SSD ベイ。

電力密度は?トレイのTDPは約4,200Wで、ピーク時には最大7,740Wに達します。そのため、強力な冷却が必要になりますが、これについては次に説明します。

ブロック図: GB300 Clemente アーキテクチャの内部

真の魔法はブロックダイアグラムで明らかになります。参考までに、GB200 Catalina(CX8 NIC対応版)との簡単な比較を以下に示します。

  • CPU-GPU相互接続各Grace CPUは、NVLink C2Cを介して2つのB300 GPUに接続します。2つのGraceはClink x12を介して接続され、B300はGPU間の通信にNVLink 5を使用します。
  • ネットワーク能力CX8 NICは800Gポートを1つ備え、CPU(Gen5 x16)、GPU(Gen6 x16)、SSD接続用のPCIeスイッチを統合しています。また、管理用のPCIe x1エンドポイントとしても機能します。Graceには専用のCX7 NICが1つずつ搭載されています。 400g Nic (Gen5 x16)、プライマリ Grace0 は PCIe Gen5 x4 経由で BMC にリンクします。

この設定により、AI スーパーノードでのシームレスなデータフローが保証され、大規模なモデルのトレーニングにおけるボトルネックを最小限に抑えることができます。

互換性: 21インチオープンラックの19インチシャーシ

ClementeはOCPのルーツを忠実に再現しています。標準の19インチラックに収まる1RUトレイで、21インチOpen Rack V3 HPRフレーム用アダプタを備えています。寸法と重量は容易に設置できるよう最適化されています。正確な重量は仕様図をご確認ください(通常、無積載状態で30kg未満)。

19インチRUを21インチOUに適合させるキャニスターアセンブリ

ここでは分割冷却アプローチが優れています。低熱コンポーネントには空冷 (図の左側)、高温のコンポーネントにはコールドプレートによる液体冷却 (右側) を使用します。

低発熱部品の空冷

液体冷却の基本:チャンネルアイランド設計

メタのチャンネル島 液体冷却 負荷状態でもTDPをフルに発揮するように設計されています。GB300 Clementeの主な仕様:

  • クーラント: Dow の Frost LC-25 のような 25% プロピレングリコール (PG25) ブレンド。
  • 供給温度: 標準40°C(最大偏差42°Cまで)。
  • 流量と圧力: 15 psi デルタで最大 140 LPM。
  • デルタT: 全負荷時の温度は 10 ~ 12°C、1.25 ~ 1.5 LPM/kW に相当します。

これにより、B300 GPU (それぞれ約 1,100W TDP) と Graces が冷却され、サーマル スロットリングなしで AI パフォーマンスを持続できるようになります。

空冷仕様

空冷式周辺機器の場合、標準ファン曲線が基準となりますが、密度に関しては液体が主流となります。

電力供給: 50V入力から200kWラックまで

電力面では、ClementeはGB200の48V入力から50V入力に昇圧し、CPUとGPUのVRM用に12Vにダウンコンバートします。NVL72ラック(Clementeトレイ18台)では、スイッチ、コンデンサ、損失を考慮すると、合計約200kWの電力を消費します。(プロのヒント:安定したAI電源のためのGB300 NVL72の新機能についてはこちらをお読みください。)

安定したAIパワーを実現するNVL72の新機能

スケールに関する注記:

  • 液冷キャビネットの電力は、多くの場合 40 ~ 200kW 以上になります (データ センターの専門家による)。
  • 将来のデュアルワイド ラック (例: Alibaba の Panjiu) は 650kW 以上を目指します。

DC-SCM モジュールとは?監視用の AST2600 チップと CPLD を備えたシンプルな BMC セットアップです。

まとめ: GB300 Clemente が AI データセンターにとって重要な理由

Clemente経由のMetaのGB300液冷AIサーバーは、単に高密度なだけでなく、分散型で光学的にリンクされたAIの未来の青写真です。1U 4基のGPU、効率的な冷却、そしてOCP互換性を備え、2026年以降のハイパースケーラーに最適です。AIラックが900kW以上の限界に挑戦する中、このような設計は妥協のない拡張性を保証します。

DC-SCMのブロック図

FiberMallは、コスト効率の高い光通信製品とソリューションを通じて、これらのエコシステムを強化することに尽力しています。AI対応ネットワークのリーダーとして、データセンター、クラウド、エンタープライズ環境向けにカスタマイズされた高品質のトランシーバー、ケーブル、モジュールを提供しています。NVLinkファブリックの統合から分散型ラック向けの光インターコネクトまで、FiberMallがあらゆるニーズに対応します。お客様に合わせたアドバイスについては、公式ウェブサイトをご覧ください。または、サポートチームまでお問い合わせください。

上へスクロール