マスクの xAI 100,000 GPU クラスターに関する重要な洞察

マスク氏の xAI 100,000 GPU クラスターのプロモーション ビデオが最近オンラインで公開されました。Supermicro がスポンサーとなったこのビデオでは、データ センターの外国人専門家によるオンサイト紹介が特集されており、15 GPU クラスターのさまざまな側面について 100,000 分かけて説明しています。これらの側面には、展開密度、キャビネットの配置、液体冷却ソリューション、メンテナンス方法、ネットワーク カードの構成、スイッチの仕様、電源などが含まれます。ただし、ビデオでは、ネットワーク設計、ストレージ システム、トレーニング モデルの進捗状況についてはあまり明らかにされていません。XNUMX の重要な洞察を探ってみましょう。

世界最大のAIクラスター

大規模クラスタースケール

国内で一般的なクラスターは、通常 1,000 GPU (H128 システム 100 台に相当) で構成されますが、これとは対照的に、100,000 GPU クラスターは 100 倍の大きさで、約 12,800 台の H100 システムが必要となります。プロモーション ビデオでは、導入はわずか 122 日で完了したと宣伝されており、国内と海外の GPU クラスターの能力に大きな差があることが示されています。

大規模クラスタースケール

高い計算密度

動画では、H100 が 4U ラック設計を採用し、各キャビネットに 8 つのシステム、つまり 64 個の GPU が搭載されていることが示されています。キャビネットの列には 8 つのキャビネットが含まれ、512 列あたり 100,000 個の GPU が配置されます。200 GPU のクラスターは、約 1 列のキャビネットで構成されます。国内では、キャビネットごとに 2 ~ 100 台の H100 システムを配置するのが一般的で、各 H10.2 システムは 8 kW を消費します。80 台のシステムを展開すると XNUMX kW を超え、将来の高密度クラスター展開の参考になります。

高い計算密度

コールドプレート液体冷却の大規模導入

液体冷却技術は国内で長年開発されてきましたが、大規模に導入されることは稀です。動画では、100,000万GPUクラスターが現在主流のコールドプレート液体冷却ソリューションを採用し、GPUとCPUチップをカバーしている様子が紹介されています(メモリやハードドライブなどの他のコンポーネントは依然として空冷が必要です)。各キャビネットの下部にはCDU(冷却分配ユニット)があり、分散構成になっており、冗長ポンプにより単一障害によるシステム中断を防止します。

コールドプレート液冷の大規模導入

ネットワーク カードとネットワーク ソリューション – RoCE

ビデオではネットワーク トポロジーの詳細は説明されていませんが、各 H100 デバイスには 8 枚の Mellanox BFD-3 カード (各 GPU と対応する BFD-3 カードに 7 枚ずつ) と 400 枚の CXXNUMX XNUMXG ネットワーク カードが搭載されていると説明されています。これは現在の国内構成とは異なり、ビデオではこの設定について説明されていません。さらに、ネットワーク ソリューションでは、国内でより普及している IB ネットワークではなく RoCE を使用しています。これは、RoCE のコスト効率と大規模クラスターの処理における成熟度によるものと考えられます。Mellanox は、引き続きスイッチの選択肢として選ばれています。

ネットワーク カードとネットワーク ソリューション - RoCE

スイッチのモデルと仕様

このビデオでは、5600 個の 64G インターフェイスに変換可能な 800 個の 128G 物理インターフェイスを備えた NVIDIA Spectrum-x SN400 イーサネット スイッチというスイッチ モデルを紹介しています。この構成により、必要なスイッチの数が大幅に削減され、ネットワーク設計の将来のトレンドになる可能性があります。

スイッチのモデルと仕様

GPU サーバーのモジュールメンテナンス

H100 GPUの故障率は汎用サーバーに比べて大幅に高く、交換や修理がかなり難しいことは周知の事実です。動画では、GPUとCPUモジュールの引き出し式メンテナンスをサポートするSupermicroの4U H100プラットフォームが紹介されました。画像にあるように、ハンドルが付いており、サーバー全体を分解しなくても簡単に取り外してメンテナンスできるため、メンテナンス効率が大幅に向上します。

GPU サーバーのモジュールメンテナンス

キャビネットカラー表示灯

画像に示されているように、青い効果は、機器が正常に動作していることを示すと同時に、強い技術的感覚を与えます。キャビネットに問題が発生した場合、インジケータ ライトの色が変わるため、保守担当者は障害のあるキャビネットをすぐに特定できます。最先端の技術ではありませんが、非常に興味深く実用的です。

キャビネットカラー表示灯

汎用サーバーの継続的なニーズ

インテリジェント コンピューティング センター ソリューションの設計では、汎用サーバーが見落とされがちです。GPU サーバーが中核ではありますが、多くの補助管理タスクは依然として汎用サーバーのサポートを必要とします。ビデオでは、CPU コンピューティング パワーを提供する高密度 1U サーバーが、GPU ノードと競合することなく共存する様子が紹介されました。CPU ノードは主に管理関連のビジネス システムをサポートします。

汎用サーバーの継続的なニーズ

ストレージシステムの重要性

ビデオではストレージ システムの設計については詳しく説明していませんでしたが、インテリジェント コンピューティング センターに不可欠なこのモジュールについて簡単に紹介しました。ストレージはトレーニング システムのデータ ストレージをサポートするために重要であり、トレーニングの効率に直接影響します。そのため、インテリジェント コンピューティング センターでは通常、高性能の GPFS ストレージを選択して分散ファイル システムを構築します。

ストレージシステムの重要性

電力供給保証制度

動画では、100,000万GPUのクラスター専用に用意された大型バッテリーパックが紹介されました。電源システムはバッテリーパックに接続され、そこからクラスターに電力を供給するため、不安定な電力供給に伴うリスクが効果的に軽減されます。公開された情報はあまり多くありませんが、インテリジェントコンピューティングセンターシステムにとって信頼性の高い電源供給が重要であることを強調しています。

電力供給保証制度

続く:クラスターの継続的な拡張

ビデオは、100,000 万 GPU クラスターは単なるフェーズであり、システム エンジニアリングはまだ進行中であると述べて締めくくられました。

クラスターの継続的な拡大

コメント

上へスクロール