RoCEv2 の解説: AI データセンターにおける低遅延・高スループットネットワークの究極ガイド

急速に進化する世界では、 AIトレーニング、ハイパフォーマンス コンピューティング (HPC)、クラウド インフラストラクチャでは、ネットワーク パフォーマンスは単なるサポート役ではなく、ボトルネックを解消する役割を担っています。 RoCEv2 (RDMA over Converged Ethernetバージョン2)は、構築のためのプロトコルとして登場しました。 ロスレスイーサネットネットワーク 超低レイテンシ、膨大なスループット、そして最小限のCPUオーバーヘッドを実現するRoCEv2。AIモデルが数兆個のパラメータにまで拡張される中、RoCEv2はLlama 3以降の画期的な成果を支える大規模GPUクラスターを支えています。

この包括的なガイドでは、 RoCEv2の技術原理最適化戦略、導入のベストプラクティス、そして将来のトレンドについて解説します。 ワンカードAIクラスター またはデータセンターを最適化する場合、2026 年には RoCEv2 を理解することが不可欠です。

RoCEv2の技術原理
Metaの大規模なRoCEベースのAIトレーニングクラスターは、最新のロスレスイーサネットで実現可能なスケールを示しています。

Meta の大規模な RoCE ベースの AI トレーニング クラスターは、最新のロスレス イーサネットで実現可能なスケールを示しています。

RDMA とは何ですか? なぜ重要なのですか?

リモート ダイレクト メモリ アクセス (RDMA) CPU、OSカーネル、複数のデータコピーを介さずに、あるコンピュータのメモリから別のコンピュータへデータを直接移動できます。これにより、従来のTCP/IPスタックのオーバーヘッドが回避され、レイテンシが数十マイクロ秒からサブマイクロ秒レベルにまで大幅に短縮され、CPUサイクルが実際の計算に解放されます。

従来の TCP/IP ネットワークには次のような問題があります。

  • 複数のコンテキストスイッチとデータのコピー
  • プロトコル処理におけるCPU使用率が高い
  • 帯域幅に応じてスケーリングが不十分な固定遅延

RDMAはこれらを排除し、 ゼロコピー, カーネルバイパス, CPUオフロードGPU がギガバイト単位の勾配を瞬時に交換する必要がある AI ワークロードに最適です。

従来のTCP IPネットワーク
RDMAと従来のTCP IPデータパス

視覚的な比較: RDMA と従来の TCP/IP データ パス - コピーと CPU の関与が大幅に減少していることがわかります。

RoCEv2: 主流の RDMA プロトコル

主な RDMA 実装は 3 つあります。

  • インフィニバンド(IB): 専用ハードウェアを使用したネイティブ RDMA - パフォーマンスは優れていますが、コストが高く、エコシステムが閉じています。
  • アイワープ: TCP ベースの RDMA - 信頼性は高いが、複雑でリソースを大量に消費します。
  • RoCEv2: 標準イーサネット経由の UDP/IP ベースの RDMA - ルーティング可能、コスト効率が高く、パフォーマンスに優れています。

RoCEv1 レイヤー 2 ネットワーク (Ethertype 0x8915) に制限され、単一のサブネットに制限されていました。 RoCEv2 (2014 年リリース) UDP/IP ヘッダー (ポート 4791) を追加し、レイヤー 3 ルーティングと大規模なスケーラビリティを実現します。

現在、RoCEv2 が主流となっている理由は次のとおりです。

  • 既存のイーサネット インフラストラクチャと互換性があります (RoCE 対応の NIC のみ必要)
  • InfiniBandよりも低コスト
  • 同等のパフォーマンス: テストでは、BF16 精度の 7B パラメータなどのモデルの場合、IB と RoCEv2 のトレーニング時間はほぼ同じであることが示されています。

Meta (Llama 3 向け 24,000 個の H100 GPU) などの大手企業や中国の大手ベンダーは、超大規模 AI ファブリックに RoCEv2 を選択しています。

Llama 3 向け H100 GPU 24,000 個
一般的な RoCEv2 パケット構造とネットワーク図。

一般的な RoCEv2 パケット構造とネットワーク図。

RoCEv2の主要な技術原理

ロスレスイーサネット:基盤

RoCEv2の要求 パケット損失ゼロRDMAには信頼性の低いトランスポートに対する再送信機能が組み込まれていないため、従来のイーサネットでは輻輳時にパケットがドロップされますが、これはRDMAでは許容されません。

ソリューション:

  • PFC(優先フロー制御): 他のトラフィック クラスに影響を与えずにバッファ オーバーフローを防止するための、優先度ごとの一時停止フレーム。
  • ECN(明示的輻輳通知): 輻輳ポイントでパケットをマークし、エンドポイントでレートをプロアクティブに削減します。
  • DCQCN (データセンター量子化輻輳通知): ECN とレート調整を組み合わせることで、公平で利用率の高い輻輳制御を実現します。

高度な実装では、AI 駆動型のチューニング (トラフィック パターンに基づく動的 ECN しきい値など) が追加されます。

高度な実装によりAI駆動のチューニングが追加
RoCE ファブリックでのロスレス動作を保証する PFC および ECN メカニズム。

RoCE ファブリックでのロスレス動作を保証する PFC および ECN メカニズム。

交通渋滞管理

  • 異なるトラフィックタイプに対する優先キュー
  • WFQ(Weighted Fair Queuing)やWRRのようなスケジューリング
  • AI固有のフローのQoS設定(例:AllReduce vs. P2P)

AIクラスターの場合:

  • データパラレル(DP): 高帯域幅のAllReduce操作
  • パイプラインパラレル(PP): 遅延に敏感な送受信

POD (配送ポイント) を大きくすると、スパイン間のトラフィックと混雑が最小限に抑えられます。

RoCEv2 vs. InfiniBand: イーサネットが勝利する理由

私達の ウルトラ イーサネット コンソーシアム (UEC)2023年にMeta、Intel、Cisco、AMDなどのメンバーによって設立されたこの組織は、イーサネットの優位性を示唆しています。イーサネットポートの速度(400G/800G/1.6T)はIBを上回り、業界規模でのイノベーションを推進しています。

パフォーマンスの同等性:

  • エンドツーエンドのレイテンシは同等
  • RoCE はクラウド/マルチテナント用の VXLAN をサポートします (IB はサポートしません)

コストの利点: NIC のみをアップグレードして RoCE に切り替えます。IB 全体を交換する必要はありません。

展開戦略: 最大スケールを実現するマルチレール

AIクラスターでは、 マルチレール このデプロイメントでは、各サーバーの 8 つの GPU を個別のリーフ スイッチに接続し、POD サイズを最大化し、POD 間の輻輳を軽減します。

大容量の Leaf スイッチの例:

  • 51.2T リーフ: マルチレールは POD あたり 512 x 400G カード (数千の GPU) をサポートします
  • シングルレールではカードが約64枚に制限され、POD間のトラフィックが8倍以上に増加します。

スパイン/リーフまたは 3 層トポロジと組み合わせたマルチレールでは、1:1 オーバーサブスクリプションの WAN カード (10k 以上) クラスターが可能になります。

マルチレール トポロジにより、より大規模で混雑の少ない POD が可能になります。

大規模な分散 AI トレーニングのための RoCE ネットワーク – エンジニアリング …

マルチレール トポロジにより、より大規模で混雑の少ない POD が可能になります。

H3CのRoCEv2ソリューション:インテリジェントロスレスネットワークをリード

H3C(新H3Cグループ)はエンドツーエンドで RoCEv2 データセンターソリューション中国の国立研究所や商用 AI センターに電力を供給しています。

主な製品:

  • S12500シリーズ コアスイッチ(最大800Gポート)
  • S9827/S6890 高密度リーフ(400G/800G用)
  • 1K 未満から 512K GPU までの完全なポートフォリオ

イノベーション:

  • AD-DC シアファブリック: 自動化された展開、視覚化、および運用のための AI を活用した管理プラットフォーム。
  • AI ECN: 強化学習により、ECN しきい値が動的に最適化されます。
  • ワンクリックの事前トレーニング検証: 接続、パフォーマンステスト、NCCL テストを数日ではなく数時間で実行。

実際のケース:

  • 国立研究所: 400G RoCE 搭載の NV GPU 2120 台
  • WAN カード クラスター: 16,000 個以上の GPU、マルチベンダー (NVIDIA、Huawei、国内)
  • エンタープライズ: 3つのネットワークの統合によるIBロックインの打破
大規模な RoCE 導入をサポートする H3C 高性能データ センター スイッチ。

大規模な RoCE 導入をサポートする H3C 高性能データ センター スイッチ。

AD-DCによる自動化運用

従来の展開: 数千のケーブル/IP を手動で構成するのに数週間かかります。

H3C AD-DC:

  • 意図に基づいたワンクリックプロビジョニング
  • エンドツーエンドのトポロジ可視化(GPUからNIC、スイッチまで)
  • 数分で障害を検出(配線エラー、PFCストーム)
  • トレーニング中のモニタリング: RTT、ECN マーク、輻輳ヒートマップ
  • 光モジュールの健全性予測

結果: 導入は数週間から数日に、トラブルシューティングは数日から数分に短縮されました。

最高のパフォーマンスを実現するための最適化戦略

  1. Hardware: ジャンボ フレーム (9000 MTU)、大容量バッファ、RoCE 対応 NIC (ConnectX シリーズまたは同等品など)。
  2. ネットワーク: RoCE 優先度、ECN マーキング、ECMP ロード バランシングで PFC を有効にします。
  3. 用途: 小さなメッセージをバッチ処理し、読み取りよりも RDMA 書き込みを優先します。
  4. セキュリティ: 暗号化のための IPsec、VLAN 分離、ハードウェア監視。
  5. チューニング: インキャスト シナリオ向けの AI 駆動型輻輳制御。

RoCEv2の将来動向(2026年以降)

  • ウルトライーサネット: テールレイテンシをさらに低減するための機能強化。
  • 800G/1.6T ポート: 2025~2026 年の展開で標準となります。
  • ネットワーク内コンピューティング: 集約/削減をスイッチにオフロードします。
  • マルチベンダー相互運用性: 独自のサイロを破壊するオープン エコシステム。
  • AIネイティブファブリック: トラフィックパターンを予測する自己最適化ネットワーク。

AI モデルが成長するにつれて (たとえば、GPT-4 は数兆個のトークンでスケールします)、RoCEv2 のルーティング可能なロスレス設計が中心的な位置を占め続けるでしょう。

結論: 次世代AIインフラストラクチャにRoCEv2を採用する

RoCEv2は単なるアップグレードではありません。スケーラブルで効率的なAIデータセンターの基盤となるものです。InfiniBandに匹敵するパフォーマンスをわずかなコストで実現し、H3Cなどのリーダー企業が提供するインテリジェントなソリューションを活用することで、組織はより迅速かつ低コストでモデルのトレーニングを実現するWANカードクラスターを構築できます。

展開する準備ができました RoCEv2ロスレスファブリック設計、マルチレールトポロジ、そして自動管理から始めましょう。高性能ネットワークの未来はイーサネットであり、RoCEv2がその先駆けです。

上へスクロール