RoCEとは何ですか?

RoCE は、RDMA over Converged Ethernet として知られています。 したがって、RoCE を理解する前に、RDMA をテクノロジーとして認識することが重要です。

RDMA とは何ですか?

RDMA (リモート ダイレクト メモリ アクセス) は、最小限の CPU 占有率で、あるサーバーから別のサーバーに、またはストレージからサーバーにデータを送信できます。 データを送信するには、従来のアプリケーションはオペレーティング システムを通過して TCP/IP をパッケージ化し、その後メイン キャッシュ、NIC キャッシュを通過して、最終的に送信される必要がありました。 これにより、XNUMX つの制限が生じます。

制限 1: TCP/IP スタック処理により、数十マイクロ秒の遅延が発生します。 TCP プロトコル スタックがメッセージを送受信するとき、カーネルは複数のコンテキスト スイッチを実行する必要があり、そのたびに 5 ~ 10 マイクロ秒を消費します。 さらに、少なくとも XNUMX つのデータ コピーとプロトコルの動作が CPU に依存します。 これは、プロトコル処理だけでは数十マイクロ秒の固定遅延が発生することを意味します。 プロトコル スタックの遅延が最も明らかなボトルネックになります。

制限事項 2: TCP プロトコル スタックで処理すると、サーバーの CPU に高負荷がかかります。 固定遅延が長くなるという問題に加えて、TCP/IP ネットワークでは、ホスト CPU がプロトコルのメモリ コピーに複数回参加する必要があります。 ネットワークのサイズが大きくなり、ネットワーク帯域幅が広くなるほど、データの送受信時に CPU にかかるスケジューリングの負担が大きくなり、CPU 負荷が継続的に高くなり続けます。

データセンターでは、超大規模な分散コンピューティング ストレージ リソース間のネットワーク相互接続に従来の TCP/IP が使用されている場合、システムのコンピューティング リソースが大量に消費され、IO ボトルネックが発生し、より高度なネットワーク要求を満たせなくなります。スループットと待ち時間の短縮。

従来のモードから rdma モードへ

RDMA は、ネットワーク相互接続テクノロジーです。 off高帯域幅、低遅延、低 CPU 消費量です。 このテクノロジーは、従来の TCP/IP ネットワーキングに一般的に伴う障害の多くを克服します。

リモート: ネットワーク内の XNUMX つのノード間で転送されるデータを指します。

直接: カーネルの関与は必要ありません。 すべての送信処理は、 offNIC (ネットワーク インターフェイス カード) ハードウェアにロードされます。

メモリ: データは、追加のコピーやキャッシュを必要とせず、両方のノード上のアプリケーションの仮想メモリ間で直接転送されます。

アクセス: アクセス操作には、送信/受信、読み取り/書き込みなどが含まれます。

TCP/IPと比較すると、 RDMA コンピューティング リソースの使用量が削減され、データ転送速度が向上します。

RDMA のカーネル バイパス メカニズムにより、アプリケーションと NIC の間で直接データの読み取り/書き込みが可能になり、サーバー内のデータ転送遅延が 1 マイクロ秒近くに短縮されます。 また、RDMA のゼロコピー メカニズムにより、受信側は送信側のメモリからデータを直接読み取ることができるため、CPU の負荷が大幅に軽減され、CPU 使用率が向上します。

RDMA を使用すると、次のような利点があります。

  • ゼロ コピー: RDMA アプリケーションは、カーネル ネットワーク スタックをバイパスしてデータを直接転送できるため、アプリケーションのユーザー空間メモリからカーネル ネットワーク スタック メモリ空間にデータをコピーする必要がなくなります。
  • カーネル バイパス: RDMA アプリケーションはユーザー モードから直接データ送信を開始できるため、カーネル モードとユーザー モードの間でコンテキストを切り替える必要がなくなります。
  • CPU offロード: RDMA は、リモート ホスト上の CPU リソースを消費せずに、リモート ホストのメモリに直接アクセスできます。 これにより、リモート ホストの CPU はその特権に集中し、キャッシュの混乱を回避し、大規模なメモリ アクセス データのオーバーフローを防ぐことができます。

RoCEとは何ですか?

2010 年以降、IBTA が RDMA over Converged Ethernet (RoCE) を実行するための最初の仕様をリリースしたとき、RDMA はますます注目を集めました。 ただし、RoCE カプセル化フレームにはルーティング機能がなかったため、初期の仕様では RoCE の導入が単一のレイヤ 2 ドメインに限定されていました。 2014 年に、IBTA は RoCEv2 をリリースしました。これは、初期の RoCE 仕様を更新して、レイヤー 3 ネットワーク全体のルーティングをサポートし、大規模なデータセンター ネットワークやエンタープライズ データセンターにより適したものになりました。

RoCE

RDMA プロトコルには、Infiniband (IB)、Internet Wide Area RDMA Protocol (iWARP)、および RDMA over Converged Ethernet (RoCE) が含まれます。

  • : RDMA を念頭に置いて設計されており、物理リンク層、ネットワーク層、トランスポート層を再設計して、ハードウェア レベルで信頼性の高い伝送を確保し、より高い帯域幅とより低い遅延を実現します。 ただし、高価であり、IB ネットワーク カードとスイッチが必要です。
  • アイワープ: TCP ベースの RDMA ネットワーク。TCP を使用して信頼性の高い伝送を実現します。 RoCE と比較すると、大規模ネットワークの場合、iWARP の多数の TCP 接続は大量のメモリ リソースを消費し、より高いシステム仕様が必要になります。 通常のイーサネット スイッチを使用できますが、iWARP をサポートするネットワーク カードが必要です。
  • RoCE: RDMA はイーサネットに基づいており、RoCEv1 バージョンはネットワーク リンク層に基づいており、ネットワーク セグメントを越えることはできず、基本的にアプリケーションはありません。 RoCEv2 は UDP に基づいており、ネットワーク セグメントをまたがることができ、拡張性が高く、優れたスループットと遅延パフォーマンスを実現できるため、大規模に採用されているソリューションです。 RoCE は、iWARP よりも消費するリソースが少なく、iWARP よりも多くの機能をサポートします。 通常のイーサネット スイッチを使用できますが、RoCE をサポートするネットワーク カードが必要です。
RDMA アプリケーション

RoCE が主流の RDMA プロトコルなのはなぜですか?

まず、iWARP について話しましょう。 iWARP プロトコル スタックは他の XNUMX つよりも複雑で、TCP の制限により、信頼性の高い送信しかサポートできません。 したがって、iWARP の開発は RoCE や Infiniband ほど良くありません。

Infiniband プロトコル自体は、リンク層からトランスポート層までの一連の新しい階層アーキテクチャを定義しますが、これは既存のイーサネット デバイスと互換性がありません。 たとえば、データセンターがイーサネットからイーサネットに切り替えたい場合、 インフィニバンド パフォーマンスのボトルネックのため、ネットワーク カード、ケーブル、スイッチ、ルーターなどを含む Infiniband デバイスのフルセットを購入する必要があり、コストがかかりすぎます。

RoCE プロトコルの利点はここで非常に明白です。 ユーザーは、RoCE をサポートするネットワーク カードを購入するだけで Ethernet から RoCE に切り替えることができ、他のネットワーク デバイスも互換性があります。 したがって、Infiniband に対する RoCE の主な利点は、コストが低いことです。

RoCEプロトコルの利点

RoCEv1

2010 年 1 月に、IBTA は Infiniband アーキテクチャ仕様の補遺として発行された RoCE をリリースしたため、IBoE (InfiniBand over Ethernet) とも呼ばれます。 現時点では、RoCE 規格はイーサネット リンク層上の TCP/IP ネットワーク層の代わりに IB ネットワーク層を使用していたため、IP ルーティング機能はサポートされていませんでした。 RoCE V0 プロトコルのイーサネット層の typeID は 8915xXNUMX です。

RoCE では、Infiniband リンク層プロトコル ヘッダーが削除され、アドレスを示すために使用される GUID がイーサネット MAC に変換されます。 Infiniband はロスレス物理伝送に依存しており、RoCE もロスレス イーサネット伝送に依存しているため、イーサネットの展開にコストと管理オーバーヘッドが生じます。

イーサネットのロスレス伝送は、PFC (Priority Flow Control) などの L2 QoS サポートに依存する必要があります。 バッファ プールがしきい値を超えると、受信側は送信側にポーズ フレームを送信します。 ポーズ フレームを受信すると、送信側の MAC 層は自動的に送信速度を下げます。 この要件は、エンド、スイッチ、ルータを含む伝送リンク全体のすべてのノードが L2 QoS をサポートする必要があることを意味します。サポートしないと、リンク上の PFC が両端で効果的な役割を果たすことができません。

RoCEv2

RoCEv1のデータフレームにはIPヘッダがないため、L2サブネット内でのみ通信可能です。 この問題を解決するために、IBTA は 2 年に RoCEv2014 を拡張し、GRH (Global Routing Header) を UDP ヘッダー + IP ヘッダーに置き換えた RoCE V1 を提案しました。 拡張フレーム構造を次の図に示します。 RoCE v1 と RoCE v2 については、次の XNUMX つの点に注意してください。

  • RoCE v1 (レイヤー 2) はイーサネット リンク層 (レイヤー 2) で動作するため、イーサタイプ 0x8915 であるため、通常のフレーム サイズは 1500 バイト、ジャンボ フレームは 9000 バイトです。
  • RoCE v2 (レイヤー 3) は UDP/IPv4 または UDP/IPv6 (レイヤー 3) 上で動作し、送信に UDP ポート 4791 を使用します。 RoCE v2 パケットはレイヤー 3 でルーティングできるため、ルータブル RoCE または単に RRoCE と呼ばれることもあります。
RoCE v1 (レイヤー 2) はイーサネット リンク層 (レイヤー 2) 上で動作します。

RDMA では、大幅なパフォーマンスの低下を回避するためにパケットロスレスネットワークが必要であるため、RoCE テクノロジは、パケットロスゼロを保証するために、PFC、ECN、および DCQCN テクノロジを使用して従来のイーサネットネットワークをロスレスイーサネットネットワークに変換する必要があります。

roceのロスレスネットワーク

PFC: 優先順位ベースのフロー制御。 PFC は、さまざまなタイプのトラフィックに対してホップごとの優先順位ベースのフロー制御を提供します。

パケットを転送するとき、デバイスは、優先度マッピング テーブルでパケットの優先度を検索することにより、スケジューリングと転送のためにパケットをキューに割り当てます。 802.1p 優先パケットの送信レートが受信レートを超え、受信側のデータ バッファ スペースが不十分な場合、受信側は PFC ポーズ フレームを送信側に送信します。 送信者が PFC ポーズ フレームを受信すると、送信者は PFC XON フレームを受信するか、エージング タイマーがタイムアウトになるまで、指定された 802.1p 優先順位を持つパケットの送信を停止します。 PFC を設定する場合、特定のタイプのパケットの輻輳は、他のタイプのパケットの通常の転送には影響しません。

ECN: 明示的な輻輳通知。 ECN は、IP 層とトランスポート層に基づいて、トラフィック制御とエンドツーエンドの輻輳通知メカニズムを定義します。 デバイスが輻輳している場合、ECN はパケットの IP ヘッダーの ECN フィールドをマークします。 受信側は輻輳通知パケット (CNP) を送信して、送信速度を遅くするよう送信側に通知します。 ECN はエンドツーエンドの輻輳管理を実装し、輻輳の拡大と悪化を軽減します。

PFC ECN

DCQCN (データセンター量子化輻輳通知): 現在、RoCEv2 ネットワークで最も広く使用されている輻輳制御アルゴリズム。 QCN アルゴリズムと DCTCP アルゴリズムが統合されており、データセンター スイッチが WRED と ECN をサポートする必要があります。 DCQCN は、より優れた公平性を提供し、高い帯域幅利用率を実現し、低いキュー バッファ占有率を確保し、キュー バッファのジッターを低減します。

現在、多くのメーカーが独自のロスレス ネットワーク ソリューションを持っています。

Huawei社

ファーウェイの iLossless インテリジェント・ロスレス・アルゴリズム・ソリューションは、人工知能を活用してネットワークの輻輳スケジューリングとネットワークの自己最適化を実現する AI アルゴリズムです。 これは自動 ECN を中心としており、超高速データセンター スイッチに深層強化学習 (DRL) を導入します。 iLosslessインテリジェント・ロスレス・アルゴリズムに基づいて、ファーウェイはスーパーコンバージド・データセンター・ネットワーク・ソリューションCloudFabric 3.0をリリースし、インテリジェント・ロスレス時代を1.0に導きました。

2022年、ファーウェイのハイパーコンバージドデータセンターネットワークは、270万の大規模計算ハブネットワークを実現できるインテリジェントロスレスWeb計算統合技術と革新的な直接接続トポロジーアーキテクチャを提案した。 インテリジェントロスレス 25 に基づいて遅延をさらに 1.0% 削減できます。

Huawei Intelligent Lossless 2.0は、ネットワーク内コンピューティングとトポロジ認識コンピューティングに基づいており、ネットワークとコンピューティングの相乗効果を実現します。 ネットワークはコンピューティング情報の収集と同期に参加し、コンピューティング情報の同期回数を削減します。 同時に、スケジューリングを通じてコン​​ピューティング ノード付近でのコンピューティング タスクの完了を保証し、通信のジャンプを削減し、アプリケーションの遅延をさらに削減します。

H3C

H3C の AI ECN インテリジェント ロスレス アルゴリズムは、ネットワーク トラフィック モデル (N 対 1 モデルのトラフィック特性の中でも特に、インキャスト値、最大キュー深度、大規模フローと小規模フローの割合) を利用し、強化学習アルゴリズムを利用して、トラフィック モデルを備えた AI。 AI はネットワーク トラフィックの傾向をリアルタイムで感知して予測し、正確なキュー スケジューリングのために最適な ECN しきい値を自動的に調整します。 そうすることで、ネットワーク PFC 輻輳制御のトリガーを回避しながら、遅延に敏感な小さなフローとスループットに敏感な大きなフローの送信のバランスをとり、最適なネットワーク パフォーマンスを確保します。

H3C の AD-DC SeerFabric ロスレス ネットワーク ソリューションは、エッジクラウド AI 協調アーキテクチャに基づいています。 このソリューションは、業界の AI ECN チューニング アルゴリズムを革新および最適化し、H3C データセンター スイッチのローカル AI Inside 機能を組み合わせることで、パケット損失ゼロを保証しながらスループットを向上させ、遅延を短縮します。 これにより、正確なネットワーク サービスの品質と転送が保証されます。 さらに、きめ細かいインテリジェントな運用と保守を通じて、RoCE ネットワークのサービス エクスペリエンスを視覚化します。

インスパイア

2022 年 XNUMX 月、Inspur Networks は、RoCE テクノロジーをサポートするデータセンター イーサネット スイッチを中心とした典型的なロスレス イーサネット ソリューションを開始しました。 ソリューション off次のような利点があります。

1. コンピューティング、ストレージ、ネットワーキング、AIStation のシームレスな統合。 PFC や ECN などの輻輳管理テクノロジをサポートし、エンドツーエンドのロスレス、低遅延の RDMA ベアリング ネットワークの確立を可能にします。 スイッチの優れたバッファ利点により、バースト トラフィックをスムーズに吸収し、キャスト シナリオで TCP を効果的に処理できます。

2. プロアクティブな障害検出と自動フェイルオーバー。 RoCE-SAN ネットワークは、ストレージ操作と連携して、迅速な障害検出を行うことができます。 このスイッチは障害状態を迅速に検出し、関連するビジネス ドメイン内で通知メッセージをサブスクライブしているサーバーに通知できるため、冗長経路への迅速な切り替えが可能になり、ビジネスへの影響が軽減されます。 PFC デッドロックの問題が発生している大規模なロスレス イーサネット環境向けに、このソリューションは、自動デッドロック検出と回復のためのチップレベルの PFC デッドロック防止メカニズムを提供します。

3. プラグアンドプレイストレージ。 RoCE-SAN ネットワークは、デバイス サーバーとストレージ デバイスの組み込みを自動的に検出し、ストレージ デバイスとの接続を自動的に確立するようにサーバーに通知します。

コメント

上へスクロール