RDMA とは何ですか?

周知のように、インターネット データの爆発的な増加は、データ センターの処理能力に大きな課題をもたらしました。

コンピューティング、ストレージ、ネットワークは、データセンターの発展を促進する XNUMX つの原動力です。

CPU、GPU、FPGA の発達により、演算能力は大幅に向上しました。 ストレージ ソリッド ステート ドライブ (SSD) の導入により、データ アクセスの待ち時間が大幅に短縮されました。

しかし、ネットワークの開発は明らかに遅れており、伝送遅延が大きく、徐々にデータセンターのパフォーマンスのボトルネックになっています。

計算力が大幅に向上

データセンターでは、トラフィックの 70% が East-West トラフィック (サーバー間のトラフィック) です。 このトラフィックは、通常、データ センターでの高性能分散並列コンピューティング中にデータ フローを処理し、TCP/IP ネットワークを介して送信されます。

サーバー間の TCP/IP 転送速度が向上すると、データ センターのパフォーマンスも向上します。

トラフィックの 70% は東西トラフィック

サーバー間の TCP/IP 転送

サーバー A がデータ センター内のサーバー B にデータを送信するプロセスは次のとおりです。

サーバー間の TCP/IP 転送

  1. CPU 制御データは、A の APP バッファからオペレーティング システムのバッファにコピーされます。
  2. CPU 制御データ TCP および IP ヘッダーをオペレーティング システム (OS) バッファーに追加します。
  3. TCP および IP パケット ヘッダーを追加してデータを NIC に送信し、イーサネット パケット ヘッダーを追加します。
  4. パケットはネットワーク アダプターによって送信され、イーサネット ネットワークを介してサーバー B のネットワーク アダプターに送信されます。
  5. サーバー B のネットワーク アダプターは、パケットのイーサネット ヘッダーをアンロードし、オペレーティング システムのバッファーに転送します。
  6. CPU は、オペレーティング システムのバッファにある TCP および IP パケット ヘッダーをアンロードします。
  7. CPU は、アンインストールされたデータの APP バッファへの転送を制御します。

データ送信プロセスからわかるように、データはサーバーのバッファーに数回コピーされ、オペレーティング システムで TCP および IP ヘッダーを追加またはアンインストールする必要があります。 これらの操作は、データ転送の遅延を増加させるだけでなく、大量の CPU リソースを消費するため、高性能コンピューティングの要件を満たすことができません。

では、高スループット、超低遅延、低 CPU オーバーヘッドを備えた高性能データセンター ネットワークを構築するにはどうすればよいでしょうか?

RDMA テクノロジーがそれを可能にします。

RDMAとは

リモート ダイレクト メモリ アクセス (RDMA) は、オペレーティング システムや CPU による時間のかかる処理を行うことなく、サーバーが他のサーバーからメモリ データを高速で読み書きできるようにする新しいメモリ アクセス テクノロジです。

RDMA は新しいテクノロジではなく、ハイ パフォーマンス コンピューティング (HPC) で広く使用されています。 データセンターでの高帯域幅と低遅延に対する開発需要に伴い、RDMA は、データセンターに高いパフォーマンスを必要とするいくつかのシナリオで徐々に適用されています。

たとえば、2021 年には、大規模なオンライン モールのショッピング フェスティバルの取引額が 500 億元を超え、10 年に比べて 2020% 近く増加しました。このような巨大な取引額の背後には、大量のデータ処理があります。 このオンライン モールは、RDMA テクノロジを使用して高性能ネットワークをサポートし、スムーズなショッピング フェスティバルを実現します。

低レイテンシーのための RDMA のトリックのいくつかを見てみましょう。

RDMA はサーバー アプリケーション データをメモリからインテリジェント ネットワーク カード (INIC) に直接転送し (固定化された RDMA プロトコル)、INIC ハードウェアは RDMA 転送パケットのカプセル化を完了し、オペレーティング システムと CPU を解放します。

INIC ハードウェアが RDMA 転送パケットのカプセル化を完了し、オペレーティング システムと CPU を解放します。

これにより、RDMA には次の XNUMX つの大きな利点があります。

  • ゼロコピー: オペレーティング システム カーネルにデータをコピーしてパケット ヘッダーを処理する必要がなくなるプロセスで、伝送遅延が大幅に短縮されます。
  • カーネル バイパスとプロトコル Off負荷: オペレーティング システム カーネルは関与せず、データ パスに複雑なヘッダー ロジックはありません。 これにより、待ち時間が短縮され、CPU リソースが大幅に節約されます。

RDMAにはXNUMXつの大きな利点があります

XNUMX つの主要な RDMA ネットワーク

現在、RDMA ネットワークには XNUMX つのタイプがあります。 、RoCE (RDMA over Converged Ethernet)、および iWARP (RDMA over TCP)。

RDMA は元々、ハードウェア レベルで信頼性の高いトランスポートを確保するために Infiniband ネットワーク アーキテクチャ専用でしたが、RoCE と iWARP はイーサネット ベースの RDMA テクノロジです。

  • InfiniBand は、RDMA 専用に設計されたネットワークです。
  • カットスルー転送モードを採用し、転送遅延を低減します。
  • クレジットベースのフロー制御メカニズムにより、パケット損失がありません。
  • ネットワーク構築コストが最も高いInfiniBandの専用ネットワークアダプター、スイッチ、ルーターが必要です。

RoCE

  • トランスポート層は InfiniBand プロトコルです。
  • RoCE には 1 つのバージョンがあります。RoCEv2 はイーサネット リンク レイヤーに実装され、レイヤー L2 でのみ送信できます。 RoCEv3 は UDP ベースの RDMA をホストし、レイヤー XNUMX ネットワークに展開できます。
  • RDMA 専用のインテリジェント ネットワーク アダプターをサポートし、専用のスイッチとルーターを必要とせず (ECN/PFC テクノロジをサポートし、パケット損失率を低減)、ネットワーク構築コストを最小限に抑えます。

アイワープ

  • トランスポート層は iWARP プロトコルです。
  • iWARP は、イーサネット TCP/IP プロトコルの TCP 層に実装され、L2/L3 層での伝送をサポートします。 大規模なネットワークでの TCP 接続は CPU を大量に消費するため、ほとんど使用されません。
  • iWARP は、RDMA をサポートするためのネットワーク アダプターのみを必要とし、プライベート スイッチとルーター、および InfiniBand と RoCE 間のコストは必要ありません。

高度なテクノロジーを備えていますが、価格が高いため、Infiniband は HPC ハイパフォーマンス コンピューティングに限定されています。 RoCE と iWARPC の出現により、RDMA のコストが削減され、RDMA テクノロジが普及しました。

これら XNUMX 種類の RDMA ネットワークを高性能ストレージおよびコンピューティング データ センターで使用すると、データ転送の待ち時間が大幅に短縮され、アプリケーションの CPU リソースの可用性が向上します。

InfiniBand ネットワークは、Ethernet デバイスよりも 100 桁低い XNUMX ナノ秒という低い伝送遅延で、データ センターに極端なパフォーマンスを提供します。

RoCE および iWARP ネットワークは、構築コストをあまりかけずに、RDMA の高性能と低 CPU 使用率を最大限に活用して、データ センターとホスト RDMA over Ethernet に高コスト パフォーマンスをもたらします。

UDP ベースの RoCE は、TCP ベースの iWARP よりも優れたパフォーマンスを発揮し、ロスレス イーサネット フロー制御技術と組み合わせることで、パケット損失感度の問題を解決します。 RoCE ネットワークは、さまざまな業界の高性能データ センターで広く使用されています。

まとめ

5G、人工知能、産業用インターネット、およびその他の新しい分野の発展に伴い、RDMA テクノロジーのアプリケーションはますます普及し、RDMA はデータセンターのパフォーマンスに大きく貢献します。

コメント

上へスクロール