InfiniBand と RoCE の違いは何ですか?

データセンターネットワークアーキテクチャ

クロスバーアーキテクチャ

  • 初期の電話交換網 (クロスバー スイッチ) から派生したアーキテクチャの一種
  • 複数の入力ポート、複数の出力ポート、およびスイッチ マトリックスで構成されます。
  • 非常に柔軟で効率的で、異なるデバイス間の任意の接続を実現できます。
クロスバーアーキテクチャ

クロの建築

  • シャルル・クロという人物によって提唱され、1952年に誕生しました。
  • Clos アーキテクチャは、主に多段回線交換ネットワークの構造を記述します。
  • Clos アーキテクチャは、クロスバー構造を改良したもので、ノンブロッキング ネットワークを提供できます。 Clos の利点は、コストを節約し、効率を向上できることです。
クロの建築

ファットツリーアーキテクチャ

ファットツリーは CLOS ネットワーク アーキテクチャの一種です。

従来のツリー構造と比較すると、ファットツリーは根元近くの枝が太くなり、より本物の木に似ています。リーフからルートまで、ネットワーク帯域幅は収束しません。

基本的な考え方: 多数の低パフォーマンスのスイッチを使用して、大規模なノンブロッキング ネットワークを構築します。どのような通信パターンであっても、ネットワーク カードの帯域幅を達成できるパスが常に存在します。

ファットツリーアーキテクチャ

ファットツリー アーキテクチャがデータ センターに導入された後、データ センターは従来の 3 層構造になりました。

アクセス層: すべてのコンピューティング ノードを接続するために使用されます。通常はラック スイッチ (TOR、トップ オブ ラック) の形式です。

アグリゲーションレイヤー: アクセス層の相互接続、およびアグリゲーション エリアの第 2 層と第 3 層の境界として使用されます。ファイアウォール、負荷分散などのさまざまなサービスもここに展開されます。

コアレイヤー: アグリゲーション層の相互接続、およびデータセンター全体と外部ネットワーク間の第 3 層通信の実装に使用されます。

三層構造

ファットツリー アーキテクチャの欠点は次のとおりです。

資源の無駄遣い: 従来の 3 層構造では、下位層のスイッチは 2 つのリンクを介して 2 つの上位層のスイッチに接続されます。 STP プロトコル (スパニング ツリー プロトコル) が使用されるため、実際にトラフィックを伝送するリンクは 1 つだけです。もう一方のアップリンクはブロックされています (バックアップのみに使用されます)。これにより、帯域幅の無駄が発生します。

大規模なフォールト ドメイン:STP プロトコルは、独自のアルゴリズムにより、ネットワーク トポロジが変化したときに再収束する必要があるため、障害が発生しやすくなり、VLAN 全体のネットワークに影響を与える可能性があります。

東西の交通には適さない: サーバーとサーバー間の通信には、アクセス スイッチ、アグリゲーション スイッチ、コア スイッチを経由する必要があります。

東西の交通には適さない

スパインリーフネットワーク

Fat-Tree 構造と同様に、CLOS ネットワーク モデルに属します。

従来の 3 層ネットワーク アーキテクチャと比較して、Spine-Leaf ネットワークはフラット化され、2 層アーキテクチャになりました。

スパインリーフネットワーク

リーフ スイッチは、物理サーバーに直接接続される TOR (Top Of Rack) として、従来の 2 層アーキテクチャのアクセス スイッチに相当します。リーフ スイッチの上には第 XNUMX 層のネットワークがあり、それぞれが独立した LXNUMX ブロードキャスト ドメインです。 XNUMX つのリーフ スイッチの下にあるサーバーが通信する必要がある場合、それらはスパイン スイッチによって転送される必要があります。

スパイン スイッチ。コア スイッチに相当します。リーフ スイッチとスパイン スイッチは、ECMP (Equal Cost Multi Path) を通じて複数のパスを動的に選択します。

スパイン スイッチのダウンリンク ポートの数によって、リーフ スイッチの数が決まります。リーフ スイッチのアップリンク ポートの数によって、スパイン スイッチの数が決まります。彼らは共同してスパインとリーフのネットワークの規模を決定します。

スパインリーフトポロジー

スパインリーフネットワークの利点

高い帯域幅使用率

各リーフ スイッチのアップリンクは負荷分散方式で動作し、帯域幅を最大限に活用します。

予測可能なネットワーク遅延

上記のモデルでは、リーフ スイッチ間の通信パスの数を決定でき、各パスに必要なスパイン スイッチは 1 つだけです。 East-West ネットワークの遅延は予測可能です。

優れたスケーラビリティ

帯域幅が不十分な場合は、スパイン スイッチの数を増やして帯域幅を水平方向に拡張できます。サーバー数が増加した場合、スパインスイッチの数も増加してデータセンターの規模を拡大できます。計画と拡張は非常に便利です。

スイッチの要件の軽減

North-South トラフィックは、リーフ ノードまたはスパイン ノードから発信できます。東西トラフィックは複数のパスに分散されます。高価な高性能、高帯域幅スイッチは必要ありません。

高いセキュリティと可用性

従来のネットワークでは STP プロトコルが使用されており、デバイスに障害が発生すると再収束し、ネットワークのパフォーマンスに影響を与えたり、障害を引き起こしたりすることがあります。スパインリーフ アーキテクチャでは、デバイスに障害が発生した場合、再収束する必要はなく、トラフィックは他の通常のパスを通過し続けます。ネットワーク接続は影響を受けず、帯域幅は 1 つのパスの帯域幅だけ減少します。パフォーマンスへの影響は無視できます。

RDMA (リモート ダイレクト メモリ アクセス) プロトコル

従来の TCP/IP では、ネットワーク カードからのデータが最初にカーネル メモリにコピーされ、次にアプリケーション ストレージ領域にコピーされるか、データがアプリケーション領域からカーネル メモリにコピーされてから、インターネットに送信されます。ネットワークカード。この I/O 動作モードでは、カーネル メモリの変換が必要です。データ フローの伝送パスの長さが長くなり、CPU 負荷が増加し、伝送遅延も増加します。

RDMA のカーネル バイパス メカニズムにより、アプリケーションとネットワーク カードの間で直接データの読み取りおよび書き込みが可能になり、サーバー内のデータ送信遅延が 1us 近くに短縮されます。

同時に、RDMA のメモリ ゼロ コピー メカニズムにより、受信側はカーネル メモリの関与をバイパスして送信側のメモリからデータを直接読み取ることができるため、CPU 負荷が大幅に軽減され、CPU 効率が向上します。

RDMA
インフィニバンド対RDMA

InfiniBandの背景

InfiniBand (略称 IB) は強力な通信技術プロトコルです。英語に訳すと「無限帯域」となります。これは、PCI (Peripheral Component Interconnect) バスを置き換えるために 1990 年代に誕生しました。 PCI バスは Intel によって PC アーキテクチャに導入されましたが、アップグレード速度が遅いため、I/O パフォーマンスが大幅に制限され、システム全体のボトルネックになりました。

InfiniBandの背景

InfiniBandの開発経緯

1990 年代には、Intel、Microsoft、SUN が「Next Generation I/O (NGIO)」技術標準の開発を主導し、IBM、Compaq、HP が「Future I/O (FIO)」の開発を主導しました。

1999 年に、FIO Developers Forum と NGIO Forum が合併して設立されました。 貿易協会 (IBTA)。

2000 年に、InfiniBand アーキテクチャ仕様バージョン 1.0 が発表されました。 off正式にリリースされました。

1999 年 XNUMX 月、インテルとガリレオ テクノロジーを退職した数人の従業員がイスラエルにチップ会社を設立し、同社を Mellanox と名付けました。

Mellanox 設立後、NGIO に加わりました。その後、Mellanox は InfiniBand 陣営に加わりました。 2001 年に、彼らは最初の InfiniBand 製品を発売しました。から始まる

2003 年、InfiniBand はコンピュータ クラスタ相互接続という新しい応用分野に注目しました。

2004 年には、もう XNUMX つの重要な InfiniBand 非営利組織、OFA (Open Fabrics Alliance) が誕生しました。

2005 年、InfiniBand はストレージ デバイスの接続という別の新しいシナリオを発見しました。

それ以来、InfiniBand は急速な発展段階に入りました。

InfiniBandの開発経緯

InfiniBand ネットワーク アーキテクチャ

InfiniBand はチャネルベースの構造であり、次の 4 つの主要コンポーネントで構成されます。

  • HCA (ホスト チャネル アダプター)。ホストを InfiniBand ネットワークに接続します。
  • TCA (ターゲット チャネル アダプター)。ターゲット デバイス (ストレージなど) を InfiniBand ネットワークに接続します。
  • InfiniBand リンクは、ケーブル、ファイバー、またはオンボード リンクであり、チャネル アダプターをスイッチまたはルーターに接続します。
  • InfiniBand スイッチおよびルーター。InfiniBand ネットワークにネットワーク接続とルーティングを提供します。
  • チャネル アダプタは、InfiniBand チャネルを確立するために使用されます。すべての伝送はチャネル アダプタで開始または終了し、セキュリティを確保したり、特定の QoS (サービス品質) レベルで動作します。
InfiniBand ネットワーク アーキテクチャ
サブネット
インフィニバンド層
インフィニバンドメッセージ
インフィニバンド伝送
インターフェース規格
インターフェース速度

Mellanox は、2020 年に Nvidia に買収されました。それ以来、AI 大規模モデルのトレーニングに広く使用されています。

インフィンバンド

RoCE

RoCEの誕生

2010 年 2014 月、IBTA は、InfiniBand の RDMA テクノロジーをイーサネットに「移植」した RoCE (RDMA over Converged Ethernet) をリリースしました。 2 年に、彼らはより成熟した RoCEv2 を提案しました。 RoCEvXNUMX により、イーサネットは InfiniBand との技術的パフォーマンスの差を大幅に縮め、その固有のコストと互換性の利点と組み合わせて、反撃を開始しました。

RoCE

RoCE V2

RoCE v1: イーサネット リンク層に基づく RDMA プロトコル (スイッチは、物理層での信頼性の高い伝送を確保するために、PFC などのフロー制御テクノロジをサポートする必要があります)。これにより、同じ VLAN 内の 2 つのホスト間の通信が可能になります。 RoCE V1: 単一の VLAN にバインドされる RoCE v2 の制限を克服します。 IP および UDP ヘッダーを含むパケットのカプセル化を変更することで、RoCE 2 を L3 および LXNUMX ネットワーク全体で使用できるようになりました。

ローズの動作原理
roce メッセージ構造
IBとローズ

コメント

上へスクロール