Was ist der Unterschied zwischen InfiniBand und RoCE?

Netzwerkarchitektur des Rechenzentrums

Crossbar-Architektur

  • Eine Art Architektur, die vom frühesten Telefonvermittlungsnetzwerk (Crossbar-Switch) abgeleitet ist.
  • Besteht aus mehreren Eingangsports, mehreren Ausgangsports und einer Schaltmatrix
  • Sehr flexibel und effizient, kann beliebige Verbindungen zwischen verschiedenen Geräten herstellen.
Crossbar-Architektur

Clos-Architektur

  • Geboren 1952, vorgeschlagen von einer Person namens Charles Clos.
  • Die Clos-Architektur beschreibt hauptsächlich die Struktur eines mehrstufigen Leitungsvermittlungsnetzwerks
  • Die Clos-Architektur ist eine Verbesserung der Crossbar-Struktur, die ein nicht blockierendes Netzwerk bereitstellen kann. Der Vorteil von Clos besteht darin, dass es Kosten spart und die Effizienz steigert.
Clos-Architektur

Fat-Tree-Architektur

Ein Fat-Tree ist eine Art CLOS-Netzwerkarchitektur.

Im Vergleich zur traditionellen Baumstruktur ähnelt ein Fat-Tree eher einem echten Baum mit dickeren Ästen in der Nähe der Wurzel. Von den Blättern bis zur Wurzel konvergiert die Netzwerkbandbreite nicht.

Die Grundidee: Verwenden Sie eine große Anzahl von Switches mit geringer Leistung, um ein großes, nicht blockierendes Netzwerk aufzubauen. Für jedes Kommunikationsmuster gibt es immer einen Pfad, der es ihnen ermöglicht, die Bandbreite der Netzwerkkarte zu erreichen.

Fat-Tree-Architektur

Nachdem die Fat-Tree-Architektur im Rechenzentrum eingeführt wurde, wurde das Rechenzentrum zu einer traditionellen dreischichtigen Struktur:

Zugriffsebene: Wird zum Verbinden aller Rechenknoten verwendet. Normalerweise in Form eines Rackschalters (TOR, Top of Rack).

Aggregationsschicht: Wird für die Verbindung der Zugriffsschicht und als Grenze der zweiten und dritten Schicht des Aggregationsbereichs verwendet. Auch hier kommen verschiedene Dienste wie Firewalls, Load Balancing etc. zum Einsatz.

Kernschicht: Wird zur Verbindung der Aggregationsschicht und zur Implementierung der Kommunikation der dritten Schicht zwischen dem gesamten Rechenzentrum und dem externen Netzwerk verwendet.

dreischichtiger Aufbau

Die Nachteile der Fat-Tree-Architektur:

Ressourcenverschwendung: In der traditionellen dreischichtigen Struktur wird ein Switch der unteren Schicht über zwei Verbindungen mit zwei Switches der oberen Schicht verbunden. Da das STP-Protokoll (Spanning Tree Protocol) verwendet wird, überträgt tatsächlich nur ein Link den Datenverkehr. Der andere Uplink ist blockiert (wird nur zur Sicherung verwendet). Dies führt zu Bandbreitenverschwendung.

Große Fehlerdomäne: Das STP-Protokoll muss aufgrund seines eigenen Algorithmus neu konvergieren, wenn sich die Netzwerktopologie ändert, was leicht zu Fehlern führen und das Netzwerk des gesamten VLAN beeinträchtigen kann.

Für den Ost-West-Verkehr nicht geeignet: Die Kommunikation zwischen Servern und Servern erfordert das Durchlaufen des Zugriffsschalters, des Aggregationsschalters und des Kernschalters.

Für den Ost-West-Verkehr nicht geeignet

Spine-Leaf-Netzwerk

Sie gehört wie die Fat-Tree-Struktur zum CLOS-Netzwerkmodell.

Im Vergleich zur herkömmlichen dreischichtigen Netzwerkarchitektur wurde das Spine-Leaf-Netzwerk abgeflacht und in eine zweischichtige Architektur umgewandelt.

Spine-Leaf-Netzwerk

Der Leaf-Switch entspricht dem Access-Switch in der traditionellen dreischichtigen Architektur und ist als TOR (Top Of Rack) direkt mit dem physischen Server verbunden. Oberhalb des Blattschalters befindet sich das Netzwerk der dritten Schicht, jedes ist eine unabhängige L2-Broadcast-Domäne. Wenn die Server unter zwei Leaf-Switches kommunizieren müssen, müssen sie vom Spine-Switch weitergeleitet werden.

Spine-Switch, entspricht dem Core-Switch. Die Leaf- und Spine-Switches wählen dynamisch mehrere Pfade über ECMP (Equal Cost Multi Path) aus.

Die Anzahl der Downlink-Ports des Spine-Switches bestimmt die Anzahl der Leaf-Switches. Die Anzahl der Uplink-Ports des Leaf-Switches bestimmt die Anzahl der Spine-Switches. Sie bestimmen gemeinsam die Größe des Spine-Leaf-Netzwerks.

Spine-Leaf-Topologie

Die Vorteile des Spine-Leaf-Netzwerks

Hohe Bandbreitenauslastung

Der Uplink jedes Leaf-Switches arbeitet lastausgleichend und nutzt die Bandbreite voll aus.

Vorhersehbare Netzwerklatenz

Im obigen Modell kann die Anzahl der Kommunikationspfade zwischen Leaf-Switches bestimmt werden, und für jeden Pfad ist nur ein Spine-Switch erforderlich. Die Ost-West-Netzwerklatenz ist vorhersehbar.

Gute Skalierbarkeit

Wenn die Bandbreite nicht ausreicht, kann die Anzahl der Spine-Switches erhöht werden, um die Bandbreite horizontal zu skalieren. Wenn die Anzahl der Server zunimmt, kann auch die Anzahl der Spine-Switches erhöht werden, um die Größe des Rechenzentrums zu erweitern. Planung und Erweiterung sind sehr komfortabel.

Reduzierte Anforderungen an Schalter

Der Nord-Süd-Verkehr kann von den Blattknoten oder den Wirbelsäulenknoten ausgehen. Der Ost-West-Verkehr wird auf mehrere Wege verteilt. Teure Hochleistungs-Switches mit hoher Bandbreite sind nicht erforderlich.

Hohe Sicherheit und Verfügbarkeit

Herkömmliche Netzwerke verwenden das STP-Protokoll, das bei einem Geräteausfall wieder konvergiert, was die Netzwerkleistung beeinträchtigt oder sogar Fehler verursacht. Wenn in der Spine-Leaf-Architektur ein Gerät ausfällt, ist keine erneute Konvergenz erforderlich, und der Datenverkehr wird weiterhin über andere normale Pfade geleitet. Die Netzwerkkonnektivität wird nicht beeinträchtigt und die Bandbreite wird nur um die Bandbreite eines Pfades reduziert. Die Auswirkungen auf die Leistung sind vernachlässigbar.

InfiniBand

RDMA-Protokoll (Remote Direct Memory Access).

Beim herkömmlichen TCP/IP werden die Daten von der Netzwerkkarte zuerst in den Kernel-Speicher und dann in den Anwendungsspeicherplatz kopiert, oder die Daten werden vom Anwendungsraum in den Kernel-Speicher kopiert und dann über an das Internet gesendet die Netzwerkkarte. Dieser I/O-Betriebsmodus erfordert die Konvertierung des Kernelspeichers. Es erhöht die Länge des Datenflussübertragungspfads, erhöht die CPU-Auslastung und erhöht auch die Übertragungslatenz.

Der Kernel-Bypass-Mechanismus von RDMA ermöglicht das direkte Lesen und Schreiben von Daten zwischen der Anwendung und der Netzwerkkarte und reduziert so die Datenübertragungslatenz innerhalb des Servers auf nahezu 1us.

Gleichzeitig ermöglicht der Speicher-Zero-Copy-Mechanismus von RDMA dem Empfänger, Daten direkt aus dem Speicher des Absenders zu lesen und dabei die Beteiligung des Kernel-Speichers zu umgehen, wodurch die CPU-Last erheblich reduziert und die CPU-Effizienz verbessert wird.

RDMA
Infiniband vs. RDMA

Der Hintergrund von InfiniBand

InfiniBand (abgekürzt als IB) ist ein leistungsstarkes Kommunikationstechnologieprotokoll. Die englische Übersetzung lautet „unendliche Bandbreite“. Es wurde in den 1990er Jahren geboren, um den PCI-Bus (Peripheral Component Interconnect) zu ersetzen. Der PCI-Bus wurde von Intel in die PC-Architektur eingeführt und die Upgrade-Geschwindigkeit war langsam, was die E/A-Leistung stark einschränkte und zum Engpass des gesamten Systems wurde.

Der Hintergrund von InfiniBand

Die Entwicklungsgeschichte von InfiniBand

In den 1990er Jahren leiteten Intel, Microsoft und SUN die Entwicklung des Technologiestandards „Next Generation I/O (NGIO)“, während IBM, Compaq und HP die Entwicklung von „Future I/O (FIO)“ leiteten.

Im Jahr 1999 schlossen sich das FIO Developers Forum und das NGIO Forum zusammen und gründeten das InfiniBand Handelsverband (IBTA).

Im Jahr 2000 erschien die InfiniBand-Architekturspezifikation Version 1.0 offoffiziell freigelassen.

Im Mai 1999 gründeten mehrere Mitarbeiter, die Intel und Galileo Technology verlassen hatten, in Israel ein Chipunternehmen und nannten es Mellanox.

Nach der Gründung trat Mellanox der NGIO bei. Später schloss sich Mellanox dem InfiniBand-Lager an. Im Jahr 2001 brachten sie ihr erstes InfiniBand-Produkt auf den Markt. Beginnend in

2003 wandte sich InfiniBand einem neuen Anwendungsgebiet zu, nämlich der Verbindung von Computerclustern.

Im Jahr 2004 wurde eine weitere wichtige gemeinnützige InfiniBand-Organisation gegründet: OFA (Open Fabrics Alliance).

Im Jahr 2005 entdeckte InfiniBand ein weiteres neues Szenario – die Verbindung von Speichergeräten.

Seitdem ist InfiniBand in eine Phase rasanter Entwicklung eingetreten.

Die Entwicklungsgeschichte von InfiniBand

InfiniBand-Netzwerkarchitektur

InfiniBand ist eine kanalbasierte Struktur, die aus vier Hauptkomponenten besteht:

  • HCA (Host Channel Adapter), der den Host mit dem InfiniBand-Netzwerk verbindet.
  • TCA (Target Channel Adapter), der das Zielgerät (z. B. Speicher) mit dem InfiniBand-Netzwerk verbindet.
  • Die InfiniBand-Verbindung, bei der es sich um eine Kabel-, Glasfaser- oder On-Board-Verbindung handeln kann, verbindet die Kanaladapter mit den Switches oder Routern.
  • InfiniBand-Switch und -Router, die Netzwerkkonnektivität und Routing für das InfiniBand-Netzwerk bereitstellen.
  • Kanaladapter werden zum Aufbau von InfiniBand-Kanälen verwendet. Alle Übertragungen beginnen oder enden mit Kanaladaptern, um die Sicherheit zu gewährleisten oder auf einem bestimmten QoS-Niveau (Quality of Service) zu arbeiten.
InfiniBand-Netzwerkarchitektur
Subnetz
Infiniband-Schicht
Infiniband-Nachricht
Infiniband-Übertragung
Schnittstellenstandard
Schnittstellenrate

Mellanox wurde 2020 von Nvidia übernommen. Seitdem wird es häufig im KI-Training für große Modelle eingesetzt.

unendlich

RoCE

Die Geburt von RoCE

Im April 2010 veröffentlichte IBTA RoCE (RDMA over Converged Ethernet), das die RDMA-Technologie in InfiniBand auf Ethernet „portierte“. Im Jahr 2014 schlugen sie ein ausgereifteres RoCEv2 vor. Mit RoCEv2 hat Ethernet den technischen Leistungsunterschied zu InfiniBand erheblich verringert und in Kombination mit den inhärenten Kosten- und Kompatibilitätsvorteilen begonnen, sich zu wehren.

RoCE

RoCE V2

RoCE v1: Ein RDMA-Protokoll, das auf der Ethernet-Verbindungsschicht basiert (der Switch muss Flusskontrolltechnologien wie PFC unterstützen, um eine zuverlässige Übertragung auf der physikalischen Schicht zu gewährleisten), das die Kommunikation zwischen zwei Hosts im selben VLAN ermöglicht. RoCE V2: Überwindet die Einschränkung, dass RoCE v1 an ein einzelnes VLAN gebunden ist. Durch die Änderung der Paketkapselung, einschließlich IP- und UDP-Headern, kann RoCE 2 nun in L2- und L3-Netzwerken verwendet werden.

roce-Funktionsprinzip
Roce-Nachrichtenstruktur
IB und Roce

Hinterlasse einen Kommentar

Nach oben scrollen