Netzwerkarchitektur des Rechenzentrums
Crossbar-Architektur
- Eine Art Architektur, die vom frühesten Telefonvermittlungsnetzwerk (Crossbar-Switch) abgeleitet ist.
- Besteht aus mehreren Eingangsports, mehreren Ausgangsports und einer Schaltmatrix
- Sehr flexibel und effizient, kann beliebige Verbindungen zwischen verschiedenen Geräten herstellen.
Clos-Architektur
- Geboren 1952, vorgeschlagen von einer Person namens Charles Clos.
- Die Clos-Architektur beschreibt hauptsächlich die Struktur eines mehrstufigen Leitungsvermittlungsnetzwerks
- Die Clos-Architektur ist eine Verbesserung der Crossbar-Struktur, die ein nicht blockierendes Netzwerk bereitstellen kann. Der Vorteil von Clos besteht darin, dass es Kosten spart und die Effizienz steigert.
Fat-Tree-Architektur
Ein Fat-Tree ist eine Art CLOS-Netzwerkarchitektur.
Im Vergleich zur traditionellen Baumstruktur ähnelt ein Fat-Tree eher einem echten Baum mit dickeren Ästen in der Nähe der Wurzel. Von den Blättern bis zur Wurzel konvergiert die Netzwerkbandbreite nicht.
Die Grundidee: Verwenden Sie eine große Anzahl von Switches mit geringer Leistung, um ein großes, nicht blockierendes Netzwerk aufzubauen. Für jedes Kommunikationsmuster gibt es immer einen Pfad, der es ihnen ermöglicht, die Bandbreite der Netzwerkkarte zu erreichen.
Nachdem die Fat-Tree-Architektur im Rechenzentrum eingeführt wurde, wurde das Rechenzentrum zu einer traditionellen dreischichtigen Struktur:
Zugriffsebene: Wird zum Verbinden aller Rechenknoten verwendet. Normalerweise in Form eines Rackschalters (TOR, Top of Rack).
Aggregationsschicht: Wird für die Verbindung der Zugriffsschicht und als Grenze der zweiten und dritten Schicht des Aggregationsbereichs verwendet. Auch hier kommen verschiedene Dienste wie Firewalls, Load Balancing etc. zum Einsatz.
Kernschicht: Wird zur Verbindung der Aggregationsschicht und zur Implementierung der Kommunikation der dritten Schicht zwischen dem gesamten Rechenzentrum und dem externen Netzwerk verwendet.
Die Nachteile der Fat-Tree-Architektur:
Ressourcenverschwendung: In der traditionellen dreischichtigen Struktur wird ein Switch der unteren Schicht über zwei Verbindungen mit zwei Switches der oberen Schicht verbunden. Da das STP-Protokoll (Spanning Tree Protocol) verwendet wird, überträgt tatsächlich nur ein Link den Datenverkehr. Der andere Uplink ist blockiert (wird nur zur Sicherung verwendet). Dies führt zu Bandbreitenverschwendung.
Große Fehlerdomäne: Das STP-Protokoll muss aufgrund seines eigenen Algorithmus neu konvergieren, wenn sich die Netzwerktopologie ändert, was leicht zu Fehlern führen und das Netzwerk des gesamten VLAN beeinträchtigen kann.
Für den Ost-West-Verkehr nicht geeignet: Die Kommunikation zwischen Servern und Servern erfordert das Durchlaufen des Zugriffsschalters, des Aggregationsschalters und des Kernschalters.
Spine-Leaf-Netzwerk
Sie gehört wie die Fat-Tree-Struktur zum CLOS-Netzwerkmodell.
Im Vergleich zur herkömmlichen dreischichtigen Netzwerkarchitektur wurde das Spine-Leaf-Netzwerk abgeflacht und in eine zweischichtige Architektur umgewandelt.
Der Leaf-Switch entspricht dem Access-Switch in der traditionellen dreischichtigen Architektur und ist als TOR (Top Of Rack) direkt mit dem physischen Server verbunden. Oberhalb des Blattschalters befindet sich das Netzwerk der dritten Schicht, jedes ist eine unabhängige L2-Broadcast-Domäne. Wenn die Server unter zwei Leaf-Switches kommunizieren müssen, müssen sie vom Spine-Switch weitergeleitet werden.
Spine-Switch, entspricht dem Core-Switch. Die Leaf- und Spine-Switches wählen dynamisch mehrere Pfade über ECMP (Equal Cost Multi Path) aus.
Die Anzahl der Downlink-Ports des Spine-Switches bestimmt die Anzahl der Leaf-Switches. Die Anzahl der Uplink-Ports des Leaf-Switches bestimmt die Anzahl der Spine-Switches. Sie bestimmen gemeinsam die Größe des Spine-Leaf-Netzwerks.
Die Vorteile des Spine-Leaf-Netzwerks
Hohe Bandbreitenauslastung
Der Uplink jedes Leaf-Switches arbeitet lastausgleichend und nutzt die Bandbreite voll aus.
Vorhersehbare Netzwerklatenz
Im obigen Modell kann die Anzahl der Kommunikationspfade zwischen Leaf-Switches bestimmt werden, und für jeden Pfad ist nur ein Spine-Switch erforderlich. Die Ost-West-Netzwerklatenz ist vorhersehbar.
Gute Skalierbarkeit
Wenn die Bandbreite nicht ausreicht, kann die Anzahl der Spine-Switches erhöht werden, um die Bandbreite horizontal zu skalieren. Wenn die Anzahl der Server zunimmt, kann auch die Anzahl der Spine-Switches erhöht werden, um die Größe des Rechenzentrums zu erweitern. Planung und Erweiterung sind sehr komfortabel.
Reduzierte Anforderungen an Schalter
Der Nord-Süd-Verkehr kann von den Blattknoten oder den Wirbelsäulenknoten ausgehen. Der Ost-West-Verkehr wird auf mehrere Wege verteilt. Teure Hochleistungs-Switches mit hoher Bandbreite sind nicht erforderlich.
Hohe Sicherheit und Verfügbarkeit
Herkömmliche Netzwerke verwenden das STP-Protokoll, das bei einem Geräteausfall wieder konvergiert, was die Netzwerkleistung beeinträchtigt oder sogar Fehler verursacht. Wenn in der Spine-Leaf-Architektur ein Gerät ausfällt, ist keine erneute Konvergenz erforderlich, und der Datenverkehr wird weiterhin über andere normale Pfade geleitet. Die Netzwerkkonnektivität wird nicht beeinträchtigt und die Bandbreite wird nur um die Bandbreite eines Pfades reduziert. Die Auswirkungen auf die Leistung sind vernachlässigbar.
InfiniBand
RDMA-Protokoll (Remote Direct Memory Access).
Beim herkömmlichen TCP/IP werden die Daten von der Netzwerkkarte zuerst in den Kernel-Speicher und dann in den Anwendungsspeicherplatz kopiert, oder die Daten werden vom Anwendungsraum in den Kernel-Speicher kopiert und dann über an das Internet gesendet die Netzwerkkarte. Dieser I/O-Betriebsmodus erfordert die Konvertierung des Kernelspeichers. Es erhöht die Länge des Datenflussübertragungspfads, erhöht die CPU-Auslastung und erhöht auch die Übertragungslatenz.
Der Kernel-Bypass-Mechanismus von RDMA ermöglicht das direkte Lesen und Schreiben von Daten zwischen der Anwendung und der Netzwerkkarte und reduziert so die Datenübertragungslatenz innerhalb des Servers auf nahezu 1us.
Gleichzeitig ermöglicht der Speicher-Zero-Copy-Mechanismus von RDMA dem Empfänger, Daten direkt aus dem Speicher des Absenders zu lesen und dabei die Beteiligung des Kernel-Speichers zu umgehen, wodurch die CPU-Last erheblich reduziert und die CPU-Effizienz verbessert wird.
Der Hintergrund von InfiniBand
InfiniBand (abgekürzt als IB) ist ein leistungsstarkes Kommunikationstechnologieprotokoll. Die englische Übersetzung lautet „unendliche Bandbreite“. Es wurde in den 1990er Jahren geboren, um den PCI-Bus (Peripheral Component Interconnect) zu ersetzen. Der PCI-Bus wurde von Intel in die PC-Architektur eingeführt und die Upgrade-Geschwindigkeit war langsam, was die E/A-Leistung stark einschränkte und zum Engpass des gesamten Systems wurde.
Die Entwicklungsgeschichte von InfiniBand
In den 1990er Jahren leiteten Intel, Microsoft und SUN die Entwicklung des Technologiestandards „Next Generation I/O (NGIO)“, während IBM, Compaq und HP die Entwicklung von „Future I/O (FIO)“ leiteten.
Im Jahr 1999 schlossen sich das FIO Developers Forum und das NGIO Forum zusammen und gründeten das InfiniBand Handelsverband (IBTA).
Im Jahr 2000 erschien die InfiniBand-Architekturspezifikation Version 1.0 offoffiziell freigelassen.
Im Mai 1999 gründeten mehrere Mitarbeiter, die Intel und Galileo Technology verlassen hatten, in Israel ein Chipunternehmen und nannten es Mellanox.
Nach der Gründung trat Mellanox der NGIO bei. Später schloss sich Mellanox dem InfiniBand-Lager an. Im Jahr 2001 brachten sie ihr erstes InfiniBand-Produkt auf den Markt. Beginnend in
2003 wandte sich InfiniBand einem neuen Anwendungsgebiet zu, nämlich der Verbindung von Computerclustern.
Im Jahr 2004 wurde eine weitere wichtige gemeinnützige InfiniBand-Organisation gegründet: OFA (Open Fabrics Alliance).
Im Jahr 2005 entdeckte InfiniBand ein weiteres neues Szenario – die Verbindung von Speichergeräten.
Seitdem ist InfiniBand in eine Phase rasanter Entwicklung eingetreten.
InfiniBand-Netzwerkarchitektur
InfiniBand ist eine kanalbasierte Struktur, die aus vier Hauptkomponenten besteht:
- HCA (Host Channel Adapter), der den Host mit dem InfiniBand-Netzwerk verbindet.
- TCA (Target Channel Adapter), der das Zielgerät (z. B. Speicher) mit dem InfiniBand-Netzwerk verbindet.
- Die InfiniBand-Verbindung, bei der es sich um eine Kabel-, Glasfaser- oder On-Board-Verbindung handeln kann, verbindet die Kanaladapter mit den Switches oder Routern.
- InfiniBand-Switch und -Router, die Netzwerkkonnektivität und Routing für das InfiniBand-Netzwerk bereitstellen.
- Kanaladapter werden zum Aufbau von InfiniBand-Kanälen verwendet. Alle Übertragungen beginnen oder enden mit Kanaladaptern, um die Sicherheit zu gewährleisten oder auf einem bestimmten QoS-Niveau (Quality of Service) zu arbeiten.
Mellanox wurde 2020 von Nvidia übernommen. Seitdem wird es häufig im KI-Training für große Modelle eingesetzt.
RoCE
Die Geburt von RoCE
Im April 2010 veröffentlichte IBTA RoCE (RDMA over Converged Ethernet), das die RDMA-Technologie in InfiniBand auf Ethernet „portierte“. Im Jahr 2014 schlugen sie ein ausgereifteres RoCEv2 vor. Mit RoCEv2 hat Ethernet den technischen Leistungsunterschied zu InfiniBand erheblich verringert und in Kombination mit den inhärenten Kosten- und Kompatibilitätsvorteilen begonnen, sich zu wehren.
RoCE V2
RoCE v1: Ein RDMA-Protokoll, das auf der Ethernet-Verbindungsschicht basiert (der Switch muss Flusskontrolltechnologien wie PFC unterstützen, um eine zuverlässige Übertragung auf der physikalischen Schicht zu gewährleisten), das die Kommunikation zwischen zwei Hosts im selben VLAN ermöglicht. RoCE V2: Überwindet die Einschränkung, dass RoCE v1 an ein einzelnes VLAN gebunden ist. Durch die Änderung der Paketkapselung, einschließlich IP- und UDP-Headern, kann RoCE 2 nun in L2- und L3-Netzwerken verwendet werden.
Ähnliche Produkte:
- Mellanox MMA1B00-E100 kompatibles 100G InfiniBand EDR QSFP28 SR4 850 nm 100 m MTP/MPO MMF DDM Transceiver-Modul $50.00
- Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $300.00
- Mellanox MMS1W50-HM-kompatibles 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2 km LC SMF FEC Optisches Transceiver-Modul $650.00
- NVIDIA MMS4X00-NS400 kompatibles 400G OSFP DR4 Flat Top PAM4 1310 nm MTP/MPO-12 500 m SMF FEC optisches Transceiver-Modul $1450.00
- NVIDIA MFP7E20-N050 kompatibel, 50 m (164 Fuß), 8 Fasern, geringe Einfügungsdämpfung, Buchse auf Buchse, MPO12 auf 2xMPO12, Polarität B, APC auf APC LSZH, Multimode OM4 50/125 $145.00
- NVIDIA MFP7E20-N015 kompatibel, 15 m (49 Fuß), 8 Fasern, geringe Einfügungsdämpfung, Buchse auf Buchse, MPO12 auf 2xMPO12, Polarität B, APC auf APC LSZH, Multimode OM3 50/125 $67.00
- NVIDIA MFS1S90-H015E kompatibles 15 m (49 Fuß) 2x200G QSFP56 auf 2x200G QSFP56 PAM4 Breakout aktives optisches Kabel $830.00
- NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $1400.00
- NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $2000.00
- NVIDIA MFS1S50-H015V kompatibles 15 m (49 Fuß) 200G InfiniBand HDR QSFP56 auf 2x100G QSFP56 PAM4 Breakout Active Optical Cable $630.00
- NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $1400.00
- NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $2000.00
- NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI-Adapterkarte, HDR/200GbE, Single-Port QSFP56, PCIe3.0/4.0 x16, hohe Halterung $1400.00
- Mellanox MCP7H50-H003R26 Kompatibles 3m (10ft) Infiniband HDR 200G QSFP56 bis 2x100G QSFP56 PAM4 Passives Breakout Direct Attach Kupferkabel $100.00
- Mellanox MFS1S50-H003E Kompatibles 3m (10ft) 200G HDR QSFP56 zu 2x100G QSFP56 PAM4 Breakout Active Optical Cable $605.00
- NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI-Adapterkarte, NDR/400G, Single-Port-OSFP, PCIe 5.0x 16, hohe Halterung $1650.00