Wie wir alle wissen, hat das explosionsartige Wachstum von Internetdaten die Verarbeitungskapazität von Rechenzentren vor große Herausforderungen gestellt.
Computing, Speicherung und Netzwerk sind die drei treibenden Kräfte, die die Entwicklung von Rechenzentren vorantreiben.
Mit der Entwicklung von CPU, GPU und FPGA wurde die Rechenleistung stark verbessert. Speicher Mit der Einführung von Solid State Drive (SSD) wurde die Datenzugriffslatenz stark reduziert.
Die Entwicklung des Netzwerks hinkt jedoch offensichtlich hinterher, die Übertragungsverzögerung ist hoch und wird allmählich zum Engpass der Rechenzentrumsleistung.
In einem Rechenzentrum sind 70 % des Verkehrs Ost-West-Verkehr (Verkehr zwischen Servern). Dieser Datenverkehr verarbeitet im Allgemeinen den Datenfluss während des verteilten parallelen Hochleistungsrechnens in Rechenzentren und wird über TCP/IP-Netzwerke übertragen.
Steigt die TCP/IP-Übertragungsrate zwischen Servern, steigt auch die Leistung des Rechenzentrums.
TCP/IP-Übertragung zwischen Servern
Der Prozess für Server A zum Senden von Daten an Server B im Rechenzentrum ist wie folgt:
- Die CPU-Steuerdaten werden aus dem APP-Puffer von A in den Betriebssystempuffer kopiert.
- CPU-Steuerdaten Hinzufügen von TCP- und IP-Headern zum Puffer des Betriebssystems (OS).
- Fügen Sie TCP- und IP-Paket-Header hinzu, um die Daten an die NIC zu senden, und fügen Sie Ethernet-Paket-Header hinzu.
- Das Paket wird vom Netzwerkadapter gesendet und über das Ethernet-Netzwerk an den Netzwerkadapter von Server B übertragen.
- Der Netzwerkadapter von Server B entlädt den Ethernet-Header des Pakets und überträgt ihn an den Puffer des Betriebssystems.
- Die CPU entlädt TCP- und IP-Paket-Header in den Puffer des Betriebssystems.
- Die CPU steuert die Übertragung von nicht installierten Daten an den APP-Puffer.
Wie aus dem Datenübertragungsprozess ersichtlich ist, werden Daten mehrfach in den Buffer des Servers kopiert und TCP- und IP-Header müssen im Betriebssystem hinzugefügt oder deinstalliert werden. Diese Operationen erhöhen nicht nur die Datenübertragungsverzögerung, sondern verbrauchen auch viele CPU-Ressourcen, die die Anforderungen von Hochleistungsrechnen nicht erfüllen können.
Wie baut man also ein leistungsstarkes Rechenzentrumsnetzwerk mit hohem Durchsatz, extrem niedriger Latenz und geringem CPU-Overhead?
RDMA-Technologie kann das tun.
Was ist RDMA
Remote Direct Memory Access (RDMA) ist eine neue Speicherzugriffstechnologie, die es Servern ermöglicht, Speicherdaten von anderen Servern mit hoher Geschwindigkeit ohne zeitaufwändige Verarbeitung durch das Betriebssystem/die CPU zu lesen und zu schreiben.
RDMA ist keine neue Technologie und wurde im High Performance Computing (HPC) weit verbreitet. Mit der Entwicklungsnachfrage nach hoher Bandbreite und geringer Verzögerung in Rechenzentren wurde RDMA schrittweise in einigen Szenarien angewendet, in denen Rechenzentren eine hohe Leistung erfordern.
Im Jahr 2021 erreichte beispielsweise das Transaktionsvolumen eines großen Online-Einkaufszentrums für Einkaufsfestivals einen neuen Rekord von mehr als 500 Milliarden Yuan, was einer Steigerung von fast 10 % gegenüber 2020 entspricht. Hinter einem so enormen Transaktionsvolumen steht eine massive Datenverarbeitung. Das Online-Einkaufszentrum verwendet RDMA-Technologie, um ein Hochleistungsnetzwerk zu unterstützen und ein reibungsloses Einkaufsfestival zu gewährleisten.
Werfen wir einen Blick auf einige der Tricks von RDMA für niedrige Latenzzeiten.
RDMA überträgt die Serveranwendungsdaten direkt vom Speicher zur intelligenten Netzwerkkarte (INIC) (verfestigtes RDMA-Protokoll), und die INIC-Hardware vervollständigt die Kapselung des RDMA-Übertragungspakets, wodurch das Betriebssystem und die CPU entlastet werden.
Dies bietet RDMA zwei große Vorteile:
- Nullkopie: Ein Prozess, der das Kopieren von Daten in den Kernel des Betriebssystems und das Verarbeiten der Paket-Header überflüssig macht, was zu einer deutlich reduzierten Übertragungslatenz führt.
- Kernel-Umgehung und Protokoll OffBelastung: Der Betriebssystemkern ist nicht beteiligt und es gibt keine komplizierte Header-Logik im Datenpfad. Dies reduziert die Latenz und spart erheblich CPU-Ressourcen.
Drei große RDMA-Netzwerke
Derzeit gibt es drei Arten von RDMA-Netzwerken, nämlich InfiniBand, RoCE (RDMA über Converged Ethernet) und iWARP (RDMA über TCP).
RDMA war ursprünglich exklusiv für die Infiniband-Netzwerkarchitektur, um einen zuverlässigen Transport auf Hardwareebene zu gewährleisten, während RoCE und iWARP Ethernet-basierte RDMA-Technologien sind.
InfiniBand
- InfiniBand ist ein Netzwerk, das speziell für RDMA entwickelt wurde.
- Der Cut-Through-Weiterleitungsmodus wird übernommen, um die Weiterleitungsverzögerung zu reduzieren.
- Kreditbasierter Flusskontrollmechanismus stellt sicher, dass kein Paketverlust auftritt.
- Es erfordert dedizierte Netzwerkadapter, Switches und Router von InfiniBand, das die höchsten Kosten für den Netzwerkaufbau hat.
RoCE
- Die Transportschicht ist das InfiniBand-Protokoll.
- RoCE gibt es in zwei Versionen: RoCEv1 ist auf der Ethernet-Verbindungsschicht implementiert und kann nur auf Schicht L2 übertragen werden; RoCEv2 hostet RDMA auf Basis von UDP und kann in Layer-3-Netzwerken bereitgestellt werden.
- Unterstützung für RDMA-dedizierten intelligenten Netzwerkadapter, keine Notwendigkeit für dedizierten Switch und Router (unterstützt ECN/PFC-Technologie, reduziert die Paketverlustrate), die niedrigsten Kosten für den Netzwerkaufbau.
iWARP
- Die Transportschicht ist das iWARP-Protokoll.
- iWARP ist auf der TCP-Schicht des Ethernet-TCP/IP-Protokolls implementiert und unterstützt die Übertragung auf der L2/L3-Schicht. TCP-Verbindungen in großen Netzwerken verbrauchen viel CPU und werden daher selten verwendet.
- iWARP erfordert nur Netzwerkadapter zur Unterstützung von RDMA, ohne private Switches und Router, und Kosten zwischen InfiniBand und RoCE.
Mit fortschrittlicher Technologie, aber einem hohen Preis, ist Infiniband auf HPC-Hochleistungs-Computing beschränkt. Mit dem Aufkommen von RoCE und iWARPC werden die RDMA-Kosten reduziert und die RDMA-Technologie wird populär.
Die Verwendung dieser drei Arten von RDMA-Netzwerken in Hochleistungsspeicher- und Rechenzentren kann die Datenübertragungslatenz erheblich reduzieren und eine höhere CPU-Ressourcenverfügbarkeit für Anwendungen bereitstellen.
Das InfiniBand-Netzwerk bietet Rechenzentren extreme Leistung mit einer Übertragungslatenz von nur 100 Nanosekunden, eine Größenordnung niedriger als die von Ethernet-Geräten.
RoCE- und iWARP-Netzwerke bringen kostenintensive Leistung in Rechenzentren und hosten RDMA über Ethernet, wobei sie die Vorteile der hohen Leistung und der geringen CPU-Auslastung von RDMA voll ausnutzen, während der Aufbau nicht viel kostet.
Das UDP-basierte RoCE bietet eine bessere Leistung als das TCP-basierte iWARP und löst in Kombination mit der verlustfreien Ethernet-Flusssteuerungstechnologie das Problem der Paketverlustempfindlichkeit. Das RoCE-Netzwerk ist in Hochleistungsrechenzentren in verschiedenen Branchen weit verbreitet.
Zusammenfassung
Mit der Entwicklung von 5G, künstlicher Intelligenz, industriellem Internet und anderen neuen Bereichen wird die Anwendung der RDMA-Technologie immer beliebter und RDMA wird einen großen Beitrag zur Leistung von Rechenzentren leisten.
Ähnliche Produkte:
- NVIDIA MMA4Z00-NS400 kompatibles 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 Multimode FEC optisches Transceiver-Modul $1100.00
- NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $1400.00
- NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $1400.00
- NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $2000.00
- NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $2000.00
- NVIDIA MMS4X00-NS400 kompatibles 400G OSFP DR4 Flat Top PAM4 1310 nm MTP/MPO-12 500 m SMF FEC optisches Transceiver-Modul $1450.00
- Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $300.00
- NVIDIA MCA7J60-N004 kompatibles 4 m (13 Fuß) 800G Twin-Port OSFP zu 2x400G OSFP InfiniBand NDR Breakout Aktives Kupferkabel $800.00
- Cisco QDD-400G-SR8-S kompatibles 400G QSFP-DD SR8 PAM4 850 nm 100 m OM4 MPO-16 DDM MMF optisches Transceiver-Modul $300.00
- Arista Networks QDD-400G-SR8 Kompatibles 400G QSFP-DD SR8 PAM4 850nm 100m MTP/MPO OM3 FEC Optisches Transceiver-Modul $300.00
- Arista Networks QDD-400G-DR4 Kompatibles 400G QSFP-DD DR4 PAM4 1310nm 500m MTP/MPO SMF FEC Optisches Transceiver-Modul $550.00
- Juniper Networks QDD-400G-FR4 Kompatibles 400G QSFP-DD FR4 PAM4 CWDM4 2km LC SMF FEC Optisches Transceivermodul $750.00