So wählen Sie zwischen InfiniBand und RoCE

Ultrahohe Bandbreite, extrem niedrige Latenz und extrem hohe Zuverlässigkeit sind die Netzwerkanforderungen für das Training großer Modelle.

Das TCP/IP-Protokoll war viele Jahre lang die Säule der Internetkommunikation, aber für KI-Netzwerke hat TCP/IP einige fatale Nachteile. Das TCP/IP-Protokoll weist eine hohe Latenz auf, die normalerweise im Bereich von mehreren zehn Mikrosekunden liegt, und verursacht außerdem eine erhebliche CPU-Belastung. RDMA kann über die Netzwerkschnittstelle direkt auf Speicherdaten zugreifen, ohne dass der Betriebssystemkern eingreifen muss. Dies ermöglicht eine Netzwerkkommunikation mit hohem Durchsatz und geringer Latenz, die sich besonders für den Einsatz in großen parallelen Computerclustern eignet.

InfiniBand, RoCEv1, RoCEv2 und iWARP sind die vier Implementierungen der RDMA-Technologie. Dennoch wird RoCEv1 nicht mehr verwendet und iWARP ist ungewöhnlich. Die in der Branche vorherrschenden Netzwerklösungen sind InfiniBand und RoCEv2.

RDMA-Protokollstapel

Was sind die Netzwerkanforderungen für HPC/KI-Workloads?

Die meisten Rechenzentren nutzen heute eine zweistufige Netzwerkarchitektur, während KI-Cluster Supercomputer sind, die für die Ausführung komplexer, groß angelegter KI-Aufgaben gebaut sind. Computer-Workloads laufen parallel auf mehreren GPUs und erfordern eine hohe Auslastung. Daher sind KI-Rechenzentrumsnetzwerke im Vergleich zu herkömmlichen Rechenzentrumsnetzwerken mit einer zusätzlichen Komplexität konfrontiert:

  • Paralleles Rechnen: KI-Workloads sind eine einheitliche Infrastruktur mehrerer Maschinen, auf denen dieselbe Anwendung/Rechenaufgabe ausgeführt wird.
  • Umfang: Der Umfang von HPC/KI-Aufgaben kann Tausende von Computer-Engines (wie GPUs, CPUs, FPGAs usw.) erreichen;
  • Aufgabentypen: Verschiedene Aufgaben variieren in Größe, Ausführungsdauer, zu berücksichtigender Datensatzgröße und -menge, zu generierendem Antworttyp und verschiedenen Sprachen, die zum Codieren der Anwendung verwendet werden, und der Art der Hardware, auf der sie ausgeführt wird, was alle die Verkehrsmuster innerhalb der Anwendung verursacht Netzwerk, das für die Ausführung von HPC/KI-Workloads entwickelt wurde, die sich ständig ändern;
  • Verlustfrei: In herkömmlichen Rechenzentren werden verlorene Nachrichten erneut übertragen, während bei KI-Workloads verlorene Nachrichten dazu führen, dass die gesamte Berechnung entweder falsch ist oder hängen bleibt. Daher benötigen KI-Rechenzentren ein verlustfreies Netzwerk.
  • Bandbreite: Zwischen Servern muss Datenverkehr mit hoher Bandbreite laufen, damit Anwendungen auf Daten zugreifen können. In modernen Bereitstellungen erreicht die Schnittstellengeschwindigkeit jeder Computer-Engine für KI oder andere Hochleistungs-Computing-Funktionen 400 Gbit/s.

Diese Komplexität stellt KI-Netzwerke vor erhebliche Herausforderungen. Daher müssen KI-Rechenzentrumsnetzwerke über eine hohe Bandbreite, geringe Latenz, keinen Jitter, keinen Paketverlust und Langzeitstabilität verfügen.

Von TCP/IP zu RDMA

Für Anwendungen wie HPC/AI, die eine geringe Latenz und eine hohe E/A-Parallelität erfordern, kann die vorhandene TCP/IP-Software- und Hardwarearchitektur die Anwendungsanforderungen nicht erfüllen. Bei der herkömmlichen TCP/IP-Netzwerkkommunikation wird der Kernel zum Senden von Nachrichten verwendet, was einen hohen Datenbewegungs- und Datenkopieraufwand mit sich bringt. Wenn beispielsweise bei einer typischen IP-Datenübertragung eine Anwendung auf einem Computer Daten an eine Anwendung auf einem anderen Computer sendet, werden auf der Empfängerseite die folgenden Vorgänge ausgeführt:

  1. Der Kernel muss die Daten empfangen.
  2. Der Kernel muss ermitteln, zu welcher Anwendung die Daten gehören.
  3. Der Kernel weckt die Anwendung.
  4. Der Kernel wartet darauf, dass die Anwendung einen Systemaufruf für den Kernel durchführt.
  5. Die Anwendung kopiert die Daten aus dem Kernel-Speicherplatz in den von der Anwendung bereitgestellten Puffer.

Dieser Vorgang bedeutet, dass der Großteil des Netzwerkverkehrs in den Hauptspeicher des Systems kopiert wird, wenn der Host-Adapter Direct Memory Access (DMA) verwendet. Darüber hinaus führt der Computer einige Kontextwechsel durch, um zwischen dem Kernel und der Anwendung zu wechseln. Diese Kontextwechsel können zu einer höheren CPU-Auslastung und hohem Datenverkehr führen und gleichzeitig andere Aufgaben verlangsamen.

TCP-IP-Übertragung

TCP/IP-Übertragung

Im Gegensatz zur herkömmlichen IP-Kommunikation umgeht die RDMA-Kommunikation den Kernel-Eingriff in den Kommunikationsprozess, sodass der Host direkt auf den Speicher eines anderen Hosts zugreifen kann, wodurch der CPU-Overhead reduziert wird. Mithilfe des RDMA-Protokolls kann der Host-Adapter entscheiden, welche Anwendung das Paket empfangen soll und wo es im Speicherbereich dieser Anwendung gespeichert werden soll, nachdem das Paket das Netzwerk erreicht hat. Der Host-Adapter sendet das Paket nicht zur Verarbeitung an den Kernel und kopiert es in den Speicher der Benutzeranwendung, sondern legt den Paketinhalt direkt in den Anwendungspuffer.

RDMA-Übertragung

RDMA-Übertragung

Die RDMA-Übertragung reduziert die Anzahl der beteiligten CPU-Zyklen, was zur Verbesserung von Durchsatz und Leistung beiträgt. Mit anderen Worten, der Kern von RDMA besteht darin, dass es der Netzwerkkarte in groß angelegten verteilten Rechen- und Speicherszenarien ermöglicht, die CPU zu umgehen und direkt auf den Speicher des Remote-Servers zuzugreifen, wodurch die Interaktion zwischen Servern beschleunigt, die Latenz verringert und die Nutzung erleichtert wird die wertvollen CPU-Ressourcen für hochwertige Berechnungen und Logiksteuerung.

Im Vergleich zu herkömmlichen TCP/IP-Netzwerken umgehen InfiniBand und RoCEv2 den Kernel-Protokollstapel und die Latenzleistung kann um mehrere Größenordnungen verbessert werden. Wenn die Kommunikation innerhalb desselben Clusters in einem einzigen Hop erreicht werden kann, zeigen experimentelle Tests, dass nach Umgehung des Kernel-Protokollstapels die End-to-End-Latenz auf der Anwendungsebene von 50us (TCP/IP) auf 5us (RoCE) reduziert werden kann ) oder 2us (InfiniBand).

End-to-End-Kommunikationslatenz verschiedener Technologien

Eine Einführung in InfiniBand-Netzwerke

InfiniBand-Netzwerke verwenden InfiniBand-Adapter oder -Switches anstelle von Ethernet, um die Datenübertragung zu erreichen. Die Port-zu-Port-Latenz eines bestimmten Ethernet-Switch-Typs beträgt 230 ns, während die Latenz eines InfiniBand-Switches mit der gleichen Anzahl von Ports 100 ns beträgt.

InfiniBand-Netzwerke

Zu den Schlüsselkomponenten eines InfiniBand-Netzwerks gehören ein Subnetzmanager (SM), eine IB-Netzwerkkarte, ein IB-Switch und ein IB-Kabel. InfiniBand-Switches führen keine Routing-Protokolle aus und die Weiterleitungstabellen des gesamten Netzwerks werden von einem zentralen Subnetzmanager berechnet und verteilt. Zusätzlich zu den Weiterleitungstabellen ist der SM auch für die Verwaltung von Partitionen, QoS und anderen Konfigurationen im InfiniBand-Subnetz verantwortlich. InfiniBand-Netzwerke erfordern dedizierte Kabel und optische Module, um Switches miteinander zu verbinden und Switches mit Netzwerkkarten zu verbinden.

Lokales verlustfreies Netzwerk

InfiniBand-Netzwerke nutzen einen Credit-Token-Mechanismus, um Pufferüberlauf und Paketverlust grundsätzlich zu vermeiden. Der Absender initiiert die Paketübertragung erst, nachdem er bestätigt hat, dass der Empfänger über genügend Guthaben verfügt, um die entsprechende Anzahl von Paketen zu akzeptieren.

Jeder Link im InfiniBand-Netzwerk verfügt über einen vorgegebenen Puffer. Der Sender überträgt keine Daten, die die Größe des beim Empfänger verfügbaren vorgegebenen Puffers überschreiten. Sobald der Empfänger die Weiterleitung abgeschlossen hat, gibt er den Puffer frei und sendet kontinuierlich die aktuell verfügbare vorgegebene Puffergröße an den Sender zurück. Dieser Flusskontrollmechanismus auf Verbindungsebene stellt sicher, dass der Absender nicht zu viele Daten sendet und verhindert so einen Netzwerkpufferüberlauf und Paketverluste.

Diagramm der verlustfreien Datenübertragung im InfiniBand-Netzwerk

Erweiterungsmöglichkeit für Netzwerkkarten

Das adaptive Routing von InfiniBand basiert auf dynamischem Routing pro Paket und gewährleistet so eine optimale Netzwerkauslastung bei groß angelegten Bereitstellungen. Es gibt viele Beispiele für große GPU-Cluster, die InfiniBand-Netzwerke nutzen, etwa Baidu Artificial Intelligence Cloud und Microsoft Azure.

InfiniBand-Netzwerkkarten haben sich in puncto Geschwindigkeit rasant weiterentwickelt, wobei 200 Gbit/s HDR bereits weit verbreitet kommerziell eingesetzt werden und auch 400 Gbit/s NDR-Netzwerkkarten beginnen, kommerziell eingesetzt zu werden. Derzeit gibt es auf dem Markt große InfiniBand-Netzwerklösungen und unterstützende Geräteanbieter wie NVIDIA, Intel, Cisco und HPE. Unter ihnen hat NVIDIA mit über 70 % den höchsten Marktanteil. Die folgende Abbildung zeigt die häufig verwendeten InfiniBand-Netzwerkkarten.

Erweiterungsmöglichkeit für Netzwerkkarten

Eine Einführung in RoCEv2-Netzwerke

RoCE implementiert RDMA-Funktionalität über Ethernet, wodurch TCP/IP umgangen und Hardware verwendet werden kann offLaden, wodurch die CPU-Auslastung reduziert wird. RoCE hat zwei Hauptversionen: RoCEv1 und RoCEv2. RoCEv1 ist ein RDMA-Protokoll, das über die Ethernet-Verbindungsschicht implementiert wird. Switches müssen Flusskontrolltechniken wie PFC unterstützen, um eine zuverlässige Übertragung auf der physikalischen Ebene zu gewährleisten. RoCEv2 wird über die UDP-Schicht des Ethernet-TCP/IP-Protokolls implementiert und führt das IP-Protokoll ein, um Skalierbarkeitsprobleme zu lösen.

RoCEv2 unterstützt RDMA-Routing über Layer-3-Ethernet-Netzwerke. RoCEv2 ersetzt die InfiniBand-Netzwerkschicht durch IP- und UDP-Header über die Ethernet-Verbindungsschicht, was es ermöglicht, RoCE zwischen herkömmlichen Routern auf IP-Basis weiterzuleiten.

InfiniBand-Netzwerke sind bis zu einem gewissen Grad zentral verwaltete Netzwerke mit SM (Subnet Manager), während RoCEv2-Netzwerke reine verteilte Netzwerke sind, die aus NICs und Switches bestehen, die RoCEv1 unterstützen und normalerweise eine zweischichtige Architektur verwenden.

Diagramm der RoCE-Netzwerkarchitektur

Die Hauptlieferanten von RoCE-Netzwerkkarten sind NVIDIA, Intel und Broadcom usw. PCIe-Karten sind die Hauptform von Netzwerkkarten für Rechenzentrumsserver. Die Port-PHY-Geschwindigkeit von RDMA Karten beginnen normalerweise bei 50 Gbit/s, und die derzeit verfügbaren kommerziellen Netzwerkkarten können eine Single-Port-Geschwindigkeit von bis zu 400 Gbit/s erreichen.

RoCE-Netzwerkkarte

Derzeit unterstützen die meisten Rechenzentrums-Switches die RDMA-Flusskontrolltechnologie, die in Kombination mit Netzwerkkarten, die RoCE unterstützen, eine durchgängige RDMA-Kommunikation erreichen kann. Zu den Hauptakteuren bei Rechenzentrums-Switches gehören Cisco, HPE, Arista usw. Der Kern von Hochleistungs-Switches ist der von ihnen verwendete Weiterleitungschip. Die derzeit auf dem Markt befindlichen Chips der Tomahawk-Serie von Broadcom werden häufig in kommerziellen Weiterleitungschips verwendet. Unter ihnen wird der Chip der Tomahawk3-Serie häufiger in Schaltern verwendet, und Schalter, die den Chip der Tomahawk4-Serie unterstützen, kommen nach und nach auf den Markt.

Entwicklung von Ethernet-Weiterleitungschips

InfiniBand vs. RoCE

Im Vergleich zu InfiniBand bietet RoCE eine größere Vielseitigkeit und vergleichsweise geringere Kosten. Es kann nicht nur zum Aufbau leistungsstarker RDMA-Netzwerke verwendet werden, sondern auch für traditionelles Ethernet. Allerdings kann die Konfiguration von Parametern wie Headroom, PFC (Priority-based Flow Control) und ECN (Explicit Congestion Notification) auf Switches komplex sein. Bei groß angelegten Bereitstellungen kann die Gesamtdurchsatzleistung von RoCE-Netzwerken etwas geringer sein als die von InfiniBand-Netzwerken.

IB vs. RoCE
  • Aus technischer Sicht nutzt InfiniBand verschiedene Technologien, um die Leistung der Netzwerkweiterleitung zu verbessern, die Fehlerbehebungszeit nach Fehlern zu verkürzen, die Skalierbarkeit zu verbessern und die betriebliche Komplexität zu reduzieren.
  • Im Hinblick auf die Geschäftsleistung weist InfiniBand eine geringere End-to-End-Latenz als RoCEv2 auf, sodass auf InfiniBand basierende Netzwerke einen Vorteil bei der Geschäftsleistung auf Anwendungsebene haben.
  • In Bezug auf Bandbreite und Latenz wirken sich Faktoren wie Überlastung und Routing auf eine leistungsstarke Netzwerkverbindung aus.

Stau

InfiniBand verwendet zwei verschiedene Frame-Relay-Nachrichten zur Kontrolle von Überlastungen: Forward Explicit Congestion Notification (FECN) und Backward Explicit Congestion Notification (BECN). Wenn das Netzwerk überlastet ist, benachrichtigt FECN das empfangende Gerät, während BECN das sendende Gerät benachrichtigt. InfiniBand kombiniert FECN und BECN mit einer adaptiven Markierungsrate, um Überlastungen zu reduzieren. Es bietet eine grobkörnige Überlastungskontrolle.

Die Überlastungskontrolle auf RoCE nutzt Explicit Congestion Notification (ECN), eine Erweiterung von IP und TCP, die eine Benachrichtigung über Endpunkt-Netzwerküberlastungen ermöglicht, ohne dass Pakete verloren gehen. ECN markiert den IP-Header, um dem Absender mitzuteilen, dass eine Überlastung vorliegt. Bei Nicht-ECN-Überlastungskommunikation müssen verlorene Pakete erneut übertragen werden. ECN reduziert Paketverluste, die durch Überlastung der TCP-Verbindung verursacht werden, und vermeidet Neuübertragungen. Weniger erneute Übertragungen können Latenz und Jitter reduzieren und so eine bessere Transaktions- und Durchsatzleistung ermöglichen. ECN bietet auch eine grobkörnige Überlastungskontrolle, die gegenüber InfiniBand keinen offensichtlichen Vorteil hat.

Routing

Wenn im Netzwerk eine Überlastung auftritt, leitet adaptives Routing Geräte über alternative Routen, um Überlastungen zu vermeiden und die Übertragung zu beschleunigen. RoCE v2 läuft auf IP. IP ist seit Jahrzehnten durch fortschrittliche Routing-Algorithmen routbar und kann jetzt mit KI-Maschinenlernen überlastete Routen vorhersagen und Pakete automatisch über schnellere Routen senden. Hinsichtlich des Routings haben Ethernet und RoCE v2 erhebliche Vorteile.

Allerdings tragen InfiniBand und RoCE nicht viel zur Bewältigung der Tail-Latenz bei. Die Tail-Latenz ist für die Synchronisierung von HPC-Nachrichtenanwendungen sehr wichtig.

UEC plant die Definition eines neuen Transportprotokolls

Zusätzlich zu den Modi InfiniBand und RoCE wurden weitere Protokolle von der Industrie vorgeschlagen.

Am 19. Juli wurde das Ultra Ethernet Consortium (UEC) gegründet offoffiziell gegründet. Das Ziel von UEC besteht darin, über die bestehenden Ethernet-Funktionen hinauszugehen und eine leistungsstarke, verteilte und verlustfreie Transportschicht bereitzustellen, die für Hochleistungsrechnen und künstliche Intelligenz optimiert ist. Zu den Gründungsmitgliedern von UEC gehören AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta und Microsoft, die alle über jahrzehntelange Erfahrung in den Bereichen Netzwerke, künstliche Intelligenz, Cloud und groß angelegte High-Performance-Computing-Implementierungen verfügen.

Gründungsmitglieder

UEC ist der Ansicht, dass RDMA, das vor Jahrzehnten definiert wurde, im anspruchsvollen KI/ML-Netzwerkverkehr veraltet ist. RDMA überträgt Daten in großen Datenblöcken, was zu Verbindungsungleichgewichten und Überlastungen führen kann. Es ist an der Zeit, mit dem Aufbau eines modernen Transportprotokolls zu beginnen, das RDMA für neue Anwendungen unterstützt.

Es wird berichtet, dass sich das UEC-Transportprotokoll in der Entwicklung befindet, mit dem Ziel, einen besseren Ethernet-Transport als das aktuelle RDMA (unterstützt immer noch RDMA) bereitzustellen und gleichzeitig die Vorteile von Ethernet/IP beizubehalten und die für KI- und HPC-Anwendungen erforderliche Leistung bereitzustellen. UEC-Transport ist eine neue Form der Near-Transport-Schicht, die einige semantische Anpassungen, ein Überlastungsbenachrichtigungsprotokoll und verbesserte Sicherheitsfunktionen aufweist. UEC wird einen flexibleren Transport ermöglichen, der kein verlustfreies Netzwerk erfordert, sodass Many-to-Many-Workloads mit künstlicher Intelligenz Mehrwege- und Out-of-Order-Paketübertragung sowie andere Funktionen erfordern.

Mehr Unternehmensstärke

Da sich das HPC/KI-Netzwerk ständig weiterentwickelt, führen immer mehr Unternehmen ihre eigenen Netzwerkprotokolle oder -lösungen ein, um ihren spezifischen Anforderungen gerecht zu werden.

Tencent Cloud verwendet in seinem Starlink-Netzwerk sein selbst entwickeltes Starlink-RDMA-Netzwerk, das es GPUs ermöglicht, direkt miteinander zu kommunizieren, wodurch CPU-Ressourcen gespart und die Gesamtleistung und Effizienz der Rechenknoten verbessert werden. Durch sein selbst entwickeltes End-to-End-Kollaborationsprotokoll TiTa kann das Starlink-Netzwerk einen Paketverlust von 90 % bei Last 0 erreichen. Das TiTa-Protokoll integriert einen Überlastungskontrollalgorithmus, der den Netzwerkstatus in Echtzeit überwachen und die Kommunikation optimieren kann, wodurch die Datenübertragung reibungsloser und die Latenz verringert wird.

Alibaba Cloud Panjiu PredFabric verwendet sein selbst entwickeltes Solar-RDMA-Hochgeschwindigkeitsnetzwerkprotokoll, das es Prozessoren ermöglicht, über Lade-/Speicheranweisungen auf den Speicher jedes anderen Servers zuzugreifen, was sich sehr gut für die interaktive Form neuronaler Netze innerhalb von Deep-Learning-Modellen eignet . Im Vergleich zum herkömmlichen Modus können die Fehlerselbstheilungszeit und die Tail-Latenz um 90 % reduziert werden.

Das hyperkonvergente Rechenzentrumsnetzwerk von Huawei verwendet seinen ursprünglichen intelligenten verlustfreien iLossless-Algorithmus, der mit drei Schlüsseltechnologien zusammenarbeitet: Verkehrskontrolltechnologie, Überlastungskontrolltechnologie und intelligente verlustfreie Speichernetzwerktechnologie, um das Auftreten von PFC-Deadlocks im Voraus zu verhindern, Überlastungen zu lindern/lösen, und eine schnelle Kontrolle über Hosts zu erreichen, wodurch ein verlustfreies Ethernet-Netzwerk aufgebaut und das Problem des Paketverlusts durch Überlastung in herkömmlichen Ethernet-Netzwerken gelöst wird.

Die wachsende Marktnachfrage ist die grundlegende treibende Kraft für die technologische Entwicklung. Laut IDC-Daten werden die Investitionen in den Bau der KI-Infrastruktur im Jahr 154 2023 Milliarden US-Dollar erreichen und bis 300 auf 2026 Milliarden US-Dollar steigen. Im Jahr 2022 hat der KI-Netzwerkmarkt 2 Milliarden US-Dollar erreicht, wovon InfiniBand 75 % des Umsatzes beisteuerte .

Beim Vergleich von InfiniBand und RoCE können wir erkennen, dass beide ihre eigenen Vorteile und Anwendungsszenarien haben. InfiniBand schneidet im Bereich Hochleistungsrechnen gut ab und bietet hervorragende Leistung, geringe Latenz und Skalierbarkeit. RoCE lässt sich einfacher in die bestehende Ethernet-Infrastruktur integrieren und ist kostengünstiger. Die von UEC vertretenen neuen Transportprotokolle stehen auch für die kontinuierliche Weiterentwicklung und Innovation der Technologie. Nur wenn wir uns an die sich ändernden Bedürfnisse anpassen, können wir unsere Wettbewerbsfähigkeit aufrechterhalten.

Hinterlasse einen Kommentar

Nach oben scrollen