Warum wechselt NVIDIA? Wie hängt es mit generativer KI zusammen?

Die meiste Aufmerksamkeit auf der Computex galt NVIDIAs neuem DGX GH200 und MGX – beides sind NVIDIAs KI-Produkte auf Systemebene, unabhängig davon, ob es sich um Referenzdesigns oder komplette Server handelt. Diese Chips, Platinen und Systeme im Zusammenhang mit CPUs und GPUs waren schon immer ein heißes Thema für NVIDIA, da KI und HPC ebenso beliebt sind.

Aber tatsächlich ist im Kontext von KI-HPC, insbesondere generativer KI oder dem, was viele Leute heute als „Großmodell“-Computing bezeichnen, auch die Vernetzung sehr wichtig. Mit anderen Worten: Es bedarf einer großen Anzahl von Servern, die zusammenarbeiten, um Probleme zu lösen, und ein großer Cluster ist erforderlich, um die Rechenleistung über Systeme und Knoten hinweg zu erweitern. Daher geht es bei Leistungsproblemen nicht nur um die Rechenleistung von CPUs, GPUs und KI-Chips innerhalb eines Knotens.

Zuvor erwähnte Google, dass in der gesamten KI-Infrastruktur die Bedeutung der Architektur auf Systemebene sogar noch höher ist als die der TPU-Chip-Mikroarchitektur. Natürlich deckt diese „Systemebene“ nicht unbedingt die knotenübergreifende Vernetzung ab, aber wenn eine Reihe von Chips zusammenarbeiten, um Berechnungen durchzuführen, werden das System und das Netzwerk offensichtlich zu Leistungsengpässen.

Deshalb ist DPU so wichtig – und nicht eine subjektive Möglichkeit, bestehende Produkte auf dem Markt zu verkaufen oder mit ihnen zu konkurrieren. NVIDIAs DPU und andere Netzwerkprodukte sind eher kurze Ergänzungen zu ihren eigenen Produkten und stehen subjektiv nicht im Wettbewerb mit anderen oder im Wettbewerb mit bestehenden Produkten auf dem Markt. Aus dieser Perspektive stellen die Hardwareprodukte von NVIDIA horizontal ein komplettes Ökosystem dar: Beispielsweise ist die DPU subjektiv nicht dazu gedacht, mit irgendjemandem zu konkurrieren, sondern ist ein Teil ihrer bestehenden Produkte.

Computex

Auf der Computex kündigte NVIDIA Netzwerkprodukte rund um seine Spectrum-X-Ethernet-Plattform an. NVIDIA behauptet, dies sei das weltweit erste Hochleistungs-Ethernet-Produkt, das speziell für KI entwickelt wurde, insbesondere für „generative KI-Workloads, die eine neue Art von Ethernet erfordern“. Wir haben in der Vergangenheit nicht viel über die Netzwerkprodukte von NVIDIA gesprochen, einschließlich der Datenverarbeitungseinheit (DPU). Mit der Einführung von Spectrum-X versucht dieser Artikel, dieses Ethernet-Produkt sowie die Logik hinter den Netzwerkprodukten von NVIDIA zu diskutieren.

Warum will NVIDIA einen „Switch“ bauen?

Die beiden Kernkomponenten innerhalb der Spectrum-X-Plattform sind der Spectrum-4-Ethernet-Switch und die BlueField-3-DPU. Der Teil über die DPU wird nicht ausführlich erklärt; Der andere Teil des Spectrum-Switches, die eigentlichen AGB, hat letztes Jahr NVIDIA den Spectrum-4 400-Gbit/s-Switch herausgebracht. Die Chipebene basiert auf dem Spectrum ASIC – Huang Renxun zeigte den Chip auf der Computex-Keynote, einen großen Chip mit 100 Milliarden Transistoren, 90 x 90 mm, 800 Lötkugeln an der Unterseite des Chipgehäuses und einer Leistungsaufnahme von 500 W.

Huang Renxun zeigte den Chip

Die Ankündigung der „ersten Hochleistungs-Ethernet-Architektur“, die speziell für KI entwickelt wurde, das Spectrum-4-Ethernet-Switch-System, ist jetzt für CSPs verfügbar.

Wie in der Abbildung dargestellt, verfügt das System über insgesamt 128 Ports mit einer Bandbreitenkapazität von 51.2 TB/s, was doppelt so viel ist wie bei herkömmlichen Ethernet-Switches. Nach Angaben des Unternehmens wird diese neue Technologie es Netzwerkingenieuren, KI-Datenwissenschaftlern und Cloud-Dienstanbietern ermöglichen, schneller Ergebnisse zu erzielen und Entscheidungen zu treffen, und gleichzeitig generative KI-Clouds ermöglichen. Hohe Bandbreite und niedrige Latenz sind entscheidend für die Linderung von Leistungsengpässen bei der GPU-Skalierung über Knoten hinweg. Der gesamte Switch verbraucht 2800 W Strom.

Insgesamt verfügt das System über 128 Ports

Auf der letztjährigen GTC erklärte NVIDIA, dass der Switch nicht dazu gedacht sei, mit den herkömmlichen Netzwerk-Switches bei der Handhabung des routinemäßigen „Mausfluss“-Verkehrs zu konkurrieren, sondern sich stattdessen auf die Verarbeitung des „Elefantenfluss“-Verkehrs konzentriert und Hardwareprodukte für groß angelegte digitale KI nutzt Zwillinge und Simulationsanwendungen.

„Herkömmliche Switches sind zu langsam, um die aktuellen generativen KI-Workloads zu bewältigen. Darüber hinaus stehen wir noch am Anfang der KI-Revolution. Herkömmliche Switches mögen für Standard-Clouds ausreichen, aber sie können nicht die erforderliche Leistung für KI-Cloud-Lasts bieten, die generative KI beinhalten“, sagte Gilad Shainer, Networking SVP von NVIDIA, während seiner Keynote-Rede.

Während des Pre-Briefings fragte ein Reporter konkret, ob NVIDIA Spectrum direkt mit Switches von Arista und anderen Unternehmen konkurriert. Shainers Antwort war, dass es keine Konkurrenz gebe: „Andere Ethernet-Switches auf dem Markt werden zum Aufbau gewöhnlicher Commodity-Clouds oder des Nord-Süd-Verkehrs verwendet, der Benutzerzugriff und Cloud-Kontrolle umfasst.“ Allerdings gibt es derzeit keine Lösung auf dem Markt, die den Anforderungen generativer KI für Ethernet gerecht wird. Als weltweit erstes Ethernet-Netzwerk für Ost-West-Verkehr in generativer KI hat Spectrum-4 eine brandneue Ethernet-Lösung geschaffen, die speziell auf dieses Ziel abzielt.“ Shainer erwähnte während des Briefings auch, dass die bestehenden Switching-Produkte von Broadcom nicht mit Spectrum-4 konkurrieren. NVIDIA betont, dass Spectrum-X ein verlustfreies Ethernet-Netzwerk schafft, was für die Erklärung der Spectrum-X-Plattform besonders wichtig sein könnte.

InfiniBand vs. Ethernet

Ethernet hat sich im Laufe der Zeit weiterentwickelt. Verlustfrei ist spezifisch, da Ethernet ursprünglich für verlustbehaftete Netzwerkumgebungen entwickelt wurde. Mit anderen Worten: Paketverluste sind in diesem Netzwerk zulässig. Um die Zuverlässigkeit zu gewährleisten, benötigt die obere Schicht des IP-Netzwerks das TCP-Protokoll. Das heißt, wenn während der Paketübertragung ein Paketverlust auftritt, ermöglicht das TCP-Protokoll dem Absender, die verlorenen Pakete erneut zu übertragen. Aufgrund dieser Fehlerkorrekturmechanismen erhöht sich jedoch die Latenz, was bei bestimmten Arten von Anwendungen zu Problemen führen kann. Um plötzliche Verkehrsspitzen im Netzwerk bewältigen zu können, müssen Switches außerdem zusätzliche Cache-Ressourcen für die vorübergehende Speicherung von Informationen bereitstellen. Aus diesem Grund sind Ethernet-Switch-Chips größer und teurer als InfiniBand-Chips mit ähnlichen Spezifikationen.

Allerdings seien „verlustbehaftete Netzwerke für High-Performance-Computing (HPC)-Rechenzentren inakzeptabel.“ Huang Renxun erklärte: „Die Gesamtkosten für den Betrieb einer HPC-Arbeitslast sind sehr hoch und jegliche Verluste im Netzwerk sind schwer zu ertragen.“ Darüber hinaus sind verlustbehaftete Netzwerke aufgrund von Anforderungen wie der Leistungsisolierung tatsächlich schwer zu ertragen. NVIDIA verwendet einen Netzwerkkommunikationsstandard namens InfiniBand. InfiniBand wird häufig in HPC-Anwendungen verwendet, die einen hohen Durchsatz und eine geringe Latenz erfordern. Im Gegensatz zu Ethernet, das universeller ist, eignet sich InfiniBand besser für datenintensive Anwendungen.

InfiniBand gibt es nicht nur bei NVIDIA. Es wurde ursprünglich von einer Reihe von Unternehmen entwickelt, darunter unter anderem Intel, IBM und Microsoft, und es gab sogar eine spezialisierte Allianz namens IBTA. Mellanox begann etwa im Jahr 2000 mit der Vermarktung von InfiniBand-Produkten. Laut der Einleitung von Wikipedia bestand das ursprüngliche Ziel von InfiniBand darin, PCI bei I/O und Ethernet bei der Verbindung von Maschinenräumen und Clustern zu ersetzen.

Leider wurde InfiniBand in der Zeit des Platzens der Dotcom-Blase entwickelt und seine Entwicklung wurde unterdrückt. Teilnehmer wie Intel und Microsoft hatten alle neue Möglichkeiten. Laut der TOP500-Liste der Supercomputer im Jahr 2009 gab es jedoch bereits 181 interne Verbindungen InfiniBand (der Rest war Ethernet) und bis 2014 nutzten mehr als die Hälfte von ihnen InfiniBand, obwohl 10-Gb-Ethernet in den folgenden zwei Jahren schnell aufholte. Als NVIDIA Mellanox im Jahr 2019 übernahm, war Mellanox bereits zum Hauptlieferanten von InfiniBand-Kommunikationsprodukten auf dem Markt geworden.

Aus gestalterischer Sicht ging es bei Ethernet, das in den 1980er Jahren geboren wurde, nur darum, die Informationsinteroperabilität zwischen mehreren Systemen zu erreichen. Im Gegensatz dazu wurde InfiniBand entwickelt, um den Engpass bei der Cluster-Datenübertragung in HPC-Szenarien zu beseitigen, beispielsweise hinsichtlich der Latenz, und sein Layer-2-Switching-Verarbeitungsdesign ist ziemlich direkt, was die Weiterleitungslatenz erheblich reduzieren kann. Daher eignet es sich natürlich für HPC, Rechenzentren und Supercomputer-Cluster: hoher Durchsatz, geringe Latenz und hohe Zuverlässigkeit.

hoher Durchsatz, geringe Latenz und hohe Zuverlässigkeit

Unter dem Gesichtspunkt der Zuverlässigkeit verfügt InfiniBand selbst über eine vollständige Protokolldefinition für die Netzwerkschichten 1–4: Es verhindert Paketverluste durch End-to-End-Flusskontrollmechanismen, wodurch die verlustfreie Eigenschaft erreicht wird. Ein weiterer wesentlicher Unterschied zwischen den beiden besteht darin, dass InfiniBand auf einem Switched-Fabric-Netzwerkdesign basiert, während Ethernet auf einem gemeinsam genutzten Medium-Shared-Channel basiert. Theoretisch ist Ersteres besser in der Lage, Netzwerkkonfliktprobleme zu vermeiden.

Warum möchte Nvidia Ethernet entwickeln, wenn InfiniBand so gut ist? Wenn man intuitiv denkt, sollten die Marktbasis, die Vielseitigkeit und die Flexibilität von Ethernet wichtige Faktoren sein. In seiner Keynote sprach Huang darüber, wie „wir generative KI in jedes Rechenzentrum bringen wollen“, was Vorwärtskompatibilität erfordert; „Viele Unternehmen setzen Ethernet ein“ und „es ist für sie schwierig, die InfiniBand-Fähigkeit zu bekommen, deshalb bringen wir diese Fähigkeit auf den Ethernet-Markt.“ Dies ist die Geschäftslogik hinter der Einführung von Spectrum-4. Aber wir denken, dass das definitiv nicht die ganze Geschichte ist.

NVIDIA arbeitet sowohl an Ethernet- als auch an InfiniBand-Produkten, wobei ersteres die Spectrum-Ethernet-Plattform und letzteres Quantum InfiniBand heißt. Wenn man sich das anschaut offAuf unserer offiziellen Seite werden Sie feststellen, dass InfiniBand-Lösungen „zusätzlich zu HPC-, KI- und Supercluster-Cloud-Infrastrukturen eine unübertroffene Leistung bei geringeren Kosten und geringerer Komplexität bieten“; während Spectrum beschleunigtes Ethernet-Switching für KI und Cloud ist. Offensichtlich konkurrieren die beiden bis zu einem gewissen Grad.

Warum Ethernet?

In seiner Keynote erläuterte Huang wissenschaftlich die verschiedenen Arten von Rechenzentren – tatsächlich hatte NVIDIA letztes Jahr auf der GTC Rechenzentren klar in sechs Kategorien eingeteilt. Und in dem KI-Szenario, das wir heute diskutieren, können Rechenzentren in zwei Hauptkategorien unterteilt werden. Eine Kategorie muss für eine ganze Reihe unterschiedlicher Anwendungslasten verantwortlich sein, wobei es möglicherweise viele Mandanten und schwache Abhängigkeiten zwischen den Lasten gibt.

Aber es gibt typischerweise eine andere Kategorie wie Supercomputing oder das mittlerweile beliebte KI-Supercomputing, das nur sehr wenige Mandanten (nur 1 Bare-Metal) und eng gekoppelte Lasten aufweist – was einen hohen Durchsatz für große Rechenprobleme erfordert. Der Unterschied in der Infrastruktur, die diese beiden Arten von Rechenzentren erfordern, ist erheblich. Der Intuition nach zu urteilen, wäre die primitivste verlustbehaftete Umgebung von Ethernet für die letztgenannte Anforderung nicht geeignet. Auf die Gründe hierfür wurde bereits im vorherigen Artikel eingegangen.

SemiAnalysis hat kürzlich einen Artikel geschrieben, in dem speziell auf die vielen Probleme mit InfiniBand eingegangen wird – hauptsächlich technische, die NVIDIA als Referenz für die gleichzeitige Entwicklung von Ethernet dienen können. Einige davon werden hier als Referenz extrahiert. Tatsächlich entwickeln sich sowohl InfiniBand als auch Ethernet selbst ständig weiter.

Die Flusskontrolle von InfiniBand verwendet einen kreditbasierten Flusskontrollmechanismus. Jedem Link sind bestimmte Credits vorab zugewiesen, die Attribute wie die Linkbandbreite widerspiegeln. Wenn ein Paket empfangen und verarbeitet wird, gibt die empfangende Seite eine Gutschrift an die sendende Seite zurück. Im Idealfall würde ein solches System sicherstellen, dass das Netzwerk nicht überlastet wird, da der Absender auf die Rückkehr des Guthabens warten müsste, bevor er weitere Pakete versenden kann.

Warum Ethernet

Es gibt jedoch Probleme mit einem solchen Mechanismus. Wenn beispielsweise ein sendender Knoten Daten schneller an einen empfangenden Knoten sendet, als der empfangende Knoten die Daten verarbeiten kann, kann der Puffer des empfangenden Knotens voll werden. Der empfangende Knoten kann keine Credits an den sendenden Knoten zurückgeben und der sendende Knoten kann daher keine weiteren Datenpakete senden, da die Credits aufgebraucht sind. Wenn der empfangende Knoten keine Credits zurückgeben kann und der sendende Knoten auch ein empfangender Knoten für andere Knoten ist, kann die Unfähigkeit, Credits im Falle einer Bandbreitenüberlastung zurückzugeben, dazu führen, dass sich der Gegendruck auf einen größeren Bereich ausbreitet. Weitere Probleme sind Deadlocks und Fehlerraten, die durch verschiedene Komponenten verursacht werden.

Einige inhärente Probleme mit InfiniBand werden mit zunehmender Größe und Komplexität des Systems schwerwiegender. Die derzeit größte kommerziell implementierte InfiniBand-Lösung stammt wahrscheinlich von Meta, wo ein Forschungscluster insgesamt 16,000 NICs und 16,000 A100-GPUs bereitgestellt hat.

Dieser Umfang ist zweifellos gewaltig, aber SemiAnalysis gibt an, dass das Training von GPT-4 einen noch größeren Umfang erfordern wird und zukünftige Entwicklungen „großer Modelle“ wahrscheinlich eine Clustererweiterung erfordern werden. Theoretisch kann InfiniBand seine Gesamtkapazität weiter ausbauen, wird aber zunehmend unter den Auswirkungen inhärenter Probleme leiden. Aus Inferenzsicht können Latenz und Leistung immer noch von InfiniBand profitieren, aber für Inferenzlasten werden unterschiedliche Anforderungen kontinuierlich mit unterschiedlichen Geschwindigkeiten übertragen. Darüber hinaus erfordern zukünftige Architekturen, dass mehrere große Modelle in verschiedenen Batch-Größen innerhalb desselben großen Clusters enthalten sein müssen, was kontinuierliche kreditbasierte Änderungen der Flusssteuerung erfordert.

Der Kreditflusskontrollmechanismus ist schwierig, schnell auf Änderungen der Netzwerkumgebung zu reagieren. Wenn es innerhalb des Netzwerks eine große Menge unterschiedlichen Datenverkehrs gibt, kann sich der Pufferstatus des empfangenden Knotens schnell ändern. Wenn das Netzwerk überlastet ist, verarbeitet der sendende Knoten immer noch frühere Kreditinformationen, was das Problem noch komplexer macht. Wenn der sendende Knoten außerdem ständig auf Guthaben wartet und zwischen den beiden Zuständen der Datenübertragung wechselt, kann es leicht zu Leistungsschwankungen kommen.

Im Hinblick auf die Praktikabilität erreicht NVIDIAs aktueller Quantum-2 Bandbreiten von 25.6 TB/s, was zumindest zahlenmäßig gesehen niedriger ist als die 4 TB/s von Spectrum-51.2. Die schnelleren Quantum-Chips und -Infrastruktur werden erst im nächsten Jahr verfügbar sein, was für ein anderes Tempo sorgt. Darüber hinaus erfordert das Erreichen derselben Größenordnung (mehr als 8000 GPUs) des konventionellen GPU-Einsatzes aus Kostengründen eine zusätzliche Switching-Schicht und deutlich mehr Kabel (kostspielige optische Kabel). Daher sind die typischen Kosten für die Bereitstellung eines InfiniBand-Netzwerks deutlich höher als bei Ethernet. (DPU und NIC Kosten werden hier nicht berücksichtigt.)

Aus Kundensicht ist der Ethernet-Markt viel größer als der InfiniBand-Markt, was auch zur Reduzierung der Bereitstellungskosten beiträgt. Es gibt weitere spezifische vergleichbare Faktoren, wie zum Beispiel traditionelle Service-Frontend-Systeme auf Basis von Ethernet und das Problem der Lieferantenbindung mit InfiniBand für Kunden. Ethernet bietet offensichtlich mehr Auswahlmöglichkeiten und seine Bereitstellungselastizität und Skalierbarkeit könnten auch besser sein. Auf technischer Ebene scheint es einen potenziellen Nutzen für den zukünftigen Einsatz optischer Übertragungsinfrastruktur für Ethernet zu geben.

Dies könnte die theoretische Grundlage für NVIDIAs Fokus auf Ethernet sein oder Teil des Grundes, warum NVIDIA Ethernet für generative KI-Clouds gewählt hat. Ein Grund, der jedoch nur als Referenz dienen sollte, ist, dass InfiniBand von NVIDIA stark weiterentwickelt wurde und es für viele inhärente Probleme Lösungen gibt.

Quantum-2

Lassen Sie uns abschließend über die eingangs erwähnte Frage sprechen, nämlich dass Ethernet ursprünglich ein verlustbehaftetes Netzwerk war. Doch tatsächlich wurden mit der Entwicklung von Technologien wie RoCE (RDMA over Converged Ethernet) einige der Vorteile von InfiniBand auch auf Ethernet übertragen. Tatsächlich ist die Technologieerweiterung in gewissem Maße die Integration der Vorteile verschiedener Technologien, einschließlich der hohen Leistung und Verlustfreiheit von InfiniBand, der Universalität, Kosteneffizienz und Flexibilität von Ethernet usw.

Das in den Funktionen der Spectrum-X-Plattform erwähnte RoCE erreicht Verlustfreiheit in Ethernet-Netzwerken, indem es auf der prioritätsbasierten Flusskontrolle (PFC) auf der endpunktseitigen NIC und nicht auf Switch-Geräten basiert. Darüber hinaus verfügt RoCE++ über einige neue optimierte Erweiterungen, wie z. B. ASCK, das Probleme mit Paketverlust und Ankunftsreihenfolge behandelt und es der empfangenden Seite ermöglicht, die sendende Seite zu benachrichtigen, nur verlorene oder beschädigte Pakete erneut zu übertragen, wodurch eine höhere Bandbreitenauslastung erreicht wird; Hinzu kommen ECN, Flusskontrollmechanismen und Fehleroptimierung, die alle zur Verbesserung der Effizienz und Zuverlässigkeit beitragen. Um die Skalierbarkeitsprobleme von Endpunkt-NICs in Standard-Ethernet mit RoCE-Netzwerken zu lindern, kann außerdem der Bluefield-NIC-Modus verwendet werden, und die Gesamtkosten der DPU können durch Ethernet und einige neue Technologien immer noch verwässert werden.

In seiner Grundsatzrede erwähnte Huang Renxun ausdrücklich Spectrum-X, das vor allem zwei wichtige Eigenschaften in Ethernet einbringt: adaptives Routing und Überlastungskontrolle. Darüber hinaus hat NVIDIA bereits zuvor mit IDC zusammengearbeitet, um einen Whitepaper-Bericht über den kommerziellen Wert von Ethernet-Switching-Lösungen herauszugeben.

Bei groß angelegten KI-Anwendungen wird Ethernet möglicherweise in Zukunft eine unumgängliche Wahl sein. Daher bereitet sich NVIDIA bei der Förderung von Spectrum-X speziell auf generative KI-Clouds vor, die „erste“ Lösung für den Ost-West-Verkehr generativer KI. Es kann jedoch noch mehr Gründe als die starke Universalität von Ethernet geben. Unter KI-HPC-Belastungen besteht mit einer gewissen Wahrscheinlichkeit die Möglichkeit einer umfassenden Umstellung Ethernet.

Die Entwicklung verschiedener Standards ist an sich ein Prozess, bei dem die Mängel des anderen ständig überprüft, ergänzt und das Wesentliche aufgenommen wird. Genau wie bei InfiniBand gibt es verschiedene Schadensbegrenzungslösungen zur Behebung inhärenter Fehler, und einige erweiterte Eigenschaften von InfiniBand sind auch für die Anwendung in der KI sehr hilfreich. Dies ist ein Vergleichsproblem zwischen Auswahl und Technologieentwicklung. Wir können abwarten, ob NVIDIA in Zukunft auf die Entwicklung von InfiniBand oder Ethernet setzen wird, auch wenn diese beiden ihre jeweiligen Anwendungsszenarien haben.

Hinterlasse einen Kommentar

Nach oben scrollen