NVIDIA GB200-Analyse: Verbindungsarchitektur und zukünftige Entwicklung

Analyse der GB200-Verbindungsarchitektur

Bei NVIDIA herrscht große Verwirrung bei der Berechnung der NVLink-Übertragungsbandbreite und den Konzepten von SubLink/Port/Lane. Normalerweise beträgt die NVLink-Bandbreite eines einzelnen B200-Chips 1.8 TB/s. Dies wird normalerweise mithilfe des Speicherbandbreitenalgorithmus berechnet, wobei die Einheit Bytes pro Sekunde (B/s) ist. Beim NVLink-Switch oder den IB/Ethernet-Switches und Netzwerkkarten stammt die Perspektive jedoch von Mellanox, der die Netzwerkbandbreite in Bits pro Sekunde (b/s) berechnet. Lassen Sie uns die NVLink-Berechnungsmethode im Detail erklären. Ab NVLink 3.0 bilden vier Differentialpaare einen „Sub-Link“ (NVIDIA verwendet häufig die Begriffe Port/Link, mit einer etwas vagen Definition). Diese 4 Paare Differenzsignalleitungen enthalten sowohl die Empfangs- als auch die Senderichtungssignale. Bei der Berechnung der Netzwerkbandbreite bezieht sich eine 400-Gbit/s-Schnittstelle normalerweise auf die Fähigkeit, 400 Gbit/s an Daten gleichzeitig zu senden und zu empfangen.

400-Gbit/s-Schnittstelle

Es besteht aus insgesamt 4 Paaren differenzieller Signalleitungen, jeweils 2 Paaren für RX und TX. Aus Sicht des Netzwerks handelt es sich um eine unidirektionale 400-Gbit/s-Verbindung, während aus Sicht der Speicherbandbreite eine Speicherzugriffsbandbreite von 100 GB/s unterstützt wird.

NVLINK 5.0-Verbindungsbandbreite

Die Blackwell-Generation verwendet 224G Serdes mit einer Sublink-Übertragungsrate von 200 Gbit/s * 4 (4 Differentialpaare) / 8 = 100 GB/s und einer Netzwerkbandbreite in eine Richtung von 400 Gbit/s. Der B200 verfügt über 18 Sub-Links, was zu einer Bandbreite von 100 GB/s * 18 = 1.8 TB/s führt, was aus Netzwerksicht 9 Single-Direction-400-Gbit/s-Schnittstellen entspricht. In ähnlicher Weise wird in der NVSwitch-Einführung erwähnt, dass zwei SerDes mit 200 Gbit/s 400 Gbit/s ergeben

Sport.

nvlink Switch-Chip

Der Übersichtlichkeit halber definieren wir die folgenden Begriffe:

Hbm

Die B200 NVLINK-Bandbreite beträgt 1.8 TB/s und besteht aus 18 Ports mit jeweils 100 GB/s, bestehend aus vier Differentialpaaren, wobei jeder Port zwei 224-Gbit/s-Serdes enthält (2x224G PAM4 entspricht). 400Gbps Single-Direction-Bandbreite pro Port).

NVLINK 4.0-Verbindung

In Bezug auf Hopper verwendet NVLINK 4.0 112G Serdes mit einer einzelnen Differenzsignalleitung mit 100 Gbit/s, was zu einem kumulativen einzelnen NVLINK-Sublink von 4x100 Gbit/s = 50 GB/s führt. Hopper-Produkte, die NVLINK 4.0 unterstützen, verfügen über 18 Sub-Links (Ports), sodass ein einzelner H100 50 GB/s * 18 = 900 GB/s unterstützt. Ein einzelnes System mit 8 Karten kann 4 NVSwitches für die Konnektivität nutzen, wie im Bild gezeigt.

DGX H100

Es ist auch möglich, einen Schalter der zweiten Ebene hinzuzufügen, um einen Cluster mit 256 Karten zu erstellen.

Skalierung mit NVLink-Netzwerk

Die Erweiterungsschnittstelle verwendet optische OSFP-Module, die 16 Differenzsignalleitungen unterstützen können, sodass ein einzelnes OSFP 4 NVLINK-Ports unterstützen kann.

ein einziges OSFP zur Unterstützung von 4 NVLINK-Ports
Pinbelegung des OSFP-Moduls

Der NVLink-Switch im Bild enthält 32 optische OSFP-Modulanschlüsse und unterstützt insgesamt 32 * 4 = 128 NVLINK 4-Ports.

128nvlink 4 Ports

GB200 NVL72

Das GB200 NVL72-System verfügt über die folgenden Spezifikationen, wobei der Schwerpunkt auf der NVLINK-Verbindung liegt:

NVLINK-Verbindung

Jeder GB200 enthält eine Grace ARM-CPU mit 72 Kernen und zwei Blackwell-GPUs.

Jeder GB200 enthält eine Grace ARM-CPU mit 72 Kernen und zwei Blackwell-GPUs.

Das gesamte System besteht aus Compute Trays und Switch Trays. Jeder Compute Tray enthält zwei GB200-Subsysteme, also insgesamt 4 Blackwell-GPUs.

GB200 NVL72

Jeder Switch-Einschub enthält zwei NVLINK-Switch-Chips, die insgesamt 72 * 2 = 144 NVLINK-Ports bereitstellen. Dargestellt ist die interne Struktur eines einzelnen Switch-Chips mit 36 ​​Ports oben und unten, die eine Bandbreite von 7.2 TB/s bieten. Basierend auf Netzwerkberechnungen entspricht dies einer Switching-Kapazität von 28.8 Tbit/s, etwas weniger als der derzeit führende Switch-Chip mit 51.2 Tbit/s. Dies ist jedoch auf die Implementierung der SHARP-Funktionalität (NVLS) zurückzuführen.

SHARP (NVLS)-Funktionalität

Das gesamte Rack unterstützt 18 Compute-Trays und 9 Switch-Trays und bildet die NVL72-Architektur mit 72 vollständig miteinander verbundenen Blackwell-Chips.

Das gesamte Rack unterstützt 18 Compute-Trays und 9 Switch-Trays

Jedes GB200-Subsystem verfügt über 2 * 18 = 36 NVLink5-Ports. Die externe Verbindung des Systems verwendet keine optischen OSFP-Module, sondern eine direkte Kupfer-Backplane-Verbindung, wie im Diagramm dargestellt.

GB200-Subsystem
Die externe Verbindung des Systems

Die gesamte NVL72-Verbindungstopologie sieht wie folgt aus:

Gesamte NVL72-Verbindungstopologie

Jeder B200 verfügt über 18 NVLINK-Ports und in den 18 Switch-Einschüben befinden sich 9 NVLINK-Switch-Chips. Daher sind die Ports jedes B200 mit einem NVSwitch-Chip verbunden, was zu insgesamt 72 Ports pro NVSwitch führt. Auf diese Weise verbindet das NVL72-System alle 72 B200-Chips vollständig.

NVL576

Wir stellen fest, dass im NVL72-Schrank nicht mehr alle Switches über zusätzliche Schnittstellen verfügen, um einen größeren zweistufigen Switch-Cluster zu bilden. Von dem offAuf icial NVIDIA-Bildern sind 16 Schränke in zwei Reihen angeordnet, und obwohl die Gesamtzahl genau 72 * 8 = 576 flüssigkeitsgekühlte Karten im Cluster beträgt, scheinen die Verbindungskabel zwischen den Karten eher über die Scale-Out-RDMA-Netzwerkverbindung zu verlaufen als über die Scale-Up NVLINK-Netzwerkverbindung.

GB200 NVL72-Rechnerracks

Bei einem 32,000-Karten-Cluster erfolgt dies auch über solche NVL72-Schränke, eine Reihe mit 9 Schränken, 4 NVL72- und 5 Netzwerkschränke, zwei Reihen mit 18 Schränken, die einen Sub-Pod bilden, und ist über das RDMA Scale-Out-Netzwerk verbunden.

Vollständiges Rechenzentrum mit 32000 GPUs

Natürlich handelt es sich hierbei nicht um den sogenannten NVL576. Wenn NVL576 erforderlich ist, muss jeder 72 GB200 mit 18 NVSwitches konfiguriert werden, die nicht in einen einzelnen Schrank passen würden. Wir bemerken, dass die official hat erwähnt, dass es eine Single-Cabinet-Version von NVL72 sowie eine Dual-Cabinet-Version gibt und dass in der Dual-Cabinet-Version jedes Compute Tray nur über ein GB200-Subsystem verfügt.

NVIDIA GB200 NVL36

Andererseits stellen wir fest, dass am NVSwitch Ersatzkupferkabelanschlüsse vorhanden sind, die wahrscheinlich für verschiedene Kupfer-Backplane-Verbindungen angepasst sind.

verschiedene Kupfer-Backplane-Anschlüsse

Es ist nicht bekannt, ob diese Schnittstellen über zusätzliche OSFP-Käfige über der Kupfer-Verbindungsrückwandplatine für NVSwitch-Verbindungen der zweiten Ebene verfügen werden, aber diese Methode hat einen Vorteil: Die Einzelschrank-Version ist nicht skalierbar, während die Doppelschrank-Version skalierbar ist im Bild dargestellt.

NVSwitch-Verbindung der zweiten Ebene

Die Doppelschrankversion verfügt über 18 NVSwitch-Trays, die Rücken an Rücken miteinander verbunden werden können, um NVL72 zu bilden. Obwohl sich die Anzahl der Switches verdoppelt hat, bietet jeder Switch 36 Uplink-Ports für eine zukünftige Erweiterung des 576-Karten-Clusters. Ein einzelner Schrank hat insgesamt 36*2*9 = 648 Uplink-Ports, und 16 Schränke sind erforderlich, um NVL576 zu bilden, was insgesamt 648*16 = 10,368 Uplink-Ports ergibt, die durch 9 Switch-Ebenen der zweiten Ebene aufgebaut werden können , jede mit 36 ​​Unterebenen, gebildet durch 18 Switch Trays. Die Verbindungsstruktur von NVL576 ist unten dargestellt.

Die Verbindungsstruktur von NVL576

Untersuchung von NVL576 aus geschäftlicher Sicht

Ich bin skeptisch, ob es wirklich Kunden für ein riesiges einzelnes NVLink Scale-Up-Netzwerk wie NVL576 gibt. Sogar AWS hat sich nur dafür entschieden offErsetzen Sie den NVL72 in ihren Cloud-Diensten. Die Hauptprobleme sind die Zuverlässigkeits- und Skalierbarkeitsherausforderungen einer zweistufigen Netzwerkarchitektur, weshalb NVL576 aufgrund seiner hohen Systemkomplexität keine ideale Lösung darstellt.

Wenn man andererseits die Rechenanforderungen großer Modelle der nächsten Generation berücksichtigt, ist das Metapapier „How to Build Low-cost Networks for Large Language Models (without Sacrificing Performance)?“ hilfreich. bespricht dies. Das Papier bezeichnet das NVLink-basierte Scale-Up-Netzwerk als „High Bandwidth Domain (HBD)“ und analysiert die optimale Anzahl von Karten innerhalb der HBD:

Hohe Bandbreitendomäne (HBD)

Für ein GPT-1T-Modell sind die Leistungssteigerungen immer noch recht erheblich, wenn K>36 im Vergleich zu K=8, aber die marginalen Vorteile der Skalierung von K>72 auf K=576 rechtfertigen nicht die erhöhte Systemkomplexität. Darüber hinaus beginnen die Leistungsvorteile der RDMA-Bandbreite zwischen HBDs mit zunehmender Scale-Up-NVLINK-Netzwerkgröße abzunehmen. Das ultimative Gleichgewicht besteht darin, NVL72 in Kombination mit RDMA Scale-Out zu verwenden, um einen 32,000-Karten-Cluster aufzubauen.

Scale-Up Die Größe des NVLINK-Netzwerks wächst

Entwicklung von Verbindungssystemen: Die Geschichte von Cisco

Verteilte Architektur aufgrund von Rechen-/Speicherengpass

In der Anfangszeit nutzten die Router von Cisco einen einzelnen PowerPC-Prozessor für die Weiterleitung. Als das Internet explodierte, wurde der Leistungsengpass durch speicherintensive Vorgänge wie die Suche in Routing-Tabellen verursacht. Dies führte zur allmählichen Entstehung von Ansätzen wie Process Switching/CEF, die mehrere Prozessoren über einen Datenbus verbanden:

Verteilte Architektur

Diese Methoden ähneln den frühen NVLINK 1.0/NVLINK 2.0, bei denen Chips wie bei der Pascal-Generation direkt über einen Bus miteinander verbunden waren.

irgendjemand zu irgendjemandem

Die Entstehung von Switch Fabric

Im Jahr 1995 schlug Nick Mckeown in seinem Artikel „Fast Switched Backplane for a Gigabit Switched Router“ die Verwendung einer CrossBar-Switch-Fabric zur Unterstützung größerer Gigabit-Router vor – die später zu Ciscos High-End-Routern der 12000-Serie wurden.

Linienkarte

Die Switch-Fabrics in diesen Systemen sind vom Konzept her identisch mit den heutigen NVSwitch- und NVSwitch-Tray-Systemen, aus denen NVL8-NVL72-Systeme bestehen. Dabei geht es darum, mehrere Chips miteinander zu verbinden, um ein größeres System aufzubauen, wenn ein einzelner Chip an die Speicherwand stößt.

NVSwitch-Fach

Das Single-Chassis-Design des Cisco 12000 mit der Switch Fabric in der Mitte und 9 Switch-Trays ähnelt dem GB200, bei dem oben und unten jeweils 8 Linecard-Steckplätze vorhanden sind, entsprechend den Compute Trays im GB200.

Die Kerntechnologie hierbei ist das VOQ-Design (Virtual Output Queuing) und der iSLIP-Planungsalgorithmus. Wenn das Modell All-to-All ausführt, schreiben möglicherweise mehrere B200 gleichzeitig auf dasselbe B200, was zu Head-Of-Line Blocking (HOLB) ​​führt. Menschen fügen vor und nach Kreuzungen geschickt Puffer hinzu, die die Eingabewarteschlange und die Ausgabewarteschlange bilden:

Eingabewarteschlange und Ausgabewarteschlange

Leider kann die Ausgabewarteschlange die Bandbreitennutzung maximieren, benötigt aber N*R-Geschwindigkeit, während die Eingabewarteschlange mit R-Geschwindigkeit verarbeiten kann, aber unter HOLB leidet. Der maximale Durchsatz eines durch HOLB begrenzten IQ-Switches wird mit 58.6 % berechnet.

Eine einfache Lösung für das IQ-HOLB-Problem ist die Verwendung der Virtual Output Queue (VOQ), bei der jeder Eingangsport eine Warteschlange für jeden Ausgang hat, wodurch HOLB eliminiert wird und gleichzeitig die R-Geschwindigkeitspufferung erhalten bleibt.

Virtuelle Ausgabewarteschlange

Natürlich verwendet NVIDIAs NVLINK ein kreditbasiertes Design, und die Schlichtung der Kreditverteilung ist ein Bereich, der für inländische GPU-Startups eine eingehende Untersuchung wert ist.

Mehrstufige Architektur und die Entwicklung optischer Verbindungen

Der NVL576 ähnelt dem 1 eingeführten Carrier Routing System (CRS-2003) von Cisco.

Carrier-Routing-System

Damals baute Cisco ein mehrstufiges Switching-Netzwerksystem auf, um dem enormen Bandbreitenbedarf während der Internetblase gerecht zu werden.

mehrstufiges Schaltnetzwerksystem

Das dreistufige Switch-Netzwerk in einem einzigen Schrank, aufgebaut aus Switch-Trays, entspricht dem aktuellen nicht skalierbaren GB3 NVL200. Der Mehrschrankaufbau entspricht dann NVL72. Damals konnte Cisco von einem einzelnen Schrank mit 576 Linecards auf ein System mit 16 Fabric-Schränken + 8 Linecard-Schränken erweitern und so einen großen 72-Linecard-Cluster aufbauen. Die internen Verbindungen von Cisco nutzen auch optische Verbindungen.

ein groß angelegter 1152-Linecard-Cluster

Die optischen Anschlüsse zwischen den Gehäusen sind im Bild dargestellt.

optische Anschlüsse zwischen den Gehäusen

Es ist erwähnenswert, dass Bill Dally, heute Chefwissenschaftler von NVIDIA, in dieser Zeit Avici gründete und 3D-Torus-Verbindungen nutzte, um Router im Terabit-Bereich zu bauen.

Router im Terabit-Bereich

Die 3D-Torus-Verbindung erinnert an Googles TPU. Später entwickelte Huawei das Avici-System als OEM und vermarktete es als NE5000, bevor es sein Kernrouterprodukt NE5000E entwickelte. Gleichzeitig übte das Aufkommen von Juniper auch erheblichen Druck auf Cisco im Bereich der Kernrouter aus. Vielleicht wird die Dominanz von NVIDIA in Zukunft auch vor weiteren Herausforderungen stehen.

Andererseits wurden zu dieser Zeit auch MEMS-basierte optische Schalter eingeführt, die einige Ähnlichkeiten mit der aktuellen Verwendung optischer Schalter durch Google zu haben scheinen.

MEMS-basierte optische Schalter

NVIDIAs zukünftige Entwicklung

Auf der HOTI-Konferenz 2023 zu Verbindungssystemen hielt Bill Dally eine Keynote mit dem Titel „Accelerator Clusters, The New Supercomputer“, in der er drei Hauptthemen aus der Perspektive von On-Chip-Netzwerken und Verbindungssystemen erörterte:

Topologie:

  • CLOS/3D-Torus/Libelle
  • Routing:
  • Ablaufsteuerung

Verschiedene Geräteverbindungen haben unterschiedliche Bandbreiten und Stromverbrauch.

Der neue Supercomputer

Die Herausforderung besteht darin, sie unter Berücksichtigung von Faktoren wie Leistung, Kosten, Dichte und Verbindungsentfernung organisch zu kombinieren.

Die Herausforderung besteht darin, sie organisch zu kombinieren

Optische Verbindungen

Durch diese Dimensionsmessungen wird Co-Package Optic DWDM zu einer praktikablen Wahl:

Co-Paket für optisches DWDM

Das Systemkonzeptdiagramm für den Aufbau optischer Verbindungen sieht wie folgt aus:

Systemkonzept

Das ultimative Ziel ist der Aufbau eines groß angelegten optischen Verbindungssystems.

GPU-Rack

In dieser Hinsicht werden Sie sehen, dass es nahezu identisch mit dem von Cisco entwickelten Multi-Chassis-CRS-1-System ist, bei dem das GPU-Rack dem Cisco LineCard-Chassis und das Switch-Rack dem Cisco Fabric-Chassis entspricht. Beide nutzen optische Verbindungen und DWDM-Technologie, um die Verbindungskomplexität zu reduzieren und die Bandbreite zu erhöhen.

Cisco LineCard-Chassis

Auf der Ebene der Chiparchitektur wird eine optische Engine als Chiplet für die Verbindung verwendet.

Photonisch verbundene GPU

Bei der Verbindungsstruktur besteht eine größere Tendenz zur Übernahme der Dragonfly-Topologie und der Verwendung optischer OCS-Schalter.

Libelle

In Bezug auf Flusskontrollalgorithmen und Überlastungskontrolle diskutierte Bill ähnliche Mechanismen wie HOMA/NDP und Adaptive Routing. Es ist nicht notwendig, so komplex zu sein, da wir über bessere MultiPath CC-Algorithmen verfügen, die keine neuen Switch-Funktionen erfordern.

Algorithmen und spezielle Hardware-Integration

Andererseits gibt es Transformer seit sieben Jahren und es ist ein hervorragender Algorithmus, der rechen- und speichergebundene Operatoren in Einklang bringt. Gibt es jedoch einen noch ausgefeilteren Algorithmus in der Branche?

Es werden Sparse-Attention-Modelle wie Monarch Mixer und Modelle, die keine Aufmerksamkeit erfordern, wie Mamba/RMKV, sowie Algorithmen basierend auf Kategorientheorie, algebraischer Geometrie und algebraischer Topologie erforscht. Es gibt auch verschiedene numerische Formate wie FP4/FP6, die von Blackwell unterstützt werden, und möglicherweise in Zukunft auch Log8.

In der Vergangenheit setzte Cisco auch auf Algorithmen und spezielle Hardware, um die Leistung einzelner Chips schrittweise zu verbessern und die Komplexität von Verbindungsstrukturen zu überwinden. Sie verwendeten Algorithmen wie TreeBitMap für groß angelegte Routing-Tabellensuchen auf regulärem DRAM.

TreeBitMap

Mit der Entwicklung von Multicore- und On-Chip-Netzwerken bauten sie leistungsstarke SPP/QFP/QFA-Netzwerkprozessoren, und diese Technologien sind in AWS Nitro-, NVIDIA BlueField- und Intel IPU DPU-Prozessoren wieder aufgetaucht.

Zusammenfassung

FibeMall analysierte die Verbindungsarchitektur der neuesten Blackwell-GPU und untersuchte die verteilte Systemkonstruktion und Verbindungsarchitektur, mit der Cisco und NVIDIA konfrontiert waren, als die Single-Chip-Leistung nicht mit der explosionsartigen Nachfrage während zweier Technologiewellen mithalten konnte, wie in „NVIDIAs Cisco Moment“ besprochen. Außerdem wurde Bill Dallys HOTI-Keynote 2023 analysiert und ein klarer Überblick über den zukünftigen Entwicklungspfad von NVIDIA gegeben.

Wir stellen jedoch auch fest, dass während des Höhepunkts der Internetblase Unternehmen wie Juniper und Avici als Herausforderer von Cisco auftraten und NVIDIA in dieser Ära auch 3Dfx als Herausforderer besiegte, bevor es den professionellen Markt dominierte. Jede Ära hat ihre Chancen, und die Gewinner sind nicht nur diejenigen, die mehr Ressourcen anhäufen, sondern diejenigen, die durch die Kombination von Algorithmen und Rechenleistung mit Hardware Innovationen schaffen.

Aus Sicht des Herausforderers ist die Schwierigkeit des Rechenkerns selbst, abgesehen vom CUDA-Ökosystem, nicht so groß. In letzter Zeit waren Jim Keller und einige HBM-Spieler in Südkorea und Japan aktiv, und es ist sehenswert, ob BUDA+RISC-V+HBM zu einer neuen aufstrebenden Kraft wird.

neuer Trend zum disaggregierten Computing

Im Hinblick auf die Ersetzung von IB/NVLINK-Verbindungssystemen verfügt Ethernet bereits über 51.2-Tbit/s-Switch-Chips, und Kommunikationsprotokolle, die auf Hochgeschwindigkeits-Ethernet-Verbindungen zu HBM basieren und In-Network-Computing wie SHARP unterstützen, wurden bereits vor drei Jahren in NetDAM entwickelt.

Hinterlasse einen Kommentar

Nach oben scrollen