Blackwell von NVIDIA präsentiert Entwicklung für DAC, LACC und 1.6T OSFP-XD

Blackwell-Plattform der neuen Generation

Am 19. März 2024 stellte NVIDIA auf der GTC eine neue Generation der Blackwell-Architekturplattform vor.

Diese neue Plattform umfasst den neuen KI-Chip GB200, die Transformer-Engine der zweiten Generation (unter Verwendung der proprietären Blackwell Tensor-Kerntechnologie zur Verdoppelung von KI-Inferenzfähigkeiten und Modellgrößen), die NVLink-Lösung der fünften Generation (zur Beschleunigung von Billionen Parametern und komplexen KI-Modellen konzipiert). , kann bis zu 576 GPUs miteinander verbinden und sorgt so für eine 9-fache Steigerung des GPU-Durchsatzes), die RAS-Engine (Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit) (frühzeitige Erkennung potenzieller Fehler, Reduzierung von Ausfallzeiten, Verbesserung intelligenter Wiederherstellungs- und Wartungsfunktionen), intelligente Sicherheitsdienste ( Schutz von KI-Modellen und Kundendaten ohne Beeinträchtigung der Gesamtleistung, Unterstützung nativer Schnittstellenverschlüsselungsprotokolle der nächsten Generation, die auf Branchen mit hohen Datenschutzanforderungen wie Gesundheitswesen und Finanzen zugeschnitten sind.

Abbildung 1: NVIDIA stellt Blackwell-Plattform der nächsten Generation vor

NVIDIA stellt Blackwell-Plattform der nächsten Generation vor
Quelle: https://www.nvidia.com

NVIDIAs NVLink der fünften Generation verbessert die Skalierbarkeit großer Multi-GPU-Cluster erheblich mit einer Gesamtbandbreite von 1.8 TB/s pro Single-Core-Blackwell-GPU. Jede Blackwell Tensor Core GPU kann bis zu 18 NVLink 100 GB/s-Verbindungen unterstützen und bietet eine Gesamtbandbreite von bis zu 1.8 TB/s. Diese Bandbreitenleistung ist doppelt so hoch wie die des H200-Produkts der vorherigen Generation von NVIDIA und 14-mal so hoch wie die der PCIe 5.0-Technologie. Die GB200 NVL72-Serverplattform nutzt die neueste NVLink-Technologie von NVIDIA offEr bietet eine größere Skalierbarkeit für die komplexesten großen KI-Modelle der Welt.

Abbildung 2: Leistung der NVLink-Netzwerkarchitektur der 5. Generation von NVIDIA

Leistung der NVLink-Netzwerkarchitektur der 5. Generation von NVIDIA
Quelle: https://www.nvidia.com

NVIDIAs neue IB-Switch-Plattform Quantum-X800 unterstützt Cluster mit tausend Karten

NVIDIA hat das weltweit erste End-to-End vorgestellt 800G InfiniBand Die Netzwerk-Switch-Plattform Quantum-X800 ist auf große KI-Modelle im Billionen-Parameter-Maßstab zugeschnitten. Die neue NVIDIA IB-Switch-Plattform unterstützt hardwarebasierte In-Network-Computing-Technologie, das skalierbare hierarchische Aggregationsreduzierungsprotokoll SHARP v4, adaptives Routing und Netzwerküberlastungskontrolle basierend auf Fernüberwachung. Es besteht aus drei Kernkomponenten:

NVIDIA Quantum-X800 Q3400-RA 4U InfiniBand-Switch: Der weltweit erste Switch mit Single-Channel-200-Gbit/s-Technologie, der die Netzwerkleistung und Übertragungsgeschwindigkeit erheblich verbessert. Dieser Switch bietet 144 Ports mit Geschwindigkeiten von jeweils 800 GB/s, unterstützt durch 72 optische 1.6-T-OSFP-XD-Module (verbunden über den UFM Unified Fabric Manager von NVIDIA). Unter Nutzung der hohen Leistung des neuen Quantum-X800 Q3400-Switches kann seine zweischichtige Fat-Tree-Netzwerktopologie bis zu 10,368 Netzwerkschnittstellenkarten (NICs) mit extrem geringer Latenz verbinden und gleichzeitig maximale Netzwerklokalität gewährleisten. Der Q3400-Switch nutzt Luftkühlung und ist mit standardmäßigen 19-Zoll-Racks kompatibel; NVIDIA auch offErmöglicht den parallelen Flüssigkeitskühlungsmodus Q3400-LD, der für Open Compute Project (OCP) 21-Zoll-Racks geeignet ist.

Abbildung 3: NVIDIAs IB-Switch-Plattform Quantum-X800 der neuen Generation

NVIDIAs IB-Switch-Plattform Quantum-X800 der neuen Generation
Quelle: https://www.nvidia.com

NVIDIA ConnectX-8 SuperNIC-Netzwerkschnittstellenkarte: Unter Verwendung der Netzwerkadapterarchitektur der neuesten Generation von NVIDIA offEr bietet eine durchgängige 800-Gbit/s-Netzwerk- und Leistungsisolation, die speziell für die effiziente Verwaltung generativer KI-Clouds mit mehreren Mandanten entwickelt wurde. Der ConnectX-8 SuperNIC bietet einen Datendurchsatz von 800 Gbit/s über PCIe 6.0, offBereitstellung von bis zu 48 Übertragungskanälen für verschiedene Anwendungen, einschließlich interner PCIe-Umschaltung des NVIDIA GPU-Systems. Darüber hinaus unterstützt die neue SuperNIC NVIDIAs neueste In-Network Computing-Technologie, MPI_Alltoall und MPI-Tag-Matching-Hardware-Engines sowie strukturelle Verbesserungen wie hochwertige Dienste und Netzwerküberlastungskontrolle. Der ConnectX-8 SuperNIC unterstützt Single-Port-OSFP224- und Dual-Port-QSFP112-Anschlüsse und ist mit verschiedenen Formfaktoren kompatibel, einschließlich OCP3.0 und CEM PCIe x16. Es unterstützt auch die NVIDIA Socket Direct 16-Kanal-Zusatzerweiterung.

Abbildung 4: NVIDIA ConnectX-8 SuperNIC Neue IB-Netzwerkschnittstellenkarte

NVIDIA ConnectX-8 SuperNIC Neue IB-Netzwerkschnittstellenkarte
Quelle: https://www.nvidia.com

LinkX-Kabel und Transceiver: Das Quantum-X800-Plattform-Verbindungsproduktportfolio von NVIDIA umfasst Verbindungs-Transceiver mit passiven Direct Attach Cables (DAC) und linearen aktiven Kupferkabeln (LACC) und bietet so eine höhere Flexibilität für den Aufbau bevorzugter Netzwerktopologien. Diese Verbindungslösung umfasst insbesondere Dual-Port-Single-Mode-2xDR4/2xFR4-Verbindungs-Transceiver, passive DAC-Kabel und lineare aktive Kupferkabel LACC.

Abbildung 5: NVIDIA LinkX-Kabel und Transceiver

NVIDIA LinkX-Kabel und Transceiver
Quelle: https://www.nvidia.com

NVIDIA GB200 NVL72-Lösung

Die NVIDIA GB200NBL72-Lösung offDies führt zu einer 30-fachen Steigerung der Inferenzgeschwindigkeit, einer 4-fachen Steigerung der Trainingsgeschwindigkeit, einer 25-fachen Verbesserung der Energieeffizienz und einer 18-fachen Verbesserung der Datenverarbeitungsleistung für KI-Modelle mit Billionen Parametern.

Abbildung 6: NVIDIA veröffentlicht GB200 NVL72-Lösung

NVIDIA veröffentlicht GB200 NVL72-Lösung
Quelle: https://www.nvidia.com
  1. In Bezug auf die Inferenzleistung nutzt die GB200 NVL72-Lösung die Transformer-Engine der neuesten Generation, die FP4 AI unterstützt, und nutzt den NVLink der fünften Generation, um eine 30-fache Verbesserung der Large Language Model (LLM)-Inferenzleistung für große Modelle mit Billionen Parametern zu erzielen. Mit dem neuen Tensor-Core-Mikroformat erreicht es eine höhere Präzision und einen höheren Durchsatz und implementiert durch Flüssigkeitskühlung einen großen GPU-Cluster von 72 GPUs in einem einzigen Gehäuse.
  2. Für die Trainingsleistung beschleunigt die Transformer-Engine der zweiten Generation mit FP8-Präzision große Sprachmodelle und große Trainingsgeschwindigkeiten um das Vierfache. Es bietet eine GPU-zu-GPU-Verbindungsgeschwindigkeit von 4 Tbit/s über NVLink der fünften Generation unter Verwendung von InfiniBand-Switch-Netzwerken und NVIDIA Magnum IO-Software.
  3. Im Hinblick auf die Energieeffizienz reduziert der flüssigkeitsgekühlte GB200 NVL72 den Energieverbrauch des Rechenzentrums erheblich. Die Flüssigkeitskühlungstechnologie erhöht die Rechendichte und reduziert gleichzeitig den Platzbedarf im Server-Rack. Dadurch wird eine GPU-Kommunikation mit hoher Bandbreite und geringer Latenz innerhalb großer NVLink-Domänenarchitekturen ermöglicht. Im Vergleich zum luftgekühlten NVIDIA H100-Gehäuse der vorherigen Generation bietet das flüssigkeitsgekühlte Gehäuse GB200 eine 25-fache Leistungssteigerung bei gleichem Stromverbrauch und reduziert gleichzeitig effektiv den Wasserverbrauch.
  4. In Bezug auf die Datenverarbeitungsleistung steigert der GB2 durch die Nutzung der Speicherleistung mit hoher Bandbreite in der NVIDIA Blackwell-Architektur, der NVLink-C200C-Technologie und dedizierten Dekomprimierungs-Engines die Geschwindigkeit kritischer Datenbankabfragen im Vergleich zu CPUs um das 18-fache und senkt gleichzeitig die Gesamtbetriebskosten um das Fünffache.

Abbildung 7: NVIDIAs GB200 NVL72-Lösung mit 30-mal besserer Inferenzleistung, 4-mal besserer Trainingsleistung und 25-mal besserer Energieeffizienz

NVIDIAs GB200 NVL72-Lösung
Quelle: https://www.nvidia.com

Der Einzelschrank GB200 NVL72 von NVIDIA umfasst 9 L1 NV Switch-Switches und 18 Rechenknoten. Jeder Rechenknoten besteht aus einem einschichtigen GPU-Fach im Schrank, wobei jedes Fach zwei Module enthält. Jede Einheit besteht aus 2 Blackwell-GPUs und 2 Grace-CPU, also insgesamt 1 GPUs pro Fach. Der Schrank beherbergt 4 Rechenknoten (18 in der oberen und 10 in der unteren Hälfte), insgesamt 9 Blackwell-GPUs und 72 Grace-CPUs. Die Rechenleistung erreicht 36PFLOPS (FP1440)/4PFLOPS (FP720/FP8)/6PFLOPS (INT720), mit einem maximalen GPU-Speicher von 8 TB (HBM13.5e). Die Verbindungsparameter umfassen 3 OSFP-Single-Port-ConnectX-72-VPIs (400G InfiniBand), wobei die Leistungsparameter für die ConnectX-8-Netzwerkkarte noch aktualisiert werden müssen. Die Leistung des GB200 AI-Chips kann 40 PFLOPS (FP4)/20 PFLOPS (FP8/FP6)/10 PFLOPS (INT8) erreichen, mit einem maximalen GPU-Speicher von 384 GB (HBM3e).

Abbildung 8: NVIDIA kündigt GB200 Superchip AI Chip an

NVIDIA kündigt GB200 Superchip AI Chip an
Quelle: https://www.nvidia.com

NVIDIA veröffentlicht GB200 Superchip AI Chip

Detaillierte Leistungsparameter des NVIDIA GB200 NVL72 und GB200 AI Chips

Analyse der Anforderungen der nächsten Generation der GB200-Netzwerkarchitektur von NVIDIA für Kupferkonnektivität und optische Module

Kupferkonnektivität bietet im Zeitalter der 224-GB-Switches kosteneffiziente Vorteile

Kupferkonnektivität bietet im Hinblick auf den Trend zu hochdichten Clustern von Switches und Servern Preis-Leistungs- und Stromverbrauchsvorteile, und es wird erwartet, dass Kupferkabelkonnektivität Schritt für Schritt die beste Lösung für das Zeitalter der 224-Gbit/s-Switches sein wird. Eine wichtige Änderung in der GB200-Lösung von NVIDIA liegt in der Verbindung zwischen Switches und Rechenknoten in einem einzigen Schrank und der internen Verbindung der Switches über eine Kupferkabelverbindung anstelle der vorherigen PCB-optischen Modul-Kabelverbindung. GB200-Verbindungen sind in drei Hauptkategorien unterteilt:

(1) GB200 NVL72-Schrankverbindung (externes Kabel): Große Rechenzentren erfordern häufig eine große Anzahl von Schränken für paralleles Rechnen. Wenn die Schränke extern vernetzt werden müssen, werden sie über den TOR-Switch mit einem DAC/AOC-Kabel verbunden (wie in Abbildung 10 dargestellt). Bei einer großen Anzahl von Schränken muss die externe Verbindung im Schrank über der Verkabelungsausrüstung installiert werden, um eine ordnungsgemäße Verbindung zu gewährleisten. Die Kabellänge ist oft lang, Kupferkabel sind mehr als 2 bis 4 Meter lang, nachdem die Verbindungsanforderungen nicht erfüllt werden können, so dass die Fernverbindung hauptsächlich Glasfaserkabel zum Verbinden verwendet, Kupferkabel können in dieser Verbindung nicht vollständig verbunden werden Ersetzen Sie die Glasfaserkabel.

Abbildung 9: NVIDIA GB200 NVL72-Verbindungsdiagramm zwischen Schränken

NVIDIA GB200 NVL72-Verbindungsdiagramm zwischen Schränken
Quelle: https://www.nvidia.com

(2) GB200 NVL72 Einzelschrankanschluss (Schrankinterne Kabel) – alles durch Kupferkabel ersetzt: In Abbildung 10 sind acht Rechenknoten und neun Switches intern über die Kupferkabel im gelben Bereich von Abbildung 10 verbunden Die Kupferkabel-Backplane ersetzt die bisherige Verwendung von TOR-Switches und Rechenknoten durch die PCB-Backplane-optische Modul-Kabelverbindung. Bei der neuen Generation von Switches mit einem einzigen Kanal von 224 GB/s beträgt der Stromverbrauch von optischen 800G/1.6T-Modulen normalerweise mehr als 16 W, und wenn das Verbindungsschema von GB200 NVL72 auf der vorherigen Verbindung optischer Module basiert, ist dies der Fall führt zu Problemen mit hohem Stromverbrauch. Kupferverbindungen verbrauchen weniger Strom und sind kostengünstiger als optische Module. Auch der CEO von Broadcom zeigte kürzlich seine Unterstützung für die Einstellung zu Kupferverbindungen: „Optische Geräte im Kommunikationsnetzwerk verbrauchen viel Strom und kosten viel, daher wird bei der Entwicklung der neuen Switch-Generation von Broadcom auf den Einsatz optischer Geräte verzichtet, aber soweit wie möglich auf Kupferverbindungsprogramme zurückgegriffen.“ Optische Geräte kommen nur dann zum Einsatz, wenn die Kupferübertragung den Bedarf nicht decken kann.“

Abbildung 10: Schematische Darstellung der Switch- und Rechenknotenverbindungen im Einzelgehäuse NVIDIA GB200 NVL72

Schematische Darstellung der Switch- und Rechenknotenverbindungen im Einzelgehäuse NVIDIA GB200 NVL72
Quelle: https://www.nvidia.com

Abbildung 11: Schematische Darstellung der Kupferkabelrückwandplatine und des Rückwandplatinenanschlusses des NVIDIA GB200 NVL72

NVIDIA GB200 NVL72-Kupferkabel-Backplane und Backplane-Anschlussschema
Quelle: https://www.nvidia.com

3) NV-Switch intern – Kupferkabel wird verwendet, um die Verbindung vom Backplane-Anschluss zum Switch-Chip herzustellen: Bei einem einkanaligen 224-Gbit/s-Switch, wie im gelben Teil von Abbildung 13 dargestellt, ist die Leiterplattenfläche ebenfalls begrenzt. reicht nicht aus, um den gesamten Bereich abzudecken, so dass es nicht möglich ist, die Verbindungsverbindung über eine längere Distanz zu realisieren, und der Kupferbrückenweg kann die Verbindung von der Rückwandplatine zum Switch-Chip realisieren.

Abbildung 12: Schematische Darstellung der internen Kupferverbindungslösung des NVIDIA GB200 NVL72-Switches

Schematische Darstellung der internen Kupferverbindungslösung des NVIDIA GB200 NVL72-Switches
Quelle: https://www.nvidia.com

1.6 T optisches Modul wird voraussichtlich zu beschleunigten Volumenchancen führen, die durch GB200-Lösungen vorangetrieben werden.

NVIDIAs Blackwell-Plattform der neuen Generation wird die Nachfrage nach optischen 1.6T-Modulen mit höheren Übertragungsraten ankurbeln. Entsprechend der Leistung des neu veröffentlichten Quantum-X800 Q3400-RA 4U InfiniBand-Switches von NVIDIA, dem weltweit ersten Switch mit Single-Channel-200-Gbit/s-Technologie, der 144 Ports mit Verbindungsgeschwindigkeiten von 800 GB/s bietet, was durch 72 1.6T OSFP realisiert wird optische Module. Daher wird erwartet, dass der schrittweise Einsatz der neuen Generation von Schaltern in GB200-Lösungen die Nachfrage nach optischen 1.6T-Modulen steigern wird.

Die Blackwell-Plattform benötigt in großen GPU-Cluster-Anwendungsszenarien weiterhin optische Module, um die Verbindung zwischen Schränken zu realisieren, und die Nachfrage nach optischen 800G-Modulen wird aufrechterhalten.

(1) GB200-Einzelschrank (entsprechend 72 GPUs): Die neue Generation des GB200-Einzelschrankprogramms erfordert keine optischen Module mehr, um eine Verbindung zu erreichen.

(2) Zwischen 1–8 GB200 NVL72-Clustern (entsprechend 72–576 GPUs) sind noch einige optische 800G-Module erforderlich, um die Verbindung zwischen Schränken zu realisieren. Wenn 20 % der Daten über Schränke hinweg übertragen werden müssen, entspricht die unidirektionale Gesamtübertragungsbandbreite von NVLink von 7200 GB einem Bedarfsverhältnis von 800:1 für eine einzelne GPU und ein optisches 2-G-Modul.

(3) Es wird erwartet, dass mehr als 8 große GB200 NVL72-Cluster (entsprechend mehr als 576 GPUs) das InfiniBand Layer 3-Netzwerk konfigurieren, entsprechend dem Verhältnis der Nachfrage nach GPU- und 800G-optischen Modulen 1:2.5 zweite Schicht 1:2, es wird erwartet, dass das gesamte GB200-Nachfrageverhältnis 1:4.5 beträgt.

Hinterlasse einen Kommentar

Nach oben scrollen