Die 400G/800G NDR-Lösung von NVIDIA

Als aufstrebende Technologie hat die künstliche Intelligenz in den letzten Jahren eine rasante Entwicklung durchlaufen. Unter ihnen hat eine Reihe von KI-Technologien wie ChatGPT begonnen, die Produktion und den Lebensstil schrittweise zu verändern. Die kontinuierliche Optimierung von Deep-Learning-Algorithmen und die Erweiterung von Trainingsdatensätzen haben auch dazu geführt, dass die für das Training großer Sprachmodelle erforderlichen Rechenressourcen zunehmen, darunter CPUs, GPUs und DPUs, die für das Modelltraining über Netzwerke mit Servern verbunden werden müssen. Daher haben Netzwerkbandbreite und Latenz einen direkten Einfluss auf die Trainingsgeschwindigkeit und -effizienz. Um dieses Problem anzugehen, hat NVIDIA die Quantum-2 InfiniBand-Plattform auf den Markt gebracht, die leistungsstarke Netzwerkleistung und umfassende Funktionen bietet, um KI-Entwicklern und -Forschern bei der Überwindung von Schwierigkeiten zu helfen.

Basierend auf seinem Verständnis der Entwicklungstrends bei Hochgeschwindigkeitsnetzwerken und seiner reichen Erfahrung bei der Umsetzung von Hochleistungsnetzwerkprojekten hat NVIDIA die NDR-Netzwerklösung (Next Data Rate) eingeführt, die auf der Quantum-2 InfiniBand-Plattform basiert. Die NDR-Lösung von NVIDIA besteht hauptsächlich aus Quantum-2 InfiniBand 800G-Switches (2x400G NDR-Schnittstellen), ConnectX-7 InfiniBand-Hostadaptern und optischen LinkX InfiniBand-Anschlüssen, die darauf abzielen, extrem starke Netzwerkleistung mit geringer Latenz und hoher Bandbreite für kritische Bereiche wie z wie Hochleistungsrechnen, große Cloud-Rechenzentren und künstliche Intelligenz.

Zu den Anwendungsfällen gehören:

1. Verbinden Sie zwei Switches mit einer Geschwindigkeit von 800 Gbit/s oder verbinden Sie zwei Switches mit einer Geschwindigkeit von jeweils 400 Gbit/s.

Um zwei OSFP-basierte Switches zu verbinden, können Sie zwei Twin-Port-OSFP-Transceiver verwenden (MMA4Z00-NS) und zwei gerade Multimode-Glasfaserkabel (MFP7E10-Nxxx) bis zu einer Entfernung von 50 Metern. Dadurch können Sie eine Geschwindigkeit von 800G (2x400G) erreichen. Alternativ können Sie die beiden Glasfaserkabel zu zwei verschiedenen Switches verlegen, um zwei separate 400-Gbit/s-Verbindungen zu erstellen. Die zusätzlichen Twin-Port-OSFP-Ports können dann bei Bedarf zur Verbindung mit weiteren Switches verwendet werden.

Schalter um Schalter

2. Verbinden Sie sich mit zwei Kombinationen von ConnectX-7 BlueField-3 mit einer Geschwindigkeit von jeweils 400G.

Durch die Verwendung eines OSFP-Transceivers mit zwei Ports und zwei geraden Glasfaserkabeln können Sie mit ConnectX-7 oder BlueField-3 bis zu zwei Adapter- und/oder DPU-Kombinationen verbinden. Jedes Kabel verfügt über vier Kanäle und kann in jedem OSFP (MMA4Z00-NS400) oder QSFP112 (MMA1Z00-NS400) Formfaktor für Entfernungen bis zu 50 Meter. Sowohl die Single-Port-OSFP- als auch die QSFP112-Formfaktoren verfügen über die gleiche Elektronik, Optik und optischen Anschlüsse und verbrauchen 8 Watt Strom.

Bitte beachten Sie, dass nur ConnectX-7/OSFPs den Single-Port-OSFP-Formfaktor unterstützen, während der QSFP112-Formfaktor in ConnectX-7/QSFP112s und/oder BlueField-3/QSFP112-DPUs verwendet wird. Sie können jede beliebige Kombination von ConnectX-7 und BlueField-3 mit OSFP oder QSFP112 gleichzeitig auf demselben OSFP-Transceiver mit zwei Ports verwenden.

auf 2 wechseln

3. Stellen Sie eine Verbindung zu vier Kombinationen von ConnectX-7 und/oder BlueField-3 mit einer Geschwindigkeit von jeweils 200 G her.

Wenn Sie bis zu vier Adapter- und/oder DPU-Kombinationen mit ConnectX-7 oder BlueField-3 wechseln möchten, können Sie einen Twin-Port-OSFP-Transceiver mit zwei 1:2-Glasfaser-Splitterkabeln verwenden. Jedes der beiden 4-Kanal-1:2-Glasfaser-Splitterkabel (MFP7E20-N0xx) kann mit einem 400G-Transceiver bis zu 50 Meter in OSFP (MMA4Z00-NS400) oder QSFP112 verbunden werden (MMA1Z00-NS400) Formfaktor. Für die Single-Port-OSFP- und QSFP112-Formfaktoren werden die gleiche Elektronik, Optik und optischen Anschlüsse verwendet. Wenn Sie die beiden Glasfaserkanalenden verbinden, werden nur zwei Spuren im 400G-Transceiver aktiviert, wodurch ein 200G-Gerät entsteht. Dadurch wird auch automatisch der Stromverbrauch der 400G-Transceiver von 8 Watt auf 5.5 Watt reduziert, während der Stromverbrauch des Twin-Port-OSFP bei 15 Watt bleibt.

Bitte beachten Sie, dass nur ConnectX-7/OSFPs mit dem Single-Port-OSFP-Formfaktor kompatibel sind, während der QSFP112-Formfaktor in ConnectX-7/QSFP112s und/oder BlueField-3/QSFP112-DPUs verwendet wird. Sie können jede Kombination von ConnectX-7-Typen und BlueField-3 auf demselben Twin-Port-OSFP-Transceiver verwenden.

auf 4 wechseln

4. Verbinden Sie den Switch mit dem DGX H100 „Viking“-CPU-Chassis im Cedar-7-Komplex.

Das DGX-H100-System ist mit acht Hopper H100-GPUs im oberen Gehäuse sowie zwei CPUs, Speicher und ausgestattet InfiniBand oder Ethernet-Netzwerk im unteren Serverbereich. Um die GPU-zu-GPU-Kommunikation zu erleichtern, werden die Cedar-7-Karten verwendet, die acht 400-Gbit/s-ConnectX-7-ICs enthalten, die auf zwei Mezzanine-Boards montiert sind. Diese Karten sind intern mit vier 800G-Twin-Port-OSFP-Käfigen mit internen Kühlkörpern zur Kühlung verbunden.

Die Switches, die 400G IB/EN unterstützen, erfordern aufgrund der reduzierten Luftstromeinlässe 2x400G-Transceiver mit Lamellenoberseite. Die Cedar-7-zu-Switch-Links können entweder Singlemode- oder Multimode-Optik oder aktive Kupferkabel (ACC) für InfiniBand- oder Ethernet-Konnektivität verwenden.

Der Twin-Port 2x400G-Transceiver bietet zwei 400G ConnectX-7-Links vom DGX zum Quantum-2- oder Spectrum-4-Switch und reduziert so die Komplexität und Anzahl der erforderlichen Transceiver im Vergleich zum DGX A100. DGX-H100 unterstützt außerdem bis zu vier ConnectX-7- und/oder zwei BlueField-3-Datenverarbeitungseinheiten (DPUs) in InfiniBand und/oder Ethernet für herkömmliche Netzwerke zu Speicher, Clustern und Verwaltung.

Die PCIe-Kartensteckplätze auf beiden Seiten der OSFP-GPU-Käfige können separate Kabel und/oder Transceiver aufnehmen, um zusätzliche Netzwerke über 400G oder 200G mit OSFP- oder QSFP112-Geräten zu ermöglichen.

Wechseln Sie zu dgx

InfiniBand Quantum-2 Schalter

Die QM9700- und QM9790-Switches von NVIDIA Quantum-2 sind die Mainstream-IB-Switches (InfiniBand) im Bereich moderner künstlicher Intelligenz und Hochleistungsrechnen. Durch technologische Innovation und Zuverlässigkeitstestdienste bietet NVIDIA Networks Benutzern hervorragende Netzwerkbeschleunigungsdienste.

InfiniBand Quantum-2

Diese beiden Switches verwenden ein 1U-Standardgehäusedesign mit insgesamt 32 physischen 800G-Schnittstellen und unterstützen 64 NDR 400Gb/s InfiniBand-Ports (die in bis zu 128 200Gb/s-Ports aufgeteilt werden können). Sie unterstützen die NVIDIA SHARP-Technologie der dritten Generation, erweiterte Überlastungskontrolle, adaptives Routing und selbstheilende Netzwerktechnologie. Im Vergleich zu HDR-Produkten der vorherigen Generation bietet NDR die doppelte Portgeschwindigkeit, die dreifache Switch-Port-Dichte, die fünffache Switch-Systemkapazität und die 32-fache Switch-KI-Beschleunigungsfähigkeit.

NDR-Schalter

QM9700- und QM9790-Switches sind Produkte für Rack-montierte InfiniBand-Lösungen, einschließlich luftgekühlter und flüssigkeitsgekühlter sowie verwalteter und nicht verwalteter Switches. Jeder Switch unterstützt eine bidirektionale Gesamtbandbreite von 51.2 Tbit/s und verfügt über eine erstaunliche Durchsatzkapazität von über 66.5 Milliarden Paketen pro Sekunde (BPPS). Das ist etwa das Fünffache der Schaltkapazität der Vorgängergeneration Quantum-1.

im Netzwerk

QM9700- und QM9790-Switches verfügen über eine hohe Flexibilität und können verschiedene Netzwerktopologien wie Fat Tree, DragonFly+ und multidimensionale Torus unterstützen. Sie unterstützen außerdem die Abwärtskompatibilität mit früheren Produktgenerationen und verfügen über umfassende Softwaresystemunterstützung.

Quantum-2 ConnectX-7 Intelligente Netzwerkkarte

NVIDIA bietet NDR- oder NDR200-NVIDIA-ConnectX-7-Intelligenznetzwerkkarten mit einem oder zwei Ports als Quantum-2-Lösung an. Mithilfe der NVIDIA Mellanox Socket Direct-Technologie erreicht diese Netzwerkkarte 32 PCIe Gen4-Kanäle. ConnectX-7 wurde mit 7-Nanometer-Technologie entwickelt, enthält 8 Milliarden Transistoren und verfügt über eine Datenübertragungsrate, die doppelt so hoch ist wie die des führenden Hochleistungs-Computing-Netzwerkchips NVIDIA ConnectX-6. Außerdem verdoppelt es die Leistung von RDMA, GPUDirect Storage, GPUDirect RDMA und Netzwerk-Computing.

Der NDR HCA umfasst mehrere programmierbare Rechenkerne, die Vorverarbeitungsdatenalgorithmen und Anwendungssteuerungspfade von der CPU oder GPU an das Netzwerk entladen können, was für höhere Leistung, Skalierbarkeit und Überlappung zwischen Rechen- und Kommunikationsaufgaben sorgt. Diese intelligente Netzwerkkarte erfüllt die anspruchsvollsten Anforderungen für traditionelle Unternehmen und globale Arbeitslasten in den Bereichen künstliche Intelligenz, wissenschaftliches Rechnen und große Cloud-Rechenzentren.

Quantum-2 ConnectX-7 Smart-NIC

LinkX InfiniBand optischer Anschluss

FiberMall offEr bietet flexible optische 400-Gbit/s-InfiniBand-Konnektivitätslösungen, einschließlich Singlemode- und Multimode-Transceiver, MPO-Glasfaser-Jumper, aktive Kupferkabel (ACC) und passive Kupferkabel (DAC), um den Anforderungen verschiedener Netzwerktopologien gerecht zu werden.

Die Lösung umfasst Dual-Port-Transceiver mit OSFP-Anschlüssen mit Rippen, die für luftgekühlte Switches mit fester Konfiguration ausgelegt sind, während Transceiver mit flachen OSFP-Anschlüssen für flüssigkeitsgekühlte modulare Switches und HCA geeignet sind.

Für die Switch-Verbindung kann ein neues optisches 2xNDR-Modul (800 Gbit/s) im OSFP-Gehäuse für die Verbindung zweier QM97XX-Switches verwendet werden. Durch das Lamellendesign wird die Wärmeableitung der optischen Module deutlich verbessert.

Für die Verbindung zwischen Switches und HCA verwendet das Switch-Ende ein OSFP-verpacktes 2xNDR (800 Gbit/s) optisches Modul mit Finnen, während das NIC-Ende ein flaches Modul verwendet Optisches OSFP-Modul mit 400 Gbit/s. MPO-Faserbrücken können 3–150 Meter liefern, und eine Ein-zu-Zwei-Splitterfaser kann 3–50 Meter liefern.

optischer Transceiver

Die Verbindung zwischen Switch und HCA bietet eine Lösung mit DAC (bis zu 1.5 Meter) oder ACC (bis zu 3 Meter). Ein Breakout-Kabel von eins zu zwei kann verwendet werden, um einen OSFP-Port des Switches (ausgestattet mit zwei 400-Gbit/s-InfiniBand-Ports) mit zwei unabhängigen 400-Gbit/s-HCAs zu verbinden. Ein Breakout-Kabel von eins bis vier kann verwendet werden, um einen OSFP-Switch-Port des Switches mit vier 200-Gbit/s-HCAs zu verbinden.

Verbindung zwischen dem Switch und HCA

Vorteile

Die NVIDIA Quantum-2 InfiniBand-Plattform ist eine leistungsstarke Netzwerklösung, die Übertragungsgeschwindigkeiten von 400 Gbit/s pro Port erreichen kann. Durch die Implementierung der NVIDIA Port Splitting-Technologie werden eine doppelt so hohe Portdichte, eine dreifache Switch-Port-Dichte und eine fünffache Switch-Systemkapazität erreicht. Bei Verwendung der Dragonfly+-Topologie kann ein auf Quantum-2 basierendes Netzwerk 400-Gbit/s-Konnektivität für über eine Million Knoten innerhalb von drei Hops erreichen und gleichzeitig den Stromverbrauch, die Latenz und den Platzbedarf reduzieren.

In Bezug auf die Leistung hat NVIDIA die SHARP-Technologie der dritten Generation (SHARPv3) eingeführt, die durch ein skalierbares Netzwerk, das bis zu 64 parallele Streams unterstützt, nahezu unbegrenzte Skalierbarkeit für die Aggregation großer Datenmengen schafft. Die KI-Beschleunigungsfähigkeiten haben sich im Vergleich zum vorherigen HDR-Produkt um das 32-fache erhöht.

Im Hinblick auf die Benutzerkosten kann der Einsatz von NDR-Geräten die Netzwerkkomplexität reduzieren und die Effizienz verbessern. Bei einem späteren Tarif-Upgrade müssen lediglich Kabel und Netzwerkkarten ausgetauscht werden. NDR-Netzwerke erfordern weniger Geräte als diejenigen, die dasselbe Netzwerk unterstützen, was sie für Gesamtbudgets und zukünftige Investitionen kostengünstiger macht. Im Vergleich zum bisherigen HDR können NDR-Geräte die Kosten senken und die Effizienz verbessern.

Hinterlasse einen Kommentar

Nach oben scrollen