Wie baut man einen Cluster mit 128 DGX H100 auf?

Die im Jahr 100 veröffentlichte NVIDIA DGX H2022 ist mit 8 Single-Port-ConnectX-7-Netzwerkkarten ausgestattet, die eine NDR-Bandbreite von 400 Gbit/s unterstützen, und 2 Dual-Port-Bluefield-3-DPUs (200 Gbit/s), die IB/Ethernet-Netzwerke unterstützen können . Das Erscheinungsbild ist in der folgenden Abbildung dargestellt.

In-Band-Systemverwaltung

Der DGX H100 verfügt über 4 QSFP56-Ports für Speichernetzwerk und In-Band-Verwaltungsnetzwerk; Darüber hinaus gibt es einen 10G-Ethernet-Port für die Remote-Host-Betriebssystemverwaltung und einen 1G-Ethernet-Port für die Remote-Systemverwaltung.

Aus der Abbildung der internen Netzwerktopologie des Servers geht hervor, dass es 4 OSFP-Ports für die Computernetzwerkverbindung gibt (die violetten), und die blauen Blöcke sind Netzwerkkarten, die als Netzwerkkarten fungieren und auch die Rolle der PCIe-Switch-Erweiterung spielen können und wird zur Brücke zwischen CPU und GPU.

CPU

Wenn das NVIDIA SuperPOD NVLink-Clusterverbindungsschema übernommen wird, werden 32 H100 über externe NVLink-Switches miteinander verbunden. Die 8 GPUs im Server sind mit 4 NVSwitch-Modulen verbunden, jedes NVSwitch-Modul entspricht 4-5 Optische OSFP-Module, insgesamt 18 OSFPs, und die OSFPs werden dann mit 18 externen NVLink-Switches verbunden. (Derzeit verfügen die H100 auf dem Markt nicht über diese 18 OSFP-Module.) In diesem Artikel wird nicht die NVLink-Netzwerkmethode behandelt, sondern der Schwerpunkt auf der IB-Netzwerkmethode. Laut NVIDIA-Referenzdesigndokument: Im DGX H100-Servercluster bilden alle 32 DGX H100 eine SU, und alle 4 DGX H100 sind in einem separaten Rack untergebracht (die Leistung jedes Racks wird auf etwa 40 kW geschätzt). und verschiedene Schalter werden in zwei unabhängigen Racks platziert. Daher enthält jede SU 10 Racks (8 für die Platzierung von Servern und 2 für die Platzierung von Switches). Das Computernetzwerk muss lediglich zweischichtige Spine-Leaf-Switches (Mellanox QM9700) verwenden. Die Netzwerktopologie ist in der folgenden Abbildung dargestellt.

Rücken

Switch-Nutzung: Im Cluster bilden alle 32 DGX H100 eine SU (in jeder SU gibt es 8 Leaf-Switches), und im 4 H128-Servercluster gibt es 100 SUs, also insgesamt 32 Leaf-Switches. Jeder DGX H100 in der SU muss mit allen 8 Leaf-Switches verbunden sein. Da jeder Server nur über 4 OSFP-Ports für die Computernetzwerkverbindung verfügt, wird nach dem Anschluss von optischen 800G-Modulen an jeden Port ein OSFP-Port über den Erweiterungsport auf zwei QSFP-Ports erweitert, wodurch die Verbindung jedes DGX H100 mit 8 Leaf-Switches erreicht wird. Jeder Leaf-Switch verfügt über 16 Uplink-Ports, die mit 16 Spine-Switches verbunden sind.

Verwendung optischer Module: Für die Downlink-Ports des Leaf-Switches sind optische 400G-Module erforderlich, und der Bedarf beträgt 3284. Für die Uplink-Ports des Leaf-Switches werden optische 800G-Module verwendet, und der Bedarf beträgt 1684. Es werden optische 800G-Module verwendet die Downlink-Ports des Spine-Switches. Daher wird im H128-Servercluster 800 Computernetzwerke verwendet 800G optische Module 1536 und 400G optische Module 1024.

Hinterlasse einen Kommentar

Nach oben scrollen