A100/H100/GH200-Cluster: Netzwerkarchitektur und Anforderungen an optische Module

Herkömmliche Rechenzentren haben einen Übergang von einer dreistufigen Architektur zu einer Leaf-Spine-Architektur durchlaufen, vor allem um dem wachsenden Ost-West-Verkehr innerhalb des Rechenzentrums Rechnung zu tragen. Da sich der Prozess der Datenmigration in die Cloud immer weiter beschleunigt, nimmt die Größe der Cloud-Computing-Rechenzentren weiter zu. Anwendungen wie Virtualisierung und hyperkonvergente Systeme, die in diesen Rechenzentren eingeführt werden, haben zu einem deutlichen Anstieg des Ost-West-Verkehrs geführt – früheren Daten von Cisco zufolge machte der interne Rechenzentrumsverkehr im Jahr 2021 über 70 % des rechenzentrumsbezogenen Datenverkehrs aus .

Am Beispiel des Übergangs von der traditionellen dreischichtigen Architektur zur Leaf-Spine-Architektur kann die Anzahl der erforderlichen optischen Module in einer Leaf-Spine-Netzwerkarchitektur um das Zehnfache ansteigen.

White-Paper-c11-737022_1

Anforderungen an die Netzwerkarchitektur für große KI-Cluster

Angesichts der Notwendigkeit, Netzwerkengpässe zu beseitigen, muss die Netzwerkarchitektur für große KI-Cluster die Anforderungen an hohe Bandbreite, geringe Latenz und verlustfreie Übertragung erfüllen. KI-Rechenzentren verwenden im Allgemeinen eine Fat-Tree-Netzwerkarchitektur, die ein nicht blockierendes Netzwerk bietet. Um außerdem Engpässe bei der Verbindung zwischen Knoten zu vermeiden, verwendet NVIDIA NVLink, um eine effiziente Kommunikation zwischen GPUs zu ermöglichen. Im Vergleich zu PCIe bietet NVLink höhere Bandbreitenvorteile, dient als Grundlage für die Shared-Memory-Architektur von NVIDIA und schafft eine neue Nachfrage nach optischen Verbindungen zwischen GPUs.

A100-Netzwerkstruktur und Anforderungen an optische Module

Die grundlegende Bereitstellungsstruktur für jeden DGX A100 SuperPOD besteht aus 140 Servern (jeder Server mit 8 GPUs) und Switches (jeder Switch mit 40 Ports, jeder Port bei 200G). Die Netzwerktopologie ist eine InfiniBand (IB) Fat-Tree-Struktur. Bezüglich der Anzahl der Netzwerkschichten wird eine dreischichtige Netzwerkstruktur (Server-Leaf-Switch-Spine-Switch-Core-Switch) für 140 Server eingesetzt, wobei die entsprechende Anzahl an Kabeln für jede Schicht 1120-1124-1120 beträgt. Unter der Annahme, dass zwischen Servern und Switches Kupferkabel verwendet werden, und basierend auf einem Kabel, das zwei optischen 200G-Modulen entspricht, beträgt das Verhältnis von GPU:Switch:optisches Modul 1:0.15:4. Wenn ein rein optisches Netzwerk verwendet wird, beträgt das Verhältnis GPU:Switch:optisches Modul = 1:0.15:6.

Developer_c087f74
5ZCez_5CQB3B

Anforderungen an H100-Netzwerkstruktur und optische Module

Die grundlegende Bereitstellungsstruktur für jeden DGX H100 SuperPOD besteht aus 32 Servern (jeder Server mit 8 GPUs) und 12 Switches. Die Netzwerktopologie ist eine IB-Fat-Tree-Struktur, wobei jeder Switch-Port mit 400G arbeitet und zu einem 800G-Port kombiniert werden kann. Für einen 4SU-Cluster unter der Annahme eines rein optischen Netzwerks und einer dreischichtigen Fat-Tree-Architektur: 400G optische Module werden zwischen Servern und Leaf-Switches verwendet, während optische 800G-Module zwischen Leaf-Spine- und Spine-Core-Switches verwendet werden. Die Anzahl der erforderlichen optischen 400G-Module beträgt 3284 = 256 und die Anzahl der optischen 800G-Module beträgt 3282.5 = 640. Daher beträgt das Verhältnis von GPU:Switch:400G-optisches Modul:800G-optisches Modul 1:0.08:1:2.5.

rzcF8_94mA6j

Für einen einzelnen GH200-Cluster, der aus 256 miteinander verbundenen Superchip-GPUs über eine zweistufige Fat-Tree-Netzwerkstruktur besteht, sind beide Ebenen mit NVLink-Switches aufgebaut. Die erste Ebene (zwischen Servern und Level-1-Switches) verwendet 96 Switches, während Level 2 36 Switches verwendet. Jeder NVLink-Switch verfügt über 32 Ports, wobei jeder Port eine Geschwindigkeit von 800 G hat. Wenn man davon ausgeht, dass die bidirektionale aggregierte Bandbreite von NVLink 4.0 900 GB/s und die unidirektionale 450 GB/s beträgt, beträgt die gesamte Uplink-Bandbreite für die Zugriffsschicht in einem 256-Karten-Cluster 115,200 GB/s. Unter Berücksichtigung der Fat-Tree-Architektur und der Übertragungsrate des optischen 800G-Moduls (100 GB/s) beträgt der Gesamtbedarf für optische 800G-Module 2,304 Einheiten. Daher beträgt innerhalb des GH200-Clusters das Verhältnis von GPUs zu optischen Modulen 1:9. Bei der Verbindung mehrerer GH200-Cluster unter Bezugnahme auf die H100-Architektur in einer dreistufigen Netzwerkstruktur beträgt der Bedarf an GPUs für optische 800G-Module 1:2.5; Bei einem zweistufigen Netzwerk beträgt es 1:1.5. Wenn also mehrere GH200 miteinander verbunden werden, beträgt die Obergrenze für das Verhältnis von GPU zu optischem 800G-Modul 1:(9+2.5) = 1:11.5.

nvidia-grace-hopper-gh200-nvlink-fabric
NVIDIA GH Superchip-System

Zusammenfassend lässt sich sagen, dass die Nachfrage nach optischen Hochgeschwindigkeitsmodulen immer flexibler wird, da Rechencluster die Netzwerkleistung weiter verbessern. Am Beispiel von NVIDIA-Clustern hängt die von der Beschleunigerkarte angepasste Netzwerkkarten-Schnittstellenrate eng mit der Bandbreite des Netzwerkprotokolls zusammen. Die A100-GPU unterstützt PCIe 4.0 mit einer maximalen unidirektionalen Bandbreite von 252 Gbit/s. Daher muss die PCIe-Netzwerkkartenrate in Kombination mit Mellanox HDR 252 Gbit/s Infiniband-Netzwerkkarten weniger als 200 Gbit/s betragen. Die H100-GPU unterstützt PCIe 5.0 mit einer maximalen unidirektionalen Bandbreite von 504 Gbit/s und lässt sich daher mit Mellanox NDR 400 Gbit/s Infiniband-Netzwerkkarten koppeln. Daher steigt bei einem Upgrade von A100 auf H100 der entsprechende Bedarf an optischen Modulen von 200G auf 800G (zwei 400G-Ports werden zu einem 800G zusammengefasst); während die GH200 NVLink für die Konnektivität zwischen Karten verwendet, wobei die unidirektionale Bandbreite auf 450 GB/s erhöht wird, was die Elastizität für den 800G-Bedarf weiter erhöht. Angenommen, der H100-Cluster wird von PCIe 5.0 auf PCIe 6.0 aktualisiert, wobei die maximale unidirektionale Bandbreite auf 1024 Gbit/s erhöht wird. In diesem Fall kann die Netzwerkkartenrate der Zugriffsschicht auf 800G erhöht werden, was bedeutet, dass die Zugriffsschicht optische 800G-Module verwenden kann und sich die Nachfrageelastizität für eine einzelne Karte, die optischen 800G-Modulen im Cluster entspricht, verdoppeln würde.

Metas Computational-Cluster-Architektur und -Anwendung hat zuvor das „Research SuperCluster“-Projekt zum Training des LLaMA-Modells veröffentlicht. In der zweiten Phase des RSC-Projekts stellte Meta insgesamt 2,000 A100-Server mit 16,000 A100-GPUs bereit. Der Cluster umfasst 2,000 Switches und 48,000 Links, was einer dreistufigen CLOS-Netzwerkarchitektur entspricht. Wenn ein vollständiges optisches Netzwerk übernommen wird, entspricht dies 96,000 optischen 200G-Modulen, was bedeutet, dass das Verhältnis von A100-GPUs zu optischen Modulen 1:6 beträgt, was mit der zuvor berechneten A100-Architektur übereinstimmt.

Meta-Networking-Scale-32k-Scale-Topologie

Meta hat eine Trainingsinfrastruktur für LLaMA3 mithilfe von H100-GPUs implementiert, die Cluster mit InfiniBand und Ethernet umfasst und bis zu 32,000 GPUs unterstützen kann. Für die Ethernet-Lösung verwendet der Computercluster nach Angaben von Meta weiterhin eine konvergente Leaf-Spine-Netzwerkarchitektur. Jedes Rack enthält 2 Server, die mit einem Top-of-Rack (TOR)-Switch (mit Wedge 1) verbunden sind, mit insgesamt 400 Servern in einem Cluster. Die Cluster-Switches verwenden Minipack252 OCP-Rack-Switches mit insgesamt 2 Cluster-Switches, was zu einem Konvergenzverhältnis von 18:3.5 führt. Es gibt 1 Aggregation-Layer-Switches (unter Verwendung von Arista 18R7800) mit einem Konvergenzverhältnis von 3:7. Der Cluster verwendet hauptsächlich optische 1G-Module. Aus Sicht der Cluster-Architektur erfordert die Ethernet-Lösung noch weitere Durchbrüche auf Protokollebene, um den Aufbau eines nicht blockierenden Netzwerks voranzutreiben, wobei der Fortschritt von Organisationen wie der Ethernet Alliance zu berücksichtigen ist.

AWS hat die zweite Generation von EC2-Ultra-Clustern auf den Markt gebracht, die die H100-GPU und ihre proprietäre Trainium-ASIC-Lösung umfassen. Die AWS EC2 Ultra Clusters P5-Instanzen (d. h. die H100-Lösung) bieten eine Gesamtnetzwerkbandbreite von 3200 Gbit/s und unterstützen GPUDirect RDMA mit einer maximalen Netzwerkkapazität von 20,000 GPUs. Die Trn1n-Instanzen (proprietäre Trainium-Lösung) verfügen über einen 16-Karten-Cluster, der eine Gesamtnetzwerkbandbreite von 1600 Gbit/s bietet und bis zu 30,000 vernetzte ASICs unterstützt, was 6 EFlops Rechenleistung entspricht.

aws-ec2-ultracluster-blockdiagramm
Bild-2

Die Verbindung zwischen AWS EC2 Ultra Clusters-Karten erfolgt über NVLink (für die H100-Lösung) und NeuronLink (für die Trainium-Lösung), wobei die Cluster-Verbindung über ihren proprietären EFA-Netzwerkadapter erfolgt. Im Vergleich zur Lösung von Nvidia verfügt der proprietäre Trainium ASIC-Cluster von AWS über eine geschätzte Uplink-Bandbreite von 100 G pro Karte (1600 G Gesamtbandbreite / 16 Karten = 100 G), daher besteht derzeit keine Nachfrage dafür 800G optische Module in der AWS-Architektur.

Der neueste Computercluster von Google besteht aus TPU-Arrays, die in einem dreidimensionalen Torus konfiguriert sind. Ein eindimensionaler Torus entspricht jeder TPU, die mit zwei benachbarten TPUs verbunden ist. Ein zweidimensionaler Torus besteht aus zwei orthogonalen Ringen, die jeder TPU entsprechen, die mit vier benachbarten TPUs verbunden ist. Googles TPUv4 stellt einen dreidimensionalen Torus dar, wobei jede TPU mit sechs benachbarten TPUs verbunden ist.

Google-Machine-Learning-Supercomputer-With-An-Optically-Reconfigurable-Interconnect-_Page_11-746x420
Bidirektionaler optischer CWDM4-Transceiver

Darauf aufbauend wird in jedem Schrank eine 3D-Netzwerkstruktur aus 444=64 TPUs aufgebaut. Der äußere Teil der 3D-Struktur ist mit dem OCS verbunden, mit einer Verbindung von 4096 TPUs, die 64 Schränken und 48 OCS-Switches entsprechen, was 48*64=6144 optischen Modulen entspricht. Intern werden DAC-Verbindungen verwendet (18000 Kabel), was zu einem Verhältnis von TPU zu optischem Modul von 1:1.5 führt. Im Rahmen der OCS-Lösung müssen die optischen Module eine Wellenlängenmultiplexlösung übernehmen und Zirkulatoren hinzufügen, um die Anzahl der Fasern zu reduzieren, wobei die optische Modullösung über kundenspezifische Funktionen verfügt (800G VFR8).

Hinterlasse einen Kommentar

Nach oben scrollen