Analyse NVIDIA GB200 : architecture d'interconnexion et évolution future

Analyse de l'architecture de l'interconnexion GB200

NVIDIA a beaucoup de confusion dans le calcul de la bande passante de transmission NVLink et les concepts de SubLink/Port/Lane. En règle générale, la bande passante NVLink d'une seule puce B200 est de 1.8 To/s. Ceci est généralement calculé à l’aide de l’algorithme de bande passante mémoire, l’unité étant l’octet par seconde (B/s). Cependant, sur les commutateurs NVLink ou IB/Ethernet et les cartes réseau, le point de vue est celui de Mellanox, qui calcule la bande passante réseau en bits par seconde (b/s). Expliquons en détail la méthode de calcul NVLink. A partir de NVLink 3.0, quatre paires différentielles forment un « sous-lien » (NVIDIA utilise souvent les termes Port/Link, avec une définition un peu vague). Ces 4 paires de lignes de signaux différentiels contiennent à la fois les signaux de direction de réception et de transmission. Lors du calcul de la bande passante du réseau, une interface de 400 Gbit/s fait généralement référence à la capacité de transmettre et de recevoir 400 Gbit/s de données simultanément.

Interface 400 Gbit/s

Il est composé d'un total de 4 paires de lignes de signaux différentiels, avec 2 paires chacune pour RX et TX. Du point de vue du réseau, il s'agit d'une liaison unidirectionnelle de 400 Gbit/s, tandis que du point de vue de la bande passante mémoire, il prend en charge une bande passante d'accès mémoire de 100 Go/s.

Bande passante d'interconnexion NVLINK 5.0

La génération Blackwell utilise des Serdes 224G, avec un taux de transmission de sous-liaison de 200 Gbit/s * 4 (4 paires différentielles) / 8 = 100 Go/s et une bande passante réseau unidirectionnelle de 400 Gbit/s. Le B200 dispose de 18 sous-liaisons, ce qui donne une bande passante de 100 Go/s * 18 = 1.8 To/s, ce qui équivaut à 9 interfaces unidirectionnelles de 400 Gbit/s d'un point de vue réseau. De même, l'introduction de NVSwitch mentionne que les SerDes Dual 200 Gb/s constituent un débit de 400 Gbp.

sport.

Puce de commutateur nvlink

Par souci de clarté, nous définissons les termes suivants :

hbm

La bande passante du B200 NVLINK est de 1.8 To/s, composée de 18 ports, chacun à 100 Go/s, constitués de quatre paires différentielles, chaque port contenant deux Serdes de 224 Gbit/s (2x224G PAM4 équivaut à 400Gbps bande passante unidirectionnelle par port).

Interconnexion NVLINK 4.0

Concernant Hopper, NVLINK 4.0 utilise des Serdes 112G, avec une seule ligne de signal différentiel capable de 100 Gbps, ce qui donne un seul sous-lien NVLINK cumulatif de 4x100 Gbps = 50 Go/s. Les produits Hopper prenant en charge NVLINK 4.0 disposent de 18 sous-liens (ports), donc un seul H100 prend en charge 50 Go/s * 18 = 900 Go/s. Un seul système avec 8 cartes peut utiliser 4 NVSwitches pour la connectivité, comme indiqué dans l'image.

DGX H100

Il est également possible d'ajouter un switch de deuxième niveau pour créer un cluster de 256 cartes.

mise à l'échelle avec le réseau nvlink

L'interface d'extension utilise des modules optiques OSFP, qui peuvent prendre en charge 16 lignes de signaux différentiels, permettant à un seul OSFP de prendre en charge 4 ports NVLINK.

un seul OSFP pour prendre en charge 4 ports NVLINK
brochage du module osfp

Le commutateur NVLink dans l'image contient 32 connecteurs de module optique OSFP, prenant en charge un total de 32 * 4 = 128 ports NVLINK 4.

128nvlink 4 ports

GB200 NVL72

Le système GB200 NVL72 présente les spécifications suivantes, l'accent étant mis principalement sur l'interconnexion NVLINK :

Interconnexion NVLINK

Chaque GB200 contient un processeur Grace ARM à 72 cœurs et deux GPU Blackwell.

Chaque GB200 contient un processeur Grace ARM à 72 cœurs et deux GPU Blackwell.

L'ensemble du système est composé de plateaux de calcul et de plateaux de commutation. Chaque plateau de calcul contient deux sous-systèmes GB200, totalisant 4 GPU Blackwell.

GB200 NVL72

Chaque plateau de commutation contient deux puces de commutation NVLINK, fournissant un total de 72 * 2 = 144 ports NVLINK. La structure interne d'une seule puce de commutateur est illustrée, avec 36 ports en haut et en bas, fournissant 7.2 To/s de bande passante. D'après les calculs du réseau, cela équivaut à 28.8 Tbit/s de capacité de commutation, soit légèrement moins que la puce de commutation leader actuelle de 51.2 Tbit/s, mais cela est dû à la mise en œuvre de la fonctionnalité SHARP (NVLS).

Fonctionnalité SHARP (NVLS)

L'ensemble du rack prend en charge 18 plateaux de calcul et 9 plateaux de commutation, formant l'architecture NVL72 avec 72 puces Blackwell entièrement interconnectées.

L'ensemble du rack prend en charge 18 plateaux de calcul et 9 plateaux de commutation

Chaque sous-système GB200 dispose de 2 * 18 = 36 ports NVLink5. L'interconnexion externe du système n'utilise pas de modules optiques OSFP, mais plutôt une connexion directe au fond de panier en cuivre, comme indiqué dans le schéma.

Sous-système GB200
L'interconnexion externe du système

La topologie globale de l'interconnexion NVL72 est la suivante :

topologie globale d'interconnexion NVL72

Chaque B200 dispose de 18 ports NVLINK et 18 puces de commutation NVLINK réparties sur les 9 plateaux de commutation. Par conséquent, les ports de chaque B200 se connectent à une puce NVSwitch, ce qui donne un total de 72 ports par NVSwitch, ce qui correspond à la manière dont le système NVL72 connecte entièrement les 72 puces B200.

NVL576

On remarque que dans le coffret NVL72, tous les switchs ne disposent plus d'interfaces supplémentaires pour former un plus grand cluster de switchs à deux niveaux. Du offDans les images NVIDIA officielles, 16 armoires sont disposées sur deux rangées, et bien que le total soit exactement de 72 * 8 = 576 cartes en cluster refroidi par liquide, les câbles de connexion entre les cartes semblent passer davantage par l'interconnexion réseau Scale-Out RDMA, plutôt que par l’interconnexion réseau Scale-Up NVLINK.

Racks de calcul GB200 NVL72

Pour un cluster de 32,000 72 cartes, c'est également via de telles armoires NVL9, une rangée de 4 armoires, 72 NVL5 et 18 armoires réseau, deux rangées de XNUMX armoires formant un Sub-Pod, et connectées via le réseau évolutif RDMA.

centre de données complet avec 32000 XNUMX GPU

Bien entendu, il ne s’agit pas du soi-disant NVL576. Si NVL576 est requis, chaque 72 Go200 doit être configuré avec 18 NVSwitches, qui ne rentreraient pas dans une seule armoire. Nous remarquons que le official a mentionné qu'il existe une version à armoire unique du NVL72, ainsi qu'une version à armoire double, et dans la version à armoire double, chaque plateau de calcul ne possède qu'un seul sous-système GB200.

NVIDIA GB200 NVL36

D'un autre côté, nous remarquons qu'il existe des connecteurs de câble en cuivre de rechange sur le NVSwitch, qui sont probablement personnalisés pour différentes connexions de fond de panier en cuivre.

différentes connexions de fond de panier en cuivre

On ne sait pas si ces interfaces disposeront de cages OSFP supplémentaires au-dessus du fond de panier d'interconnexion en cuivre pour l'interconnexion NVSwitch de deuxième niveau, mais cette méthode présente un avantage : la version à armoire unique n'est pas évolutive, tandis que la version à armoire double est évolutive, car montré dans l’image.

interconnexion NVSwitch de deuxième niveau

La version à double armoire dispose de 18 plateaux NVSwitch, qui peuvent être interconnectés dos à dos pour former le NVL72. Bien que le nombre de commutateurs ait doublé, chaque commutateur fournit 36 ​​ports de liaison montante pour une extension future au cluster de 576 cartes. Une seule armoire a un total de 36*2*9 = 648 ports de liaison montante, et 16 armoires sont nécessaires pour former NVL576, ce qui donne un total de 648*16 = 10,368 9 ports de liaison montante, qui peuvent être construits par 36 plans de commutation de deuxième niveau. , chacun avec 18 sous-plans, formés de 576 plateaux de commutation. La structure d'interconnexion du NVLXNUMX est illustrée ci-dessous.

La structure d'interconnexion du NVL576

Examen du NVL576 d'un point de vue commercial

Je suis sceptique quant à l'existence de véritables clients pour un réseau NVLink Scale-Up unique et massif comme le NVL576. Même AWS a seulement choisi de offer le NVL72 dans leurs services cloud. Les principaux problèmes sont les défis de fiabilité et d'évolutivité d'une architecture réseau à deux niveaux, ce qui fait du NVL576 une solution non idéale en raison de la grande complexité de son système.

D'un autre côté, lorsque l'on considère les exigences de calcul des grands modèles de nouvelle génération, le méta-article « Comment construire des réseaux à faible coût pour les grands modèles de langage (sans sacrifier les performances) ? en discute. Le document fait référence au réseau Scale-Up basé sur NVLink comme un « domaine à large bande passante (HBD) » et analyse le nombre optimal de cartes au sein du HBD :

Domaine à large bande passante (HBD)

Pour un modèle GPT-1T, les gains de performances restent assez significatifs lorsque K>36 par rapport à K=8, mais les avantages marginaux de la mise à l'échelle de K>72 à K=576 ne justifient pas la complexité accrue du système. De plus, à mesure que la taille du réseau NVLINK évolutif augmente, les avantages en termes de performances de la bande passante RDMA entre les HBD commencent à diminuer. L’équilibre ultime consiste à utiliser NVL72 combiné avec RDMA Scale-Out pour construire un cluster de 32,000 XNUMX cartes.

La taille du réseau NVLINK évolutif augmente

Évolution des systèmes d'interconnexion : l'histoire de Cisco

Architecture distribuée en raison d'un goulot d'étranglement en matière de calcul/mémoire

Au début, les routeurs Cisco utilisaient un seul processeur PowerPC pour effectuer le transfert. Avec l'explosion d'Internet, le goulot d'étranglement des performances était dû à des opérations gourmandes en mémoire, telles que les recherches dans les tables de routage. Cela a conduit à l’émergence progressive d’approches telles que la commutation de processus/CEF, qui connectaient plusieurs processeurs via un bus de données :

Architecture distribuée

Ces méthodes sont similaires aux premiers NVLINK 1.0/NVLINK 2.0, où les puces étaient directement interconnectées via un bus, comme la génération Pascal.

n'importe qui

L’émergence de Switch Fabric

En 1995, Nick Mckeown a proposé d'utiliser une structure de commutation CrossBar pour prendre en charge les routeurs Gigabit à plus grande échelle dans son article « Fast Switched Backplane for a Gigabit Switched Router » – qui est devenu plus tard les routeurs haut de gamme de la série 12000 de Cisco.

carte de ligne

Les structures de commutation de ces systèmes sont conceptuellement identiques aux NVSwitch et NVSwitch Tray actuels qui construisent les systèmes NVL8~NVL72. Il s’agit avant tout d’interconnecter plusieurs puces pour construire un système à plus grande échelle lorsqu’une seule puce atteint le mur de mémoire.

Plateau NVSwitch

La conception à châssis unique du Cisco 12000, avec la structure de commutation au milieu et 9 plateaux de commutation, est similaire à celle du GB200, où le haut et le bas disposent chacun de 8 emplacements pour cartes de ligne, correspondant aux plateaux de calcul du GB200.

La technologie de base ici est la conception VOQ (Virtual Output Queuing) et l'algorithme de planification iSLIP. Lorsque le modèle exécute All-to-All, plusieurs B200 peuvent écrire simultanément sur le même B200, provoquant un blocage de tête de ligne (HOLB). Les humains ajoutent intelligemment des tampons avant et après les intersections, qui sont la file d'attente d'entrée et la file d'attente de sortie :

File d'attente d'entrée et file d'attente de sortie

Malheureusement, la file d'attente de sortie peut maximiser l'utilisation de la bande passante mais nécessite une vitesse N*R, tandis que la file d'attente d'entrée peut traiter à la vitesse R mais souffre de HOLB. Le débit maximum d'un commutateur IQ limité par HOLB est calculé à 58.6 %.

Une solution simple au problème IQ HOLB consiste à utiliser Virtual Output Queue (VOQ), où chaque port d'entrée dispose d'une file d'attente pour chaque sortie, éliminant HOLB tout en maintenant la mise en mémoire tampon à vitesse R.

File d'attente de sortie virtuelle

Bien entendu, NVLINK de NVIDIA utilise une conception basée sur le crédit, et l'arbitrage de répartition des crédits est un domaine qui mérite des recherches approfondies pour les startups GPU nationales.

Architecture à plusieurs étages et évolution des interconnexions optiques

Le NVL576 est similaire au système de routage de transporteur de Cisco (CRS-1) introduit en 2003.

Système de routage des transporteurs

À cette époque, Cisco a construit un système de réseau de commutation à plusieurs étages pour faire face à l'énorme demande de bande passante pendant la bulle Internet.

système de réseau de commutation à plusieurs étages

Le réseau de commutation à 3 étages au sein d'une seule armoire, construit à l'aide de plateaux de commutation, est équivalent au GB200 NVL72 non évolutif actuel. La structure multi-armoires correspond alors au NVL576. À l'époque, Cisco pouvait passer d'une armoire unique avec 16 cartes de ligne à un système avec 8 armoires Fabric + 72 armoires de cartes de ligne, créant ainsi un cluster de 1152 XNUMX cartes de ligne à grande échelle. Les connexions internes de Cisco utilisent également des interconnexions optiques.

un cluster de cartes de ligne 1152 à grande échelle

Les connecteurs optiques inter-châssis sont illustrés dans l'image.

connecteurs optiques inter-châssis

Il convient de noter qu'à cette époque, Bill Dally, aujourd'hui scientifique en chef de NVIDIA, a fondé Avici et a utilisé les interconnexions 3D-Torus pour construire des routeurs à l'échelle du térabit.

Routeurs à l'échelle du térabit

L'interconnexion 3D-Torus rappelle le TPU de Google. Plus tard, Huawei a OEM le système Avici et l'a baptisé NE5000, avant de développer son produit de routeur principal, NE5000E. Parallèlement, l'émergence de Juniper a également exercé une pression importante sur Cisco dans le domaine principal des routeurs. Peut-être que la domination de NVIDIA sera également confrontée à d'autres défis à l'avenir.

D'un autre côté, des commutateurs optiques basés sur MEMS ont également été introduits à cette époque, ce qui semble présenter certaines similitudes avec l'utilisation actuelle des commutateurs optiques par Google.

Commutateurs optiques basés sur MEMS

L'évolution future de NVIDIA

Lors de la conférence HOTI 2023 sur les systèmes d'interconnexion, Bill Dally a prononcé un discours intitulé « Accelerator Clusters, The New Supercomputer », abordant trois sujets principaux du point de vue des réseaux sur puce et des systèmes d'interconnexion :

Topologie:

  • CLOS/Torus 3D/Libellule
  • Routage:
  • Contrôle du flux

Différentes connexions d'appareils ont des bandes passantes et une consommation d'énergie variables.

Le nouveau supercalculateur

Le défi est de savoir comment les combiner de manière organique, en tenant compte de facteurs tels que la puissance, le coût, la densité et la distance de connexion.

Le défi est de savoir comment les combiner de manière organique

Interconnexions optiques

Grâce à ces mesures dimensionnelles, Co-Package Optic DWDM devient un choix viable :

Co-Package Optique DWDM

Le schéma conceptuel du système pour la construction d’interconnexions optiques est le suivant :

notion de système

L’objectif ultime est de construire un système d’interconnexion optique à grande échelle.

Support GPU

Dans cet aspect, vous verrez qu'il est presque identique au système multi-châssis CRS-1 construit par Cisco, où le rack GPU est équivalent au châssis Cisco LineCard et le rack de commutateur est équivalent au châssis Fabric de Cisco. Ils utilisent tous deux des interconnexions optiques et la technologie DWDM pour réduire la complexité des connexions et augmenter la bande passante.

Châssis de carte de ligne Cisco

Au niveau de l'architecture de la puce, un moteur optique est utilisé comme chiplet pour l'interconnexion.

GPU connecté photonique

Pour la structure d'interconnexion, il existe une plus grande tendance à adopter la topologie Dragonfly et à utiliser des commutateurs optiques OCS.

libellule

En ce qui concerne les algorithmes de contrôle de flux et le contrôle de la congestion, Bill a discuté de mécanismes similaires à HOMA/NDP et au routage adaptatif. Il n’est pas nécessaire d’être aussi complexe, car nous disposons de meilleurs algorithmes MultiPath CC qui ne nécessitent aucune nouvelle fonctionnalité de commutateur.

Algorithmes et intégration matérielle spéciale

D'un autre côté, Transformer existe depuis 7 ans et c'est un excellent algorithme qui équilibre les opérateurs liés au calcul et à la mémoire. Cependant, existe-t-il un algorithme encore plus sophistiqué dans l’industrie ?

Des modèles d'attention éparse comme Monarch Mixer et des modèles qui ne nécessitent pas d'attention comme Mamba/RMKV, ainsi que des algorithmes basés sur la théorie des catégories, la géométrie algébrique et la topologie algébrique, sont en cours de recherche. Il existe également différents formats numériques comme FP4/FP6 pris en charge par Blackwell, et potentiellement Log8 à l'avenir.

Historiquement, Cisco s'est également appuyé sur des algorithmes et du matériel spécial pour améliorer progressivement les performances des monopuces et surmonter la complexité des structures d'interconnexion. Ils ont utilisé des algorithmes comme TreeBitMap pour des recherches de tables de routage à grande échelle sur des DRAM classiques.

ArbreBitMap

Avec le développement des réseaux multicœurs et sur puce, ils ont construit des processeurs réseau SPP/QFP/QFA hautes performances, et ces technologies ont refait surface dans les processeurs AWS Nitro, NVIDIA BlueField et Intel IPU DPU.

Conclusion

FibeMall a analysé l'architecture d'interconnexion du dernier GPU Blackwell et a exploré la construction de systèmes distribués et l'architecture d'interconnexion auxquelles Cisco et NVIDIA ont été confrontés lorsque les performances d'une seule puce n'ont pas pu répondre à la demande explosive au cours de deux vagues technologiques, comme indiqué dans « Le moment Cisco de NVIDIA ». Il a également analysé le discours d'ouverture du HOTI 2023 de Bill Dally, offrant une vision claire de la voie de développement future de NVIDIA.

Cependant, nous notons également que pendant le pic de la bulle Internet, des sociétés comme Juniper et Avici sont apparues comme des challengers de Cisco, et NVIDIA a également vaincu 3Dfx en tant que challenger à cette époque avant de dominer le marché professionnel. Chaque époque a ses opportunités, et les gagnants ne sont pas simplement ceux qui accumulent davantage de ressources, mais aussi ceux qui innovent en combinant les algorithmes et la puissance de calcul avec le matériel.

Du point de vue du challenger, la difficulté du cœur de calcul lui-même, mis à part l'écosystème CUDA, n'est pas si grande. Récemment, Jim Keller et certains acteurs HBM en Corée du Sud et au Japon ont été actifs, et il vaut la peine d'observer si BUDA+RISC-V+HBM deviendra une nouvelle force émergente.

nouvelle tendance vers l'informatique désagrégée

Du point de vue du remplacement des systèmes d'interconnexion IB/NVLINK, Ethernet dispose déjà de puces de commutation de 51.2 Tbps, et des protocoles de communication basés sur des connexions Ethernet haut débit vers HBM, prenant en charge l'informatique en réseau comme SHARP, ont déjà été conçus dans NetDAM il y a trois ans.

Laisser un commentaire

Remonter en haut