Comprendre l'évolution de NvLink et NvSwitch de Nvidia : topologie et débits

2014 : Introduction de l'architecture Pascal avec Tesla P100

En 2014, Nvidia a lancé le Tesla P100 basé sur l'architecture Pascal. Ce GPU était doté de la technologie NVLink de première génération, permettant une communication à haut débit entre 4 ou 8 GPU. La bande passante d'interconnexion bidirectionnelle du NVLink 1.0 était cinq fois supérieure à celle du PCIe 3.0×16. Voici le calcul :

  • PCIe 3.0×16 : bande passante de communication bidirectionnelle de 32 Go/s (1 Go x 16 x 2).
  • NVLink 1.0 : Bande passante d'interconnexion bidirectionnelle de 160 Go/s (20 Go x 4 x 2).

En raison de l’absence de puces NvSwitch, les GPU ont été interconnectés dans une topologie maillée, où 160 Go/s représente la bande passante totale d’un GPU à quatre GPU directement connectés.

Architecture Pascal avec Tesla P100

2017 : Architecture Volta avec V100

En 2017, Nvidia a lancé l'architecture Volta avec le GPU V100. Le NVLink du V100 a augmenté la bande passante unidirectionnelle par lien de 20 Go/s à 25 Go/s et le nombre de liens de 4 à 6, portant la bande passante totale NVLink prise en charge par le GPU à 300 Go/s. Cependant, le système V100 DGX-1 sorti en 2017 ne disposait pas de NvSwitch. La topologie était similaire à celle de NVLink 1.0, avec une augmentation du nombre de liens.

Architecture Volta avec V100

2018 : Lancement du système V100 DGX-2

Pour améliorer encore la bande passante de communication inter-GPU et les performances globales du système, Nvidia a introduit le système V100 DGX-2 en 2018. Il s'agissait du premier système à intégrer la puce NvSwitch, permettant une interconnectivité complète entre 16 GPU SXM V100 au sein d'un seul système DGX-2.

Système V100 DGX-2

Le NVSwitch dispose de 18 ports NVLink, 8 se connectant au GPU et 8 à une autre puce NVSwitch sur une carte mère différente. Chaque carte mère contient six NVSwitch pour la communication avec une autre carte mère.

Chaque carte de base contient six commutateurs NVS pour la communication avec une autre carte de base.

2020 : Architecture Ampère avec A100

En 2020, Nvidia a lancé l'architecture Ampere avec le GPU A100. Les puces NVLink et NVSwitch ont été mises à niveau vers les versions 3.0 et 2.0, respectivement. Bien que la bande passante unidirectionnelle par lien soit restée à 25 Go/s, le nombre de liens est passé à 12, ce qui donne une bande passante d'interconnexion bidirectionnelle totale de 600 Go/s. Le système DGX A100 comprend 6 puces NVSwitch 2.0, chaque GPU A100 étant interconnecté via 12 connexions NVLink aux 6 puces NVSwitch, assurant ainsi deux liens vers chaque NVSwitch.

La topologie logique du système GPU est la suivante :

topologie logique du système GPU

De nombreuses personnes ne comprennent pas la relation logique entre le module HGX et la « tête de serveur ». Le schéma ci-dessous montre que la carte mère du GPU SXM est interconnectée avec la carte mère du serveur via des liaisons PCIe. La puce du commutateur PCIe (PCIeSw) est intégrée à la carte mère de la tête de serveur. La carte réseau et les signaux PCIe NVMe U.2 proviennent également du PCIeSw.

la relation logique entre le module HGX et la tête du serveur

2022 : Architecture Hopper avec H100

Le GPU H100, basé sur l'architecture Hopper, est sorti en 2022 avec les versions NVLink et NVSwitch 4.0 et 3.0, respectivement. Alors que la bande passante unidirectionnelle par lien est restée inchangée à 25 Go/s, le nombre de liens est passé à 18, ce qui donne une bande passante d'interconnexion bidirectionnelle totale de 900 Go/s. Chaque GPU est interconnecté avec 4 NVSwitches à l'aide d'un groupement 5+4+4+5.

Architecture de trémie avec H100

Les interfaces OSFP des puces NVSwitch du système DGX sont utilisées pour le plus grand réseau GPU de Nvidia, comme dans la solution DGX H100 256 SuperPOD.

SuperPOD DGX H100 256

2024 : Blackwell Architecture avec B200

En 2024, Nvidia a présenté l'architecture Blackwell avec le GPU B200, doté respectivement des versions NVLink et NVSwitch 5.0 et 4.0. La bande passante unidirectionnelle par lien a doublé pour atteindre 50 Go/s, avec 18 liens, ce qui donne une bande passante d'interconnexion bidirectionnelle totale de 1.8 To/s. Chaque puce NVSwitch dispose de 72 ports NVLink 5.0 et chaque GPU utilise 9 connexions NVLink vers deux puces NVSwitch.

Architecture Blackwell avec B200

Avec la sortie du B200, Nvidia a également introduit le NVL72, un système GPU intégré qui utilise le commutateur réseau NVLink pour obtenir une interconnectivité complète entre 72 GPU.

La topologie logique pour l'interconnexion des 72 GPU à l'aide de 9 commutateurs NVLink est la suivante :

72 GPU utilisant 9 commutateurs NVLink

Chaque GPU B200 dispose de 18 ports NVLink, ce qui représente un total de 1,296 72 connexions NVLink (18 × 72). Un seul plateau de commutation contient deux puces de commutation NVLink, chacune fournissant 144 interfaces (9 au total). Ainsi, 72 plateaux de commutation sont nécessaires pour interconnecter complètement les XNUMX GPU.

Laisser un commentaire

Remonter en haut