La solution NDR 400G/800G de NVIDIA

En tant que technologie émergente, l'intelligence artificielle a connu un développement rapide ces dernières années. Parmi elles, une série de technologies d'IA telles que ChatGPT ont commencé à changer progressivement la production et les modes de vie. L'optimisation continue des algorithmes d'apprentissage en profondeur et l'expansion des ensembles de données de formation ont également conduit à l'augmentation des ressources informatiques nécessaires à la formation de grands modèles de langage, notamment les processeurs, les GPU et les DPU, qui doivent être connectés à des serveurs pour la formation de modèles via des réseaux. Par conséquent, la bande passante et la latence du réseau ont un impact direct sur la vitesse et l'efficacité de l'entraînement. Pour résoudre ce problème, NVIDIA a lancé la plate-forme Quantum-2 InfiniBand, qui fournit des performances réseau puissantes et des fonctionnalités complètes pour aider les développeurs et les chercheurs en intelligence artificielle à surmonter les difficultés.

Sur la base de sa compréhension des tendances de développement de réseaux à haut débit et de sa riche expérience dans la mise en œuvre de projets de réseaux hautes performances, NVIDIA a introduit la solution réseau NDR (Next Data Rate), qui est construite sur la base de la plate-forme Quantum-2 InfiniBand. La solution NDR de NVIDIA se compose principalement de commutateurs Quantum-2 InfiniBand 800G (interfaces 2x400G NDR), d'adaptateurs hôtes ConnectX-7 InfiniBand et de connecteurs optiques LinkX InfiniBand, visant à fournir des performances réseau ultra-puissantes à faible latence et à bande passante élevée pour des domaines critiques tels que comme le calcul haute performance, les centres de données cloud à grande échelle et l'intelligence artificielle.

Les cas d'utilisation incluent :

1. Connectez deux commutateurs à une vitesse de 800 Go/s ou connectez-vous à deux commutateurs à une vitesse de 400 Go/s chacun.

Pour connecter deux commutateurs basés sur OSFP, vous pouvez utiliser deux émetteurs-récepteurs OSFP à deux ports (MMA4Z00-NS) et deux câbles fibre multimode droits (MFP7E10-Nxxx) jusqu'à une distance de 50 mètres. Cela vous permettra d'atteindre une vitesse de 800G (2x400G). Alternativement, vous pouvez acheminer les deux câbles à fibre optique vers deux commutateurs différents pour créer deux liaisons 400 Gb/s distinctes. Les ports OSFP à double port supplémentaires peuvent ensuite être utilisés pour se connecter à d'autres commutateurs si nécessaire.

interrupteur pour interrupteur

2. Connectez-vous à deux combinaisons de ConnectX-7 BlueField-3 avec une vitesse de 400G chacune.

En utilisant un émetteur-récepteur OSFP à deux ports avec deux câbles à fibre droite, vous pouvez connecter jusqu'à deux combinaisons adaptateur et/ou DPU à l'aide de ConnectX-7 ou BlueField-3. Chaque câble a quatre canaux et peut être relié à un émetteur-récepteur 400G dans OSFP (MMA4Z00-NS400) ou facteur de forme QSFP112 (MMA1Z00-NS400) pour des distances jusqu'à 50 mètres. Les facteurs de forme OSFP et QSFP112 à port unique ont les mêmes composants électroniques, optiques et connecteurs optiques et consomment 8 watts de puissance.

Veuillez noter que seuls les ConnectX-7/OSFP prennent en charge le facteur de forme OSFP à port unique, tandis que le facteur de forme QSFP112 est utilisé dans les DPU ConnectX-7/QSFP112 et/ou BlueField-3/QSFP112. Vous pouvez utiliser n'importe quelle combinaison de ConnectX-7 et BlueField-3 en utilisant OSFP ou QSFP112 sur le même émetteur-récepteur OSFP à deux ports simultanément.

passer à 2

3. Connectez-vous à quatre combinaisons de ConnectX-7 et/ou BlueField-3 avec une vitesse de 200G chacune.

Si vous souhaitez commuter jusqu'à quatre combinaisons d'adaptateurs et/ou de DPU à l'aide de ConnectX-7 ou BlueField-3, vous pouvez utiliser un émetteur-récepteur OSFP à deux ports avec deux câbles répartiteurs fibre 1:2. Chacun des deux câbles séparateurs fibre optique 4:1 à 2 canaux (MFP7E20-N0xx) peut être relié à un émetteur-récepteur 400G jusqu'à 50 mètres en OSFP (MMA4Z00-NS400) ou QSFP112 (MMA1Z00-NS400) facteur de forme. Les mêmes composants électroniques, optiques et connecteurs optiques sont utilisés pour les facteurs de forme OSFP à port unique et QSFP112. Lorsque vous connectez les extrémités du canal à deux fibres, seules deux voies de l'émetteur-récepteur 400G s'activent, créant un appareil 200G. Cela réduit également automatiquement la consommation électrique des émetteurs-récepteurs 400G de 8 watts à 5.5 watts, tandis que la consommation électrique OSFP à deux ports reste à 15 watts.

Veuillez noter que seuls les ConnectX-7/OSFP sont compatibles avec le facteur de forme OSFP à port unique, tandis que le facteur de forme QSFP112 est utilisé dans les DPU ConnectX-7/QSFP112 et/ou BlueField-3/QSFP112. Vous pouvez utiliser n'importe quelle combinaison de types ConnectX-7 et BlueField-3 sur le même émetteur-récepteur OSFP à deux ports.

passer à 4

4. Reliez le commutateur au châssis du processeur DGX H100 « Viking » dans le complexe Cedar-7.

Le système DGX-H100 est équipé de huit GPU Hopper H100 situés dans le châssis supérieur, ainsi que de deux processeurs, d'un stockage et InfiniBand ou réseau Ethernet dans la section inférieure du serveur. Pour faciliter la communication GPU à GPU, les cartes Cedar-7 sont utilisées et contiennent huit circuits intégrés ConnectX-400 de 7 Gb/s montés sur deux cartes mezzanine. Ces cartes sont connectées en interne à quatre cages OSFP à deux ports 800G avec des dissipateurs thermiques internes à des fins de refroidissement.

Les commutateurs qui prennent en charge 400G IB/EN nécessitent des émetteurs-récepteurs 2x400G à ailettes en raison des entrées de débit d'air réduites. Les liaisons Cedar-7-to-Switch peuvent utiliser des optiques monomodes ou multimodes ou des câbles en cuivre actifs (ACC) pour la connectivité InfiniBand ou Ethernet.

L'émetteur-récepteur 2x400G à deux ports fournit deux liaisons ConnectX-400 7G du DGX au commutateur Quantum-2 ou Spectrum-4, réduisant ainsi la complexité et le nombre d'émetteurs-récepteurs requis par rapport au DGX A100. Le DGX-H100 prend également en charge jusqu'à quatre unités de traitement de données (DPU) ConnectX-7 et/ou deux BlueField-3 en InfiniBand et/ou Ethernet pour la mise en réseau traditionnelle vers le stockage, les clusters et la gestion.

Les emplacements de carte PCIe situés des deux côtés des cages GPU OSFP peuvent accueillir des câbles et/ou des émetteurs-récepteurs séparés pour faciliter une mise en réseau supplémentaire en utilisant 400G ou 200G avec des périphériques OSFP ou QSFP112.

passer à dgx

InfiniBand Quantique-2 Interrupteur

Les commutateurs QM9700 et QM9790 de NVIDIA Quantum-2 sont les principaux commutateurs IB (InfiniBand) dans le domaine de l'intelligence artificielle moderne et du calcul haute performance. Grâce à l'innovation technologique et aux services de test de fiabilité, NVIDIA Networks fournit aux utilisateurs d'excellents services d'accélération du réseau.

InfiniBand Quantique-2

Ces deux commutateurs utilisent une conception de châssis standard 1U, avec un total de 32 interfaces physiques 800G, et prennent en charge 64 ports InfiniBand NDR 400Gb/s (qui peuvent être divisés en jusqu'à 128 ports 200Gb/s). Ils prennent en charge la technologie NVIDIA SHARP de troisième génération, le contrôle avancé de la congestion, le routage adaptatif et la technologie de réseau à réparation automatique. Par rapport aux produits HDR de la génération précédente, NDR fournit deux fois la vitesse du port, trois fois la densité des ports du commutateur, cinq fois la capacité du système de commutation et 32 ​​fois la capacité d'accélération de l'IA du commutateur.

interrupteur ndr

Les commutateurs QM9700 et QM9790 sont des produits pour les solutions InfiniBand montées en rack, y compris les commutateurs refroidis par air et par liquide, ainsi que les commutateurs gérés et non gérés. Chaque commutateur peut prendre en charge une bande passante agrégée bidirectionnelle de 51.2 To/s et a une capacité de débit incroyable de plus de 66.5 milliards de paquets par seconde (BPPS). C'est environ cinq fois la capacité de commutation de la génération précédente Quantum-1.

en réseau

Les commutateurs QM9700 et QM9790 ont une grande flexibilité et peuvent prendre en charge diverses topologies de réseau telles que Fat Tree, DragonFly+ et Torus multidimensionnel. Ils prennent également en charge la rétrocompatibilité avec les générations précédentes de produits et disposent d'une prise en charge étendue du système logiciel.

Quantum-2 ConnectX-7 Carte réseau intelligente

NVIDIA fournit des cartes réseau intelligentes NDR ou NDR200 NVIDIA ConnectX 7 à un ou deux ports en tant que solution Quantum-2. Utilisant la technologie NVIDIA Mellanox Socket Direct, cette carte réseau atteint 32 canaux PCIe Gen4. Conçu avec la technologie 7 nanomètres, ConnectX-7 contient 8 milliards de transistors et a un taux de transfert de données deux fois supérieur à celui de la principale puce réseau informatique hautes performances, NVIDIA ConnectX-6. Il double également les performances de RDMA, GPUDirect Storage, GPUDirect RDMA et de l'informatique en réseau.

Le NDR HCA comprend plusieurs cœurs de calcul programmables qui peuvent décharger les algorithmes de prétraitement des données et les chemins de contrôle des applications du CPU ou du GPU vers le réseau, offrant des performances, une évolutivité et un chevauchement supérieurs entre les tâches de calcul et de communication. Cette carte réseau intelligente répond aux exigences les plus exigeantes des entreprises traditionnelles et des charges de travail mondiales en matière d'intelligence artificielle, de calcul scientifique et de centres de données cloud à grande échelle.

Carte réseau intelligente Quantum-2 ConnectX-7

Connecteur optique LinkX InfiniBand

FibreMall offoffre des solutions de connectivité optique InfiniBand 400 Gb/s flexibles, notamment des émetteurs-récepteurs monomodes et multimodes, des cavaliers fibre optique MPO, des câbles en cuivre actifs (ACC) et des câbles en cuivre passifs (DAC), pour répondre aux besoins de diverses topologies de réseau.

La solution comprend des émetteurs-récepteurs à double port avec des connecteurs OSFP dotés d'ailettes conçues pour les commutateurs à configuration fixe refroidis par air, tandis que ceux dotés de connecteurs OSFP plats conviennent aux commutateurs modulaires refroidis par liquide et HCA.

Pour l'interconnexion des commutateurs, un nouveau module optique 2xNDR (800 Gbit/s) en package OSFP peut être utilisé pour interconnecter deux commutateurs QM97XX. La conception des ailettes améliore considérablement la dissipation thermique des modules optiques.

Pour l'interconnexion entre les commutateurs et le HCA, l'extrémité du commutateur utilise un module optique 2xNDR (800 Gbit/s) en package OSFP avec des ailettes, tandis que l'extrémité de la carte réseau utilise un module plat Module optique OSFP 400Gbps. Les cavaliers de fibre MPO peuvent fournir 3 à 150 mètres, et une fibre de séparation un à deux peut fournir 3 à 50 mètres.

émetteur-récepteur optique

La connexion entre le commutateur et HCA fournit une solution utilisant DAC (jusqu'à 1.5 mètre) ou ACC (jusqu'à 3 mètres). Un câble de dérivation de un à deux peut être utilisé pour connecter un port OSFP du commutateur (équipé de deux ports InfiniBand 400 Gb/s) à deux HCA 400 Gb/s indépendants. Un câble de dérivation de un à quatre peut être utilisé pour connecter un port de commutateur OSFP du commutateur à quatre HCA 200 Gb/s.

connexion entre le commutateur et HCA

Avantages

La plate-forme NVIDIA Quantum-2 InfiniBand est une solution réseau hautes performances capable d'atteindre des vitesses de transmission de 400 Gb/s par port. En mettant en œuvre la technologie NVIDIA Port Splitting, il atteint deux fois la vitesse de la densité des ports, trois fois la densité des ports du commutateur et cinq fois la capacité du système de commutation. Lors de l'utilisation de la topologie Dragonfly+, un réseau basé sur Quantum-2 peut atteindre une connectivité de 400 Gb/s pour plus d'un million de nœuds en trois sauts, tout en réduisant la consommation d'énergie, la latence et les exigences spatiales.

En termes de performances, NVIDIA a introduit la technologie SHARP de troisième génération (SHARPv3), qui crée une évolutivité quasi infinie pour l'agrégation de données volumineuses via un réseau évolutif prenant en charge jusqu'à 64 flux parallèles. Les capacités d'accélération de l'IA ont été multipliées par 32 par rapport au produit HDR précédent.

En termes de coûts d'utilisation, l'utilisation de périphériques NDR peut réduire la complexité du réseau et améliorer l'efficacité. Lors de la mise à niveau ultérieure du débit, seuls les câbles et les cartes réseau doivent être remplacés. Les réseaux NDR nécessitent moins d'appareils que ceux prenant en charge le même réseau, ce qui les rend plus rentables pour les budgets globaux et les investissements futurs. Par rapport au HDR précédent, les appareils NDR peuvent réduire les coûts et améliorer l'efficacité.

Laisser un commentaire

Remonter en haut