NVIDIA Spectrum-X : plate-forme réseau d'accélération de l'IA basée sur Ethernet

Les charges de travail d'intelligence artificielle sont caractérisées par un petit nombre de tâches qui gèrent de grandes quantités de transfert de données entre GPU, et la latence résiduelle peut avoir un impact significatif sur les performances globales des applications. L’utilisation de mécanismes de routage réseau traditionnels pour gérer ce modèle de trafic peut entraîner des performances GPU incohérentes et une faible utilisation des charges de travail d’IA.

Le routage dynamique NVIDIA Spectrum-X RoCE est une technologie d'équilibrage de charge fine qui ajuste dynamiquement le routage des données RDMA pour éviter la congestion. Combinée à la technologie DDP de BlueField 3, elle offre un équilibrage de charge optimal et permet d'obtenir une bande passante de données plus efficace.

Présentation de la plate-forme réseau Spectrum-X

La plate-forme réseau NVIDIA® Spectrum™-X est la première plate-forme Ethernet conçue pour améliorer les performances et l'efficacité des cloud IA basés sur Ethernet. Cette technologie révolutionnaire multiplie par 1.7 les performances de l'IA et l'efficacité énergétique dans les charges de travail d'IA à grande échelle similaires à LLM et garantit la cohérence et la prévisibilité dans les environnements multi-tenants. Spectrum-X est basé sur des commutateurs Ethernet Spectrum-4 et des cartes réseau NVIDIA BlueField®-3 DPU et est optimisé de bout en bout pour les charges de travail d'IA.

Technologies clés Spectrum-X

Pour prendre en charge et accélérer les charges de travail d'IA, Spectrum-X a réalisé une série d'optimisations depuis les DPU jusqu'aux commutateurs, câbles/périphériques optiques, réseaux et logiciels d'accélération, notamment :

  • Routage adaptatif NVIDIA RoCE sur Spectrum-4
  • Placement direct des données NVIDIA (DDP) sur BlueField-3
  • Contrôle de congestion NVIDIA RoCE sur Spectrum-4 et BlueField-3
  • Logiciel d'accélération NVIDIA AI
  • Visibilité du réseau IA de bout en bout

Avantages clés de Spectrum-X

  • Améliorez les performances du cloud IA : Spectrum-X multiplie par 1.7 les performances du cloud IA.
  • Connectivité Ethernet standard : Spectrum-X est entièrement conforme aux normes Ethernet et est entièrement compatible avec les piles technologiques basées sur Ethernet.
  • Améliorer l'efficacité énergétique : en améliorant les performances, Spectrum-X contribue à un environnement d'IA plus économe en énergie.
  • Protection multi-tenant améliorée : effectuez une isolation des performances dans les environnements multi-tenant, garantissant des performances optimales et cohérentes pour la charge de travail de chaque locataire, améliorant ainsi la satisfaction client et la qualité du service.
  • Meilleure visibilité du réseau IA : surveillez le trafic s'exécutant dans le cloud IA pour plus de visibilité, identifiez les goulots d'étranglement en matière de performances et devenez un élément clé des solutions modernes de validation de réseau automatisée.
  • Évolutivité supérieure de l'IA : prise en charge de la mise à l'échelle jusqu'à 128 ports 400G en un seul saut ou jusqu'à 8 XNUMX ports dans une topologie spine à deux niveaux, tout en maintenant des niveaux de performances élevés, prenant en charge l'expansion du cloud IA.
  • Configuration réseau plus rapide : configuration de bout en bout des fonctionnalités réseau avancées automatisées, entièrement optimisées pour les charges de travail d'IA.

Commutateur Ethernet Spectrum-4

Le commutateur Spectrum-4 est construit sur un ASIC 51.2 Tbps, prenant en charge jusqu'à 128 ports Ethernet 400G dans un seul commutateur 2U. Spectrum-4 est le premier commutateur Ethernet conçu pour les charges de travail d'IA. Pour l’IA, le RoCE a été étendu :

  • Routage adaptatif RoCE
  • Isolation des performances RoCE
  • Amélioration efficace de la bande passante sur Ethernet standard à grande échelle
  • Faible latence, faible gigue et latence courte
Commutateur NVIDIA 400G

NVIDIA Spectrum-4 400 Gigabits Commutateur Ethernet

DPU BlueField-3

Le NVIDIA BlueField-3 DPU est la puce d'infrastructure de centre de données de troisième génération qui permet aux organisations de créer des infrastructures informatiques définies par logiciel et accélérées par le matériel, du cloud au centre de données principal en passant par la périphérie. Avec une connectivité réseau Ethernet 400 Gb/s, le DPU BlueField-3 peut offcharger, accélérer et isoler les fonctions de réseau, de stockage, de sécurité et de gestion définies par logiciel, améliorant ainsi considérablement les performances, l'efficacité et la sécurité des centres de données. BlueField-3 offre des capacités de performances sécurisées et multi-locataires pour le trafic nord-sud et est-ouest dans les centres de données cloud AI alimentés par Spectrum-X.

DPU

NVIDIA BlueField-3 400 Go/s Ethernet-DPU

BlueField-3 est conçu pour l'accélération de l'IA, intégrant un moteur tout-à-tout pour les technologies d'accélération de l'IA, NVIDIA GPUDirect et NVIDIA Magnum IO GPUDirect Storage.

En outre, il dispose également d'un mode d'interface réseau (NIC) spécial qui exploite la mémoire locale pour accélérer les grands nuages ​​​​d'IA. Ces nuages ​​contiennent un grand nombre de paires de files d'attente accessibles à des adresses locales au lieu d'utiliser la mémoire système. Enfin, il inclut la technologie NVIDIA Direct Data Placement (DDP) pour améliorer le routage adaptatif RoCE.

Couche physique de bout en bout NVIDIA (PHY)

Spectrum-X est la seule plate-forme réseau Ethernet construite sur le même canal SerDes 100G, du commutateur au DPU en passant par le GPU, en utilisant la technologie SerDes de NVIDIA.

Le SerDes de NVIDIA garantit une excellente intégrité du signal et le taux d'erreur binaire (BER) le plus faible, réduisant considérablement la consommation d'énergie du cloud IA. Cette puissante technologie SerDes, combinée aux portefeuilles de produits NVIDIA Hopper GPU, Spectrum-4, BlueField-3 et Quantum InfiniBand, atteint l'équilibre parfait entre efficacité énergétique et performances.

de mise en réseau

Topologie de réseau Spectrum-X typique

La technologie SerDes joue un rôle important dans la transmission de données moderne, car elle peut convertir des données parallèles en données série, et vice versa.

L'utilisation uniforme de la technologie SerDes sur tous les périphériques et composants réseau du réseau ou du système apporte de nombreux avantages :

Coût et efficacité énergétique : le SerDes utilisé par NVIDIA Spectrum-X est optimisé pour une efficacité énergétique élevée et ne nécessite pas de réducteurs dans le réseau, qui sont utilisés pour relier différents débits de données. L'utilisation de boîtes de vitesses augmente non seulement la complexité du chemin de données, mais ajoute également des coûts et une consommation d'énergie supplémentaires. L'élimination du besoin de ces boîtes de vitesses réduit l'investissement initial et les coûts opérationnels associés à l'alimentation et au refroidissement.

Efficacité de la conception du système : l'utilisation uniforme de la meilleure technologie SerDes dans l'infrastructure du centre de données offre une meilleure intégrité du signal, réduit le besoin de composants système et simplifie la conception du système. Dans le même temps, l’utilisation de la même technologie SerDes facilite également l’exploitation et améliore la disponibilité.

Logiciel d'accélération NVIDIA

NetQ

NetQ

NVIDIA NetQ est un ensemble d'outils d'exploitation réseau hautement évolutif pour la visibilité, le dépannage et la vérification du réseau IA en temps réel. NetQ exploite les données de télémétrie du commutateur NVIDIA et la télémétrie NVIDIA DOCA pour fournir des informations sur l'état du commutateur et du DPU, en intégrant le réseau dans le système MLOps de l'organisation.

De plus, la télémétrie du trafic NetQ peut cartographier les chemins de flux et les comportements entre les ports de commutation et les files d'attente RoCE, afin d'analyser la situation de flux d'applications spécifiques.

Les échantillons NetQ analysent et signalent les détails de latence (max, min et moyenne) et d'occupation de la mémoire tampon sur chaque chemin de flux. L'interface graphique NetQ signale tous les chemins possibles, les détails de chaque chemin et le comportement du flux. La combinaison de la télémétrie et de la télémétrie du trafic aide les opérateurs de réseau à identifier de manière proactive les causes profondes des problèmes de serveur et d'application.

SDK spectre

Le kit de développement logiciel (SDK) pour commutateur Ethernet NVIDIA offre la flexibilité nécessaire pour implémenter des fonctionnalités de commutation et de routage, avec une programmabilité complexe qui n'affecte pas le débit de paquets, la bande passante ou les performances de latence. Avec les OEM SDK, serveur et réseau et le système d'exploitation réseau (NOS), les fournisseurs peuvent exploiter les fonctionnalités réseau avancées des circuits intégrés (CI) de la série de commutateurs Ethernet pour créer des solutions de commutation flexibles, innovantes et optimisées en termes de coûts.

NVIDIA DOCA

NVIDIA DOCA est la clé pour libérer le potentiel du DPU NVIDIA BlueField, offcharger, accélérer et isoler les charges de travail du centre de données. Avec DOCA, les développeurs peuvent répondre aux exigences croissantes en matière de performances et de sécurité des centres de données modernes en créant des services définis par logiciel, natifs du cloud et accélérés par DPU avec une protection zéro confiance.

Caractéristiques principales de NVIDIA Spectrum-X

Principe de fonctionnement du routage dynamique NVIDIA RoCE

Le routage dynamique RoCE fonctionne entre le commutateur Spectrum-4 et le DPU BlueField-3 de bout en bout :

  • Le commutateur Spectrum-4 est responsable de la sélection de chaque paquet en fonction du port le plus faible encombrement et de la répartition uniforme de la transmission des données. Lorsque différents paquets du même flux transitent par différents chemins du réseau, ils peuvent arriver de manière désordonnée à leur destination.
  • BlueField-3 DPU traite les données dans la couche de transmission RoCE pour fournir une transparence continue des données aux applications. Le commutateur Spectrum-4 évalue la situation de congestion en fonction de la charge de la file d'attente sortante et garantit que tous les ports sont équilibrés en termes d'utilisation. Le commutateur sélectionne une file d'attente de sortie avec la charge la plus faible pour chaque paquet réseau. Le commutateur Spectrum-4 reçoit également des notifications d'état des commutateurs adjacents, ce qui peut également affecter la décision de transfert. L'évaluation implique des files d'attente qui correspondent aux classes de trafic. Par conséquent, Spectrum-X peut atteindre une bande passante efficace jusqu'à 95 % dans les systèmes à grande échelle et les scénarios de charge élevée.

2. Routage dynamique NVIDIA RoCE et technologie de placement direct des données NVIDIA

Prenons ensuite un exemple au niveau des paquets de données pour montrer comment les flux d'IA se déplacent dans le réseau Spectrum-X.

Il montre le processus coopératif entre le commutateur Spectrum-4 et le DPU BlueField au niveau des paquets de données.

Étape 1 : Les données proviennent d'un serveur ou d'une mémoire GPU sur le côté gauche du graphique et atteignent un serveur sur le côté droit.

Les données proviennent d'un serveur ou de la mémoire GPU

Étape 2 : Le DPU BlueField-3 regroupe les données dans des paquets réseau et les envoie au premier commutateur feuille Spectrum-4 tout en marquant ces paquets afin que le commutateur puisse effectuer un routage dynamique RoCE pour eux.

BlueField-3 DPU encapsule les données dans des paquets réseau

Étape 3 : Le commutateur feuille Spectrum-4 gauche applique le routage dynamique RoCE pour équilibrer les paquets de données des flux vert et violet, et envoie les paquets de chaque flux à plusieurs commutateurs spine. Cela augmente la bande passante effective par rapport à la norme Ethernetest de 60 % contre 95 % pour Spectrum-X (1.6 fois).

Le commutateur à feuilles Spectrum-4 gauche applique le routage dynamique RoCE

Étape 4 : Ces paquets peuvent arriver dans le désordre au DPU BlueField-3 sur le côté droit.

Ces paquets peuvent arriver dans le désordre au DPU BlueField-3 sur le côté droit.

Étape 5 : Le DPU BlueField-3 droit utilise la technologie NVIDIA Direct Data Placement (DDP) pour placer les données dans le bon ordre dans la mémoire hôte/GPU.

Droite Le DPU BlueField-3 utilise la technologie NVIDIA Direct Data Placement (DDP)

Résultats du routage dynamique RoCE

Pour vérifier l'efficacité du routage dynamique RoCE, nous avons utilisé un programme de test d'écriture RDMA pour effectuer un test initial. Lors du test, nous avons divisé l'hôte en plusieurs paires, et chaque paire s'est envoyée un grand nombre de flux de données d'écriture RDMA pendant un certain temps.

Le routage dynamique RoCE peut réduire le temps de réalisation.

Le routage dynamique RoCE peut réduire le temps de réalisation.

Comme le montre la figure ci-dessus, sur la base d'un transfert statique basé sur le hachage, le port de liaison montante souffre de conflits, ce qui entraîne une augmentation du temps d'exécution, une réduction de la bande passante et une diminution de l'équité entre les flux. Le passage au routage dynamique résout tous ces problèmes.

Dans le graphique ECMP, certains flux affichent une bande passante et un temps d'exécution similaires, tandis que d'autres connaissent des conflits, ce qui entraîne un temps d'exécution plus long et une bande passante plus faible. Plus précisément, dans le scénario ECMP, certains flux ont un meilleur temps d'achèvement T de 13 secondes, tandis que le flux le plus lent prend 31 secondes, soit environ 2.5 fois plus long que le temps idéal T. Dans le graphique de routage dynamique RoCE, tous les flux terminer presque en même temps et avoir des bandes passantes de pointe similaires.

Routage dynamique RoCE pour les charges de travail d'IA

Pour évaluer plus en détail les performances des charges de travail RoCE avec routage dynamique, nous avons effectué des tests d'IA communs sur une plate-forme de test composée de 32 serveurs sur une topologie de réseau feuille-épine à deux couches construite par quatre commutateurs NVIDIA Spectrum. Ces tests ont évalué les opérations d'ensemble courantes et les modèles de trafic réseau dans les charges de travail de formation d'IA distribuées, telles que le trafic tout-à-tout et les opérations d'ensemble de réduction totale.

Le routage dynamique RoCE améliore la réduction totale de l'IA

Le routage dynamique RoCE améliore la réduction totale de l'IA

Le routage dynamique RoCE améliore l'IA de manière globale

Le routage dynamique RoCE améliore l'IA de manière globale

Résumé du routage dynamique RoCE

Dans de nombreux cas, le routage de flux basé sur le hachage basé sur ECMP peut provoquer une congestion élevée et un temps d'exécution instable des flux, entraînant une dégradation des performances des applications. Le routage dynamique Spectrum-X RoCE résout ce problème. Cette technologie améliore le débit réel du réseau (goodput) tout en minimisant au maximum l'instabilité du temps d'achèvement des flux, améliorant ainsi les performances des applications. En combinant le routage dynamique RoCE avec la technologie NVIDIA Direct Data Placement (DDP) sur le DPU BlueField-3, vous pouvez obtenir une prise en charge transparente des applications.

Utilisation du contrôle de congestion NVIDIA RoCE pour obtenir une isolation des performances

En raison de la congestion du réseau, les applications exécutées dans les systèmes cloud d'IA peuvent subir une dégradation des performances et une durée d'exécution instable. Cette congestion peut être causée par le trafic réseau de l’application ou par le trafic réseau en arrière-plan d’autres applications. La principale cause de cette congestion est la congestion multi-à-un, ce qui signifie qu'il y a plusieurs expéditeurs de données et un seul récepteur de données.

Le routage dynamique RoCE ne peut pas résoudre ce problème de congestion. Ce problème nécessite de mesurer le trafic réseau de chaque point de terminaison. Le contrôle de congestion Spectrum-X RoCE est une technologie point à point, dans laquelle le commutateur Spectrum-4 fournit des informations de télémétrie réseau pour représenter la situation de congestion en temps réel dans le réseau. Ces informations de télémétrie sont traitées par BlueField-3 DPU, qui gère et contrôle le taux d'injection de données des expéditeurs de données pour maximiser l'efficacité du réseau partagé. S'il n'y a pas de contrôle de congestion, un scénario multi-à-un peut provoquer une surcharge du réseau, une propagation de congestion ou une perte de paquets, ce qui dégrade considérablement les performances du réseau et des applications.

Dans le processus de contrôle de congestion, BlueField-3 DPU exécute un algorithme de contrôle de congestion, qui peut traiter des dizaines de millions d'événements de contrôle de congestion par seconde au niveau de la microseconde et prendre des décisions de débit rapides et précises. Le commutateur Spectrum-4 fournit une estimation précise de la congestion avec une télémétrie interne pour une estimation précise du débit et un indicateur d'utilisation des ports pour obtenir une récupération rapide. Le contrôle de congestion de NVIDIA permet aux données de télémétrie de contourner les délais de file d'attente des flux encombrés tout en fournissant des informations de télémétrie simultanées précises, réduisant ainsi considérablement les temps de détection et de réponse.

L'exemple suivant montre comment un réseau a connu une congestion multi-à-un et comment Spectrum-X a utilisé la mesure du trafic et la télémétrie interne pour le contrôle de la congestion RoCE.

un flux affecté par la congestion du réseau

La congestion du réseau entraîne des flux perturbés

Cette figure montre un flux affecté par la congestion du réseau. Quatre DPU sources envoient des données à deux DPU de destination. Les sources 1, 2 et 3 envoient des données à la destination 1, en utilisant la bande passante de liaison disponible pour les trois cinquièmes. La source 4 envoie des données à la destination 2 via un commutateur feuille partagé avec la source 3, ce qui permet à la destination 2 de recevoir la bande passante de liaison disponible pour les deux cinquièmes.

S'il n'y a pas de contrôle de congestion, les sources 1, 2 et 3 provoqueront un taux de congestion de trois pour un car elles envoient toutes des données à la destination 1. Cette congestion provoquera une contre-pression de la part du commutateur feuille connecté à la source 1 et à la destination 1. La source 4 devient un flux encombré dont le débit à la destination 2 chute à la bande passante disponible de trente-trois pour cent (performances attendues de cinquante pour cent). Cela affecte négativement les performances des applications d’IA qui dépendent des performances moyennes et des pires cas.

Spectrum-X résout le problème de congestion grâce à la mesure du trafic et à la télémétrie

Spectrum-X résout les problèmes de congestion grâce à la mesure du trafic et à la télémétrie

La figure montre comment Spectrum-X a résolu le problème de congestion de la figure 14. Elle montre le même environnement de test : quatre DPU sources envoient des données à deux DPU de destination. Dans cette situation, la mesure du trafic des sources 1, 2 et 3 évite que les commutateurs feuilles soient encombrés. Cela élimine la contre-pression sur la source 4, lui permettant d'atteindre la bande passante attendue de deux cinquièmes. De plus, Spectrum-4 utilise les informations de télémétrie internes générées par What Just Happened pour réaffecter dynamiquement les chemins de flux et les comportements de file d'attente.

Isolation des performances RoCE

L’infrastructure cloud d’IA doit prendre en charge un grand nombre d’utilisateurs (locataires) et d’applications ou de charges de travail parallèles. Ces utilisateurs et applications sont en concurrence pour les ressources partagées dans l'infrastructure, comme le réseau, ce qui peut affecter leurs performances.

De plus, pour optimiser les performances du réseau de la bibliothèque de communication collective NVIDIA (NCCL) pour les applications d'IA dans le cloud, toutes les charges de travail exécutées dans le cloud doivent être coordonnées et synchronisées. Les avantages traditionnels du cloud, tels que l'élasticité et la haute disponibilité, ont un impact limité sur les performances des applications d'IA, tandis que la dégradation des performances constitue un problème mondial plus important.

La plate-forme Spectrum-X comprend plusieurs mécanismes qui peuvent réaliser une isolation des performances lorsqu'ils sont combinés. Cela garantit qu’une charge de travail n’affecte pas les performances d’une autre charge de travail. Ces mécanismes de qualité de service garantissent qu'aucune charge de travail ne provoque une congestion du réseau, ce qui pourrait affecter la transmission de données d'autres charges de travail.

En utilisant le routage dynamique RoCE, il a obtenu un équilibrage précis du chemin de données, évitant les conflits de flux de données via le commutateur feuille et le commutateur spine, ce qui a permis d'obtenir une isolation des performances. L'activation du contrôle de la congestion RoCE avec la mesure du trafic et la télémétrie a encore amélioré l'isolation des performances.

De plus, le commutateur Spectrum-4 adopte une conception de tampon partagé global pour favoriser l'isolation des performances. Le tampon partagé assure l'équité de la bande passante pour les flux de différentes tailles, protège les charges de travail contre les effets des flux voisins bruyants avec le même objectif de port de destination dans les scénarios avec plusieurs flux ciblant le même port de destination et absorbe mieux les transmissions à court terme lorsque plusieurs flux ciblent. différents ports de destination.

Laisser un commentaire

Remonter en haut