À l'approche de la conférence Hot Chips 2025, NVIDIA a officiellement dévoilé la technologie Ethernet Spectrum-XGS. Cette solution innovante, basée sur des algorithmes d'optimisation réseau, offre des capacités d'évolutivité transversale, s'affranchissant des contraintes physiques de puissance et d'espace des centres de données individuels. Elle connecte plusieurs centres de données répartis dans différentes villes et pays au sein d'une « super-usine d'IA » unifiée, fournissant une infrastructure sous-jacente pour les charges de travail d'IA à plus grande échelle, notamment l'IA agentique.
Table des Matières
cabillotDu scale-up/out au scale-across : le choix inévitable pour Spectrum-XGS
Les centres de données d'IA actuels sont confrontés à deux principaux goulots d'étranglement en matière de mise à l'échelle, et les modèles traditionnels de mise à l'échelle verticale et horizontale ont du mal à répondre aux demandes d'IA à grande échelle :
- Limites de la mise à l'échelle:Obtenu par la mise à niveau de systèmes ou de racks individuels (par exemple, en augmentant le nombre de GPU ou en améliorant les performances d'un seul appareil), mais limité par les plafonds de puissance des infrastructures comme le refroidissement par eau. Les centres de données existants ont des seuils physiques de puissance absorbée et de dissipation thermique, ce qui empêche une augmentation infinie de la densité de calcul par rack ou centre de données.
- Limitations de l'évolutivité horizontale:Étendu par l'ajout de racks et de serveurs pour faire évoluer les clusters, mais limité par l'espace physique dans un seul lieu, imposant des plafonds stricts sur la capacité de l'équipement.
Pour surmonter ce dilemme, NVIDIA propose une nouvelle dimension : la « scale-across », qui optimise la communication réseau entre des centres de données géographiquement dispersés afin de permettre aux clusters d'IA distribués de collaborer comme un tout. Jensen Huang, fondateur et PDG de NVIDIA, décrit cette super-usine d'IA interrégionale comme une infrastructure clé pour la révolution industrielle de l'IA, avec Spectrum-XGS comme principal catalyseur technologique.

Technologies de base de Spectrum-XGS
Spectrum-XGS n'est pas une plateforme matérielle entièrement nouvelle, mais une évolution de l'écosystème Ethernet Spectrum-X existant de NVIDIA. Depuis son lancement en 2024, Spectrum-X offre des performances réseau IA génératives 1.6 fois supérieures à celles de l'Ethernet traditionnel grâce aux commutateurs SN4 et aux DPU BlueField-5600 de l'architecture Spectrum-3, devenant ainsi le choix incontournable des centres de données IA utilisant les GPU NVIDIA. L'innovation majeure de Spectrum-XGS réside dans trois innovations algorithmiques et synergies matérielles qui répondent aux problèmes de latence, de congestion et de synchronisation des communications dans les clusters GPU interrégionaux.
1. Algorithmes de base : adaptation dynamique aux caractéristiques des réseaux longue distance
Le cœur de Spectrum-XGS est un ensemble d'« algorithmes d'optimisation de réseau sensibles à la distance » qui analysent les paramètres clés de la communication entre centres de données en temps réel (distance, modèles de trafic, niveaux de congestion, mesures de performance) et ajustent dynamiquement les politiques de réseau :
Contrôle de la congestion adaptatif à la distance : Contrairement au traitement uniforme de toutes les connexions par Ethernet traditionnel, les algorithmes Spectrum-XGS ajustent automatiquement les seuils de congestion en fonction des distances réelles entre les centres de données (prenant actuellement en charge des déploiements jusqu'à des centaines de kilomètres), évitant ainsi la perte de paquets ou l'accumulation dans les transmissions longue distance.
Gestion précise de la latence : Grâce à un routage adaptatif précis par paquet, il élimine la gigue de latence lors des retransmissions de paquets sur les réseaux traditionnels. La gigue constitue un risque majeur dans les clusters d'IA : si un seul GPU est en retard en raison d'un retard, tous les GPU collaboratifs doivent attendre, ce qui impacte directement les performances globales.
Télémétrie de bout en bout:La collecte en temps réel des données de performances de liaison complète des GPU vers les commutateurs et les liaisons entre centres de données fournit un retour d'information au niveau de la milliseconde pour les ajustements algorithmiques, garantissant une correspondance dynamique de l'état du réseau avec les exigences de charge de travail de l'IA.
2. Synergies matérielles : exploiter la base à large bande passante de l'écosystème Spectrum-X
Spectrum-XGS atteint des performances optimales lorsqu'il est associé à du matériel NVIDIA spécifique :
Commutateurs Spectrum-X:En tant que dorsale du réseau sous-jacent, offrant une densité de ports élevée et une transmission à faible latence.
ConnectX-8 SuperNIC: Adaptateur réseau dédié à l'IA 800 Gb/s pour le transfert de données à haut débit entre les GPU et les commutateurs.
Matériel d'architecture Blackwell: Comme les GPU B200 et les superpuces GB10, étroitement intégrés à Spectrum-XGS pour réduire la latence de bout en bout. NVIDIA a validé les benchmarks NCCL (bibliothèque de communications collectives) : Spectrum-XGS multiplie par 1.9 les performances de communication entre les GPU inter-centres de données tout en contrôlant la latence de bout en bout à environ 200 millisecondes, un niveau de réactivité et d'absence de décalage pour les interactions utilisateur, répondant ainsi aux exigences en temps réel de l'inférence IA.
Optimisation Full-Stack pour l'entraînement de l'IA et l'efficacité des inférences avec Spectrum-XGS
Spectrum-XGS n'est pas une technologie isolée, mais un ajout essentiel à l'écosystème d'IA full-stack de NVIDIA. Dans cette version, NVIDIA a également dévoilé des améliorations de performances logicielles en synergie avec Spectrum-XGS pour la collaboration matériel-algorithme-logiciel :
- Mise à niveau du logiciel Dynamo:Optimisé pour l'architecture Blackwell (par exemple, les systèmes B200) pour augmenter les performances d'inférence du modèle d'IA jusqu'à 4 fois, réduisant considérablement la consommation de calcul pour l'inférence de grands modèles.
- Technologie de décodage spéculatif: Utilise un petit modèle préliminaire pour prédire à l'avance le prochain jeton de sortie du modèle d'IA principal, réduisant ainsi les calculs du modèle principal et améliorant les performances d'inférence de 35 % supplémentaires. Ceci est particulièrement adapté aux scénarios d'inférence conversationnelle dans les grands modèles linguistiques (LLM).
Dave Salvator, directeur du département de calcul accéléré de NVIDIA, a déclaré que l'objectif principal de ces optimisations est de faire évoluer des applications d'IA agentique ambitieuses. Qu'il s'agisse de former des modèles de plusieurs milliards de paramètres ou de prendre en charge des services d'inférence d'IA pour des millions d'utilisateurs simultanés, la combinaison de Spectrum-XGS et de l'écosystème logiciel offre des performances prévisibles.
Premières applications et impact industriel du Spectrum-XGS
Premiers utilisateurs : CoreWeave, pionnier de la super-usine d'IA inter-domaines CoreWeave, fournisseur de services cloud GPU, figure parmi les premiers à adopter Spectrum-XGS. Peter Salanki, cofondateur et directeur technique de l'entreprise, a souligné que cette technologie permettra à ses clients d'accéder à des capacités d'IA à grande échelle, accélérant ainsi les avancées technologiques dans tous les secteurs. Par exemple, elle permettra de soutenir des projets d'IA à très grande échelle comme l'initiative Stargate d'Oracle, SoftBank et OpenAI.
Tendances du secteur : Ethernet remplace InfiniBand comme réseau d'IA grand public Bien qu'InfiniBand détenait environ 80 % du marché des réseaux back-end IA en 2023, le secteur évolue rapidement vers Ethernet. Le choix de NVIDIA de développer Spectrum-XGS sur Ethernet s'inscrit dans cette tendance :
Avantages en termes de compatibilité et de coût : Ethernet est la norme universelle pour les centres de données mondiaux, plus familière aux ingénieurs réseau et moins chère à déployer qu'InfiniBand.
Projections de l'échelle du marché : Les données du groupe Dell'Oro montrent que le marché des commutateurs de centre de données Ethernet atteindra près de 80 milliards de dollars au cours des cinq prochaines années.
La croissance propre de NVIDIA:Les rapports du groupe 650 indiquent que NVIDIA est le « fournisseur à la croissance la plus rapide » sur le marché des commutateurs de centres de données en 2024, avec un chiffre d'affaires de son activité réseau atteignant 5 milliards de dollars au deuxième trimestre 2 (se terminant le 2024 avril), en hausse de 27 % sur un an.
Le lancement de Spectrum-XGS étend la stratégie de monopole full-stack de NVIDIA dans l'infrastructure d'IA, tout en suscitant une nouvelle dynamique concurrentielle :
- Disposition Full Stack de NVIDIA:Des GPU (Blackwell), des interconnexions (NVLink/NVLink Switch), des réseaux (Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand) aux logiciels (CUDA, TensorRT-LLM, microservices NIM), NVIDIA a formé une boucle fermée couvrant « calcul-connexion-logiciel » pour l'infrastructure d'IA. Spectrum-XGS fonctionne en synergie avec NVLink pour une évolutivité à trois niveaux : intra-rack (NVLink), intra-centre de données (Spectrum-X) et inter-centres de données (Spectrum-XGS).
- Réponses des concurrentsLa technologie SUE antérieure de Broadcom partage des objectifs similaires à ceux de Spectrum-XGS, visant à optimiser les performances Ethernet pour combler l'écart avec InfiniBand. De plus, des fournisseurs comme Arista, Cisco et Marvell accélèrent le développement de commutateurs Ethernet dédiés à l'IA, la concurrence se concentrant sur la compatibilité performance-coût-écosystème.
La valeur fondamentale de Spectrum-XGS réside dans sa capacité à faire évoluer les centres de données IA, passant des contraintes d'un site unique à une collaboration interrégionale. L'énergie et les terrains devenant des limites impérieuses pour les centres de données uniques, les super-usines IA interurbaines et transnationales deviendront le support central des applications IA de nouvelle génération (par exemple, l'intelligence artificielle générale, les clusters d'agents à grande échelle).
Comme l'a annoncé Gilad Shainer, vice-président senior du département réseau de NVIDIA, lors de la conférence Hot Chips : « Les réseaux physiques à fibre optique inter-centres de données existent depuis longtemps, mais les algorithmes logiciels comme Spectrum-XGS sont la clé pour exploiter les véritables performances de ces infrastructures physiques. »
Produits associés:
-
NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF
$900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF
$1199.00
-
Module émetteur-récepteur optique OSFP 4x50G FR2 PAM400 4nm 4km DOM double Duplex LC SMF Compatible NVIDIA MMS1310X2-NM
$1200.00
-
Module émetteur-récepteur optique double MPO-4 SMF compatible NVIDIA MMS00A980 (9-1IAH00-00XM1.6) 8 T OSFP DR4D PAM1311 500 12 nm XNUMX m IHS/à ailettes
$2600.00
-
Module émetteur-récepteur optique double duplex LC SMF 1.6 T 2xFR4/FR8 OSFP224 PAM4 1310 2 nm XNUMX km IHS/à ailettes supérieures compatible NVIDIA
$3100.00
-
Module émetteur-récepteur optique double MPO-4/APC InfiniBand XDR SMF compatible NVIDIA MMS00A980 (9-0IAH00-00XM1.6) 2 T 4 x DR8/DR224 OSFP4 PAM1311 500 12 nm XNUMX m RHS/Flat Top
$3600.00
