À l'ère des modèles d'IA à mille milliards de paramètres, la mise en place de clusters d'IA haute performance est devenue un atout concurrentiel majeur pour les fournisseurs de cloud et les entreprises spécialisées en IA. Cet article analyse en profondeur les exigences réseau spécifiques des charges de travail d'IA, compare les différences architecturales entre les clusters d'IA et les centres de données traditionnels, et présente deux paradigmes de conception réseau courants proposés par Arista. Point de terminaison planifié (NSF) ou Programmation par commutation (DSF) — tout en fournissant des conseils pratiques sur le choix de la topologie et Interconnexion 800G Des technologies adaptées à différentes échelles.
Table des Matières
cabillotExigences réseau et caractéristiques de trafic des clusters d'IA
Exigences fondamentales : Échelle extrême, efficacité et flexibilité

À mesure que les modèles d'IA évoluent rapidement vers des billions de paramètres, les clusters d'entraînement et d'inférence imposent des exigences sans précédent au réseau sous-jacent :
- Expansion à très grande échelle: Doit prendre en charge le calcul collaboratif sur des centaines de milliers, voire des millions d'XPU (GPU/NPU), couvrant tous les scénarios, du rack unique aux centres de données multiples.
- Haute efficacité et latence ultra-faible: Les opérations de communication collective fréquentes (par exemple, AllReduce, AllGather) entre les XPU nécessitent une latence de l'ordre de la microseconde et une utilisation de la bande passante ≥90 %.
- Adaptation hétérogèneDoit prendre en charge de manière transparente les XPU de différents fournisseurs, les budgets d'alimentation variables des racks et les charges de travail mixtes (entraînement + inférence), en évitant la dégradation des performances due à « l'effet tonneau en bois » (performances globales limitées par le nœud le plus lent).
Quatre caractéristiques uniques du trafic IA
Comparé au trafic des centres de données traditionnels, le trafic lié à l'IA présente des schémas nettement différents qui influencent directement les décisions de conception du réseau :
- Synchronisation élevéeLes tâches d'entraînement échangent des gradients et des paramètres selon des cycles fixes, ce qui entraîne un trafic « à rafales longues et hautement synchronisées » susceptible de provoquer une congestion d'Incast.
- Forte dépendance à RDMA: Nécessite un réseau sans perte** : RDMA sur Ethernet convergé (RoCEv2) est la norme de facto ; toute perte de paquet déclenche une retransmission et des pics de latence importants.
- Caractéristiques d'écoulement stableLes flux individuels ont une longue durée de vie (du début à la fin de la tâche), des débits extrêmement élevés et une faible entropie (chemins relativement fixes), ce qui rend l'équilibrage de charge ECMP traditionnel inefficace.
- La fiabilité a été transférée au réseau.Les applications d'IA délèguent entièrement la responsabilité de la fiabilité au réseau — même une seule perte de paquet peut corrompre une itération d'entraînement entière.
Différences architecturales entre les clusters d'IA et les clusters de centres de données traditionnels
Les clusters traditionnels sont « centrés sur les serveurs CPU », le réseau assurant principalement le trafic horizontal entre l'ingestion, le stockage et le calcul des données. À l'inverse, les clusters d'IA modernes sont « centrés sur les XPU » et clairement séparés :
- Réseau frontal – Trafic CPU-à-CPU et CPU-à-stockage (similaire à un centre de données traditionnel).
- Réseau dorsal (Rail) – Interconnexion XPU-à-XPU à large bande passante et faible latence, qui devient le goulot d’étranglement des performances et l’objectif principal de la conception.
Cette architecture à double réseau augmente considérablement la complexité globale.
Deux paradigmes de conception de réseaux de base pour les clusters d'IA
Arista classe les réseaux backend de clusters d'IA actuels en deux paradigmes principaux selon l'endroit où réside la responsabilité de la planification :
Architecture planifiée par point de terminaison (NSF – Network Scheduled Fabric)
Concept de base
Toute la gestion de la planification se fait au niveau des terminaux (NIC/DPU/IPU). L'infrastructure réseau assure uniquement le transfert de paquets de base, soit une extension optimisée de l'Ethernet traditionnel.
Principales caractéristiques techniques
- Topologie : Les commutateurs Spine-Leaf aplatis classiques ou Super-Spine Clos n'ont besoin que de ports à radix élevé et de ports 800G.
- Exigences relatives aux points de terminaison : les cartes réseau doivent prendre en charge l’équilibrage de charge dynamique (DLB), le routage adaptatif, la pulvérisation de paquets et le contrôle de congestion de bout en bout (ECN/WRED).
- Avantages : Architecture simple, câblage flexible, entièrement compatible avec l'écosystème Ethernet existant, idéal pour les clusters de petite à moyenne taille (≤10K XPU).
- Limitations : Forte dépendance vis-à-vis du fournisseur au niveau de la couche NIC ; la complexité de la planification explose à très grande échelle, sujette aux déséquilibres de charge et aux points chauds.
Architecture à commutation planifiée (DSF – Direct Switch Fabric)
Concept de base
La gestion de la planification est entièrement déléguée aux commutateurs réseau. Les terminaux utilisent des cartes réseau standard, tandis que l'infrastructure assure une transmission sans perte et à hautes performances grâce à la commutation par cellules et au contrôle de flux basé sur les crédits.
Principales caractéristiques techniques
- Topologie : les commutateurs Leaf gèrent la segmentation des cellules, la VOQ (Virtual Output Queuing), la planification et la gestion des crédits ; les commutateurs Spine/Super-Spine sont de simples transmetteurs à faible consommation.
- Mécanisme sans perte : le protocole de demande/octroi de crédit + PFC + ECN garantit l’absence de dépassement de tampon de bout en bout.
- Capacité d'extension : Un seul système prend en charge 4.6K × 800G ou 9.2K × 400G XPU ; l'extension à deux niveaux atteint plus de 32K GPU.
- Avantages : Indépendance vis-à-vis des fournisseurs de cartes réseau, performances extrêmement stables à très grande échelle, contrôle précis de la congestion.
- Limitations : Complexité et coût plus élevés du matériel de commutation ; le câblage doit être conforme aux exigences de commutation cellulaire.
Sélection de la topologie et de la technologie d'interconnexion 800G
Topologie multiplan — La base des XPU à l'échelle du million
Pour obtenir une mise à l'échelle linéaire jusqu'à des centaines de milliers ou des millions d'XPU, Arista recommande fortement Multiplan architecture:
- Chaque plan est un tissu Spine-Leaf indépendant (généralement 4K–10K XPU).
- Plusieurs plans fonctionnent en parallèle et sont interconnectés via une couche d'agrégation.
- Dix plans peuvent facilement dépasser 100 10 XPU tout en maintenant l'isolation des pannes et une mise à l'échelle linéaire de la bande passante.
Sélection de la technologie d'interconnexion 800G selon le scénario

| Scénario | Technologie recommandée | Distance | Consommation d'énergie | Prix | Remarques |
| Intra-rack (<2 m) | DAC / ACC | 2 m | Extremement bas | Le plus bas | Câble cuivre à connexion directe / câble cuivre actif |
| Intra-rangée / courte portée | LPO / LRO | 50 m | Très faible | Faible | Optique enfichable à entraînement linéaire — économies d'énergie significatives par rapport au DSP |
| Portée moyenne (≤500 m) | DSP Cohérent | 500 m | Modérée | Moyenne | Optique DSP traditionnelle, écosystème mature |
| Longue portée (2–100 km) | DSP + DWDM | ≤100 km+ | Meilleure performance du béton | Meilleure performance du béton | Requis pour les ensembles de plusieurs bâtiments ou les campus |
Conclusion et tendances futures
Points clés à retenir pour le choix d'un modèle architectural
- ≤10K XPU → Préférer Point de terminaison planifié (NSF) pour des raisons de coût et de flexibilité de déploiement.
- ≥32K XPU → Adoption obligatoire Programmation par commutation (DSF) pour garantir des performances stables et éliminer les goulots d'étranglement aux points de terminaison.
- À l'échelle du million → Multiplan + DSF est actuellement la seule solution éprouvée pour la production en série.
Tendances
- Optimisation plus poussée des primitives de communication collective (AllReduce, AllGather, etc.) au niveau du réseau.
- Évaluation comparative standardisée de MPI/NCCL/RCCL sur des réseaux d'IA réels.
- L’intégration de normes émergentes telles que l’Ultra Ethernet Consortium (UEC) et UALink pour faire passer l’industrie de « silos personnalisés » à des interconnexions ouvertes, standardisées et à très faible latence.
La construction du supercalculateur d'IA de nouvelle génération ne se résume plus à l'achat de davantage de GPU ; le réseau est devenu le champ de bataille décisif en matière de performances, d'évolutivité et de coût total de possession.
Produits associés:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode
$550.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique
$700.00
-
Module émetteur-récepteur optique 1G QSFP00 VR400 PAM400 112 nm 4 m MTP/MPO-4 OM850 FEC compatible NVIDIA MMA50Z12-NS4
$550.00
-
NVIDIA MMS1Z00-NS400 Compatible 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 avec Module émetteur-récepteur optique FEC
$850.00
-
NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF
$900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF
$1199.00
-
Module émetteur-récepteur optique OSFP 4x50G FR2 PAM400 4nm 4km DOM double Duplex LC SMF Compatible NVIDIA MMS1310X2-NM
$1200.00
-
Module émetteur-récepteur optique double MPO-4 SMF compatible NVIDIA MMS00A980 (9-1IAH00-00XM1.6) 8 T OSFP DR4D PAM1311 500 12 nm XNUMX m IHS/à ailettes
$2600.00
-
Module émetteur-récepteur optique double duplex LC SMF 1.6 T 2xFR4/FR8 OSFP224 PAM4 1310 2 nm XNUMX km IHS/à ailettes supérieures compatible NVIDIA
$3100.00
-
Module émetteur-récepteur optique double MPO-4/APC InfiniBand XDR SMF compatible NVIDIA MMS00A980 (9-0IAH00-00XM1.6) 2 T 4 x DR8/DR224 OSFP4 PAM1311 500 12 nm XNUMX m RHS/Flat Top
$3600.00
