Principes de conception clés pour les clusters d'IA : échelle, efficacité et flexibilité

À l'ère des modèles d'IA à mille milliards de paramètres, la mise en place de clusters d'IA haute performance est devenue un atout concurrentiel majeur pour les fournisseurs de cloud et les entreprises spécialisées en IA. Cet article analyse en profondeur les exigences réseau spécifiques des charges de travail d'IA, compare les différences architecturales entre les clusters d'IA et les centres de données traditionnels, et présente deux paradigmes de conception réseau courants proposés par Arista. Point de terminaison planifié (NSF) ou Programmation par commutation (DSF) — tout en fournissant des conseils pratiques sur le choix de la topologie et Interconnexion 800G Des technologies adaptées à différentes échelles.

Exigences réseau et caractéristiques de trafic des clusters d'IA

Exigences fondamentales : Échelle extrême, efficacité et flexibilité

Exigences réseau et caractéristiques de trafic des clusters d'IA

À mesure que les modèles d'IA évoluent rapidement vers des billions de paramètres, les clusters d'entraînement et d'inférence imposent des exigences sans précédent au réseau sous-jacent :

  • Expansion à très grande échelle: Doit prendre en charge le calcul collaboratif sur des centaines de milliers, voire des millions d'XPU (GPU/NPU), couvrant tous les scénarios, du rack unique aux centres de données multiples.
  • Haute efficacité et latence ultra-faible: Les opérations de communication collective fréquentes (par exemple, AllReduce, AllGather) entre les XPU nécessitent une latence de l'ordre de la microseconde et une utilisation de la bande passante ≥90 %.
  • Adaptation hétérogèneDoit prendre en charge de manière transparente les XPU de différents fournisseurs, les budgets d'alimentation variables des racks et les charges de travail mixtes (entraînement + inférence), en évitant la dégradation des performances due à « l'effet tonneau en bois » (performances globales limitées par le nœud le plus lent).

Quatre caractéristiques uniques du trafic IA

Comparé au trafic des centres de données traditionnels, le trafic lié à l'IA présente des schémas nettement différents qui influencent directement les décisions de conception du réseau :

  • Synchronisation élevéeLes tâches d'entraînement échangent des gradients et des paramètres selon des cycles fixes, ce qui entraîne un trafic « à rafales longues et hautement synchronisées » susceptible de provoquer une congestion d'Incast.
  • Forte dépendance à RDMA: Nécessite un réseau sans perte** : RDMA sur Ethernet convergé (RoCEv2) est la norme de facto ; toute perte de paquet déclenche une retransmission et des pics de latence importants.
  • Caractéristiques d'écoulement stableLes flux individuels ont une longue durée de vie (du début à la fin de la tâche), des débits extrêmement élevés et une faible entropie (chemins relativement fixes), ce qui rend l'équilibrage de charge ECMP traditionnel inefficace.
  • La fiabilité a été transférée au réseau.Les applications d'IA délèguent entièrement la responsabilité de la fiabilité au réseau — même une seule perte de paquet peut corrompre une itération d'entraînement entière.

Différences architecturales entre les clusters d'IA et les clusters de centres de données traditionnels

Les clusters traditionnels sont « centrés sur les serveurs CPU », le réseau assurant principalement le trafic horizontal entre l'ingestion, le stockage et le calcul des données. À l'inverse, les clusters d'IA modernes sont « centrés sur les XPU » et clairement séparés :

  • Réseau frontal – Trafic CPU-à-CPU et CPU-à-stockage (similaire à un centre de données traditionnel).
  • Réseau dorsal (Rail) – Interconnexion XPU-à-XPU à large bande passante et faible latence, qui devient le goulot d’étranglement des performances et l’objectif principal de la conception.

Cette architecture à double réseau augmente considérablement la complexité globale.

Deux paradigmes de conception de réseaux de base pour les clusters d'IA

Arista classe les réseaux backend de clusters d'IA actuels en deux paradigmes principaux selon l'endroit où réside la responsabilité de la planification :

Architecture planifiée par point de terminaison (NSF – Network Scheduled Fabric)

Concept de base

Toute la gestion de la planification se fait au niveau des terminaux (NIC/DPU/IPU). L'infrastructure réseau assure uniquement le transfert de paquets de base, soit une extension optimisée de l'Ethernet traditionnel.

Principales caractéristiques techniques

  • Topologie : Les commutateurs Spine-Leaf aplatis classiques ou Super-Spine Clos n'ont besoin que de ports à radix élevé et de ports 800G.
  • Exigences relatives aux points de terminaison : les cartes réseau doivent prendre en charge l’équilibrage de charge dynamique (DLB), le routage adaptatif, la pulvérisation de paquets et le contrôle de congestion de bout en bout (ECN/WRED).
  • Avantages : Architecture simple, câblage flexible, entièrement compatible avec l'écosystème Ethernet existant, idéal pour les clusters de petite à moyenne taille (≤10K XPU).
  • Limitations : Forte dépendance vis-à-vis du fournisseur au niveau de la couche NIC ; la complexité de la planification explose à très grande échelle, sujette aux déséquilibres de charge et aux points chauds.

Architecture à commutation planifiée (DSF – Direct Switch Fabric)

Concept de base

La gestion de la planification est entièrement déléguée aux commutateurs réseau. Les terminaux utilisent des cartes réseau standard, tandis que l'infrastructure assure une transmission sans perte et à hautes performances grâce à la commutation par cellules et au contrôle de flux basé sur les crédits.

Principales caractéristiques techniques

  • Topologie : les commutateurs Leaf gèrent la segmentation des cellules, la VOQ (Virtual Output Queuing), la planification et la gestion des crédits ; les commutateurs Spine/Super-Spine sont de simples transmetteurs à faible consommation.
  • Mécanisme sans perte : le protocole de demande/octroi de crédit + PFC + ECN garantit l’absence de dépassement de tampon de bout en bout.
  • Capacité d'extension : Un seul système prend en charge 4.6K × 800G ou 9.2K × 400G XPU ; l'extension à deux niveaux atteint plus de 32K GPU.
  • Avantages : Indépendance vis-à-vis des fournisseurs de cartes réseau, performances extrêmement stables à très grande échelle, contrôle précis de la congestion.
  • Limitations : Complexité et coût plus élevés du matériel de commutation ; le câblage doit être conforme aux exigences de commutation cellulaire.

Sélection de la topologie et de la technologie d'interconnexion 800G

Topologie multiplan — La base des XPU à l'échelle du million

Pour obtenir une mise à l'échelle linéaire jusqu'à des centaines de milliers ou des millions d'XPU, Arista recommande fortement Multiplan architecture:

  • Chaque plan est un tissu Spine-Leaf indépendant (généralement 4K–10K XPU).
  • Plusieurs plans fonctionnent en parallèle et sont interconnectés via une couche d'agrégation.
  • Dix plans peuvent facilement dépasser 100 10 XPU tout en maintenant l'isolation des pannes et une mise à l'échelle linéaire de la bande passante.

Sélection de la technologie d'interconnexion 800G selon le scénario

Sélection de la technologie d'interconnexion 800G selon le scénario
ScénarioTechnologie recommandéeDistanceConsommation d'énergiePrixRemarques
Intra-rack (<2 m)DAC / ACC2 mExtremement basLe plus basCâble cuivre à connexion directe / câble cuivre actif
Intra-rangée / courte portéeLPO / LRO50 mTrès faibleFaibleOptique enfichable à entraînement linéaire — économies d'énergie significatives par rapport au DSP
Portée moyenne (≤500 m)DSP Cohérent500 mModéréeMoyenneOptique DSP traditionnelle, écosystème mature
Longue portée (2–100 km)DSP + DWDM≤100 km+Meilleure performance du bétonMeilleure performance du bétonRequis pour les ensembles de plusieurs bâtiments ou les campus

Conclusion et tendances futures

Points clés à retenir pour le choix d'un modèle architectural

  • ≤10K XPU → Préférer Point de terminaison planifié (NSF) pour des raisons de coût et de flexibilité de déploiement.
  • ≥32K XPU → Adoption obligatoire Programmation par commutation (DSF) pour garantir des performances stables et éliminer les goulots d'étranglement aux points de terminaison.
  • À l'échelle du million → Multiplan + DSF est actuellement la seule solution éprouvée pour la production en série.

Tendances

  • Optimisation plus poussée des primitives de communication collective (AllReduce, AllGather, etc.) au niveau du réseau.
  • Évaluation comparative standardisée de MPI/NCCL/RCCL sur des réseaux d'IA réels.
  • L’intégration de normes émergentes telles que l’Ultra Ethernet Consortium (UEC) et UALink pour faire passer l’industrie de « silos personnalisés » à des interconnexions ouvertes, standardisées et à très faible latence.

La construction du supercalculateur d'IA de nouvelle génération ne se résume plus à l'achat de davantage de GPU ; le réseau est devenu le champ de bataille décisif en matière de performances, d'évolutivité et de coût total de possession.

Remonter en haut