RoCEv2 expliqué : Le guide ultime des réseaux à faible latence et à haut débit dans les centres de données d’IA

Dans le monde en évolution rapide de Formation IAAvec le calcul haute performance (HPC) et l'infrastructure cloud, les performances du réseau ne jouent plus seulement un rôle de soutien, mais elles sont le goulot d'étranglement. RoCEv2 (RDMA sur Ethernet convergé version 2) s'est imposé comme le protocole de référence pour la construction réseaux Ethernet sans perte qui offrent une latence ultra-faible, un débit massif et une charge CPU minimale. À mesure que les modèles d'IA atteignent des milliards de paramètres, RoCEv2 alimente les gigantesques clusters de GPU à l'origine d'avancées majeures comme Llama 3 et les suivantes.

Ce guide complet explore en profondeur Principes techniques de RoCEv2, stratégies d'optimisation, meilleures pratiques de déploiement et tendances futures. Que vous soyez en train de concevoir une architecture cluster d'IA de carte WAN Que ce soit pour optimiser un centre de données ou pour comprendre RoCEv2, il est essentiel en 2026 de maîtriser cette technologie.

Principes techniques de RoCEv2
Les immenses clusters d'entraînement d'IA de Meta, basés sur RoCE, illustrent l'évolutivité possible grâce à l'Ethernet sans perte moderne.

Les immenses clusters d'entraînement d'IA de Meta, basés sur RoCE, illustrent l'échelle possible grâce à l'Ethernet sans perte moderne.

Qu'est-ce que le RDMA et pourquoi est-ce important ?

Accès direct à la mémoire à distance (RDMA) Permet le transfert direct de données de la mémoire d'un ordinateur à un autre, sans intervention du processeur, du noyau du système d'exploitation ni de multiples copies de données. Ce procédé contourne les surcharges de la pile TCP/IP traditionnelle, réduisant la latence de plusieurs dizaines de microsecondes à moins d'une microseconde et libérant ainsi des cycles processeur pour le calcul proprement dit.

Les réseaux TCP/IP traditionnels souffrent de :

  • Plusieurs changements de contexte et copies de données
  • Utilisation élevée du processeur pour le traitement du protocole
  • Délais fixes qui évoluent mal avec la bande passante

RDMA élimine ces problèmes, permettant zéro-copie, contournement du noyau et déchargement du processeur— Idéal pour les charges de travail d'IA où les GPU doivent échanger instantanément des gigaoctets de gradients.

Réseaux TCP/IP traditionnels
RDMA vs. chemins de données TCP/IP traditionnels

Comparaison visuelle : chemins de données RDMA vs. TCP/IP traditionnels – mettant en évidence la réduction spectaculaire des copies et de l’implication du processeur.

RoCEv2 : Le protocole RDMA dominant

Il existe trois implémentations RDMA principales :

  • InfiniBand (IB)RDMA natif avec matériel dédié : excellentes performances, mais coût élevé et écosystème fermé.
  • iWARPRDMA basé sur TCP : fiable mais complexe et gourmand en ressources.
  • RoCEv2RDMA basé sur UDP/IP sur Ethernet standard : routable, économique et performant.

RoCEv1 était limité aux réseaux de couche 2 (Ethertype 0x8915), le restreignant à des sous-réseaux uniques. RoCEv2 (sorti en 2014) ajoute des en-têtes UDP/IP (port 4791), permettant le routage de couche 3 et une évolutivité massive.

Aujourd'hui, RoCEv2 domine car :

  • Compatible avec l'infrastructure Ethernet existante (nécessite simplement des cartes réseau compatibles RoCE).
  • Moins cher qu'InfiniBand
  • Performances comparables : les tests montrent que les temps d'entraînement d'IB et de RoCEv2 sont presque identiques pour des modèles comme 7B paramètres en précision BF16.

Des acteurs majeurs comme Meta (24 000 GPU H100 pour Llama 3) et les principaux fournisseurs chinois choisissent RoCEv2 pour les infrastructures d'IA à très grande échelle.

24 000 GPU H100 pour Llama 3
Structure typique des paquets RoCEv2 et schémas de réseau.

Structure typique des paquets RoCEv2 et schémas de réseau.

Principes techniques clés de RoCEv2

Ethernet sans perte : les fondements

Les exigences de RoCEv2 zéro perte de paquetsEn effet, RDMA ne dispose pas de mécanisme de retransmission intégré pour les liaisons non fiables. L'Ethernet traditionnel perd des paquets en cas de congestion, ce qui est inacceptable pour RDMA.

Solutions:

  • PFC (Contrôle de flux prioritaire): Trames de pause par priorité pour éviter le débordement de la mémoire tampon sans affecter les autres classes de trafic.
  • ECN (Notification explicite de congestion): Marque les paquets aux points de congestion ; les points de terminaison réduisent les débits de manière proactive.
  • DCQCN (Notification de congestion quantifiée du centre de données): Combine l'ECN avec l'ajustement des tarifs pour un contrôle équitable de la congestion en cas de forte utilisation.

Les implémentations avancées ajoutent un réglage piloté par l'IA (par exemple, des seuils ECN dynamiques basés sur les modèles de trafic).

Les implémentations avancées ajoutent un réglage piloté par l'IA
Les mécanismes PFC et ECN garantissent un comportement sans perte dans les tissus RoCE.

Les mécanismes PFC et ECN garantissent un comportement sans perte dans les tissus RoCE.

Gestion du trafic et des embouteillages

  • Files d'attente prioritaires pour différents types de trafic
  • Les algorithmes de planification comme WFQ (Weighted Fair Queuing) ou WRR
  • Configuration QoS pour les flux spécifiques à l'IA (par exemple, AllReduce vs. P2P)

Dans les clusters d'IA :

  • Données parallèles (DP)Opérations AllReduce à large bande passante
  • Pipeline parallèle (PP): Envoi/Réception sensible à la latence

Des POD (points de livraison) plus grands minimisent le trafic et la congestion sur l'axe principal.

RoCEv2 contre InfiniBand : pourquoi Ethernet l’emporte

L'espace Consortium Ultra Ethernet (UEC)Fondée en 2023 et regroupant des entreprises telles que Meta, Intel, Cisco et AMD, cette initiative témoigne de la domination d'Ethernet. Les débits des ports Ethernet (400G/800G/1.6T) surpassent ceux d'IB, et l'ampleur du marché stimule l'innovation.

Équivalence des performances :

  • Latence de bout en bout comparable
  • RoCE prend en charge VXLAN pour le cloud/multi-tenant (IB ne le prend pas en charge).

Avantage économique : Passez à RoCE en mettant à niveau uniquement les cartes réseau ; pas besoin de remplacer l’intégralité du système IB.

Stratégies de déploiement : Multirail pour une échelle maximale

Dans les clusters d'IA, multirail Le déploiement connecte les 8 GPU de chaque serveur à des commutateurs Leaf distincts, maximisant ainsi la taille du POD et réduisant la congestion entre les POD.

Exemple avec des commutateurs Leaf haute capacité :

  • Leaf 51.2T : Le système multirail prend en charge 512 cartes de 400 Go (des milliers de GPU) par POD.
  • Limites à une seule voie d'environ 64 cartes, augmentant le trafic inter-POD de plus de 8 fois

Combiné avec des topologies Spine-Leaf ou à trois niveaux, le multi-rail permet des clusters de cartes WAN (10k+) avec une sursouscription 1:1.

Topologie multi-rails permettant des POD plus grands et moins encombrés.

Réseaux RoCE pour l'entraînement distribué de l'IA à grande échelle – Ingénierie…

Topologie multi-rails permettant des POD plus grands et moins encombrés.

Solutions RoCEv2 de H3C : Leader des réseaux intelligents sans perte

H3C (New H3C Group) propose des solutions de bout en bout Solutions de centre de données RoCEv2alimentant les laboratoires nationaux et les centres d'IA commerciaux en Chine.

Produits clés:

  • Commutateurs centraux de la série S12500 (jusqu'à 800 ports Gbit/s)
  • Feuilles haute densité S9827/S6890 pour 400 g/800 g
  • Gamme complète de GPU, de moins de 1 000 à 512 000

Innovations:

  • AD-DC SeerFabricPlateforme de gestion basée sur l'IA pour le déploiement, la visualisation et les opérations automatisés.
  • IA ECNL'apprentissage par renforcement optimise dynamiquement les seuils ECN.
  • Validation pré-entraînement en un clic : tests de connectivité, de performance et NCCL en quelques heures au lieu de plusieurs jours.

Cas réels :

  • Laboratoire national : 2120 GPU NV avec RoCE 400G
  • Cluster de cartes WAN : plus de 16 000 GPU, multi-fournisseurs (NVIDIA, Huawei, fabricants nationaux)
  • Entreprise : Rompre la dépendance à un fournisseur unique grâce à la convergence de trois réseaux
Commutateurs de centre de données haute performance H3C prenant en charge les déploiements RoCE massifs.

Commutateurs de centre de données haute performance H3C prenant en charge les déploiements RoCE massifs.

Opérations automatisées avec AD-DC

Déploiement traditionnel : des semaines de configuration manuelle pour des milliers de câbles/adresses IP.

H3C AD-DC :

  • Provisionnement en un clic basé sur l'intention
  • Visualisation de la topologie de bout en bout (GPU-NIC-commutateur)
  • Détection des pannes en quelques minutes (erreurs de câblage, orages PFC)
  • Suivi en cours de formation : RTT, marquages ​​ECN, cartes thermiques de congestion
  • prédiction de l'état du module optique

Résultat : Déploiement de plusieurs semaines à quelques jours ; dépannage de plusieurs jours à quelques minutes.

Stratégies d'optimisation pour une performance optimale

  1. Matériel: Trames Jumbo (9000 MTU), grands tampons, cartes réseau compatibles RoCE (par exemple, série ConnectX ou équivalents).
  2. Réseau: Activer le PFC sur la priorité RoCE, le marquage ECN et l'équilibrage de charge ECMP.
  3. Application: Regroupez les petits messages, privilégiez l'écriture RDMA à la lecture.
  4. Sûreté: IPsec pour le chiffrement, l'isolation VLAN et la surveillance matérielle.
  5. TuningContrôle de la congestion piloté par l'IA pour les scénarios d'incast.

Tendances futures de RoCEv2 (2026 et au-delà)

  • Ultra EthernetAméliorations pour une latence de queue encore plus faible.
  • ports 800G/1.6T: Norme pour les déploiements de 2025-2026.
  • Informatique en réseauDécharger l'agrégation/la réduction sur les commutateurs.
  • Interopérabilité multi-fournisseurs: Des écosystèmes ouverts qui brisent les silos propriétaires.
  • Tissus natifs de l'IARéseaux auto-optimisés prédisant les modèles de trafic.

À mesure que les modèles d'IA se développent (par exemple, GPT-4 passe à l'échelle avec des billions de jetons), la conception routable et sans perte de RoCEv2 restera centrale.

Conclusion : Adopter RoCEv2 pour l'infrastructure d'IA de nouvelle génération

RoCEv2 n'est pas qu'une simple mise à niveau : c'est le socle de centres de données d'IA évolutifs et performants. Avec des performances comparables à celles d'InfiniBand pour un coût bien moindre, et grâce aux solutions intelligentes de leaders comme H3C, les entreprises peuvent déployer des clusters de cartes WAN pour entraîner leurs modèles plus rapidement et à moindre coût.

Prêt à déployer RoCEv2Commencez par une conception de réseau sans perte, des topologies multi-rails et une gestion automatisée. L'avenir des réseaux haute performance, c'est Ethernet — et RoCEv2 ouvre la voie.

Remonter en haut