Dans le monde en évolution rapide de Formation IAAvec le calcul haute performance (HPC) et l'infrastructure cloud, les performances du réseau ne jouent plus seulement un rôle de soutien, mais elles sont le goulot d'étranglement. RoCEv2 (RDMA sur Ethernet convergé version 2) s'est imposé comme le protocole de référence pour la construction réseaux Ethernet sans perte qui offrent une latence ultra-faible, un débit massif et une charge CPU minimale. À mesure que les modèles d'IA atteignent des milliards de paramètres, RoCEv2 alimente les gigantesques clusters de GPU à l'origine d'avancées majeures comme Llama 3 et les suivantes.
Ce guide complet explore en profondeur Principes techniques de RoCEv2, stratégies d'optimisation, meilleures pratiques de déploiement et tendances futures. Que vous soyez en train de concevoir une architecture cluster d'IA de carte WAN Que ce soit pour optimiser un centre de données ou pour comprendre RoCEv2, il est essentiel en 2026 de maîtriser cette technologie.


Les immenses clusters d'entraînement d'IA de Meta, basés sur RoCE, illustrent l'échelle possible grâce à l'Ethernet sans perte moderne.
Table des Matières
cabillotQu'est-ce que le RDMA et pourquoi est-ce important ?
Accès direct à la mémoire à distance (RDMA) Permet le transfert direct de données de la mémoire d'un ordinateur à un autre, sans intervention du processeur, du noyau du système d'exploitation ni de multiples copies de données. Ce procédé contourne les surcharges de la pile TCP/IP traditionnelle, réduisant la latence de plusieurs dizaines de microsecondes à moins d'une microseconde et libérant ainsi des cycles processeur pour le calcul proprement dit.
Les réseaux TCP/IP traditionnels souffrent de :
- Plusieurs changements de contexte et copies de données
- Utilisation élevée du processeur pour le traitement du protocole
- Délais fixes qui évoluent mal avec la bande passante
RDMA élimine ces problèmes, permettant zéro-copie, contournement du noyau et déchargement du processeur— Idéal pour les charges de travail d'IA où les GPU doivent échanger instantanément des gigaoctets de gradients.


Comparaison visuelle : chemins de données RDMA vs. TCP/IP traditionnels – mettant en évidence la réduction spectaculaire des copies et de l’implication du processeur.
RoCEv2 : Le protocole RDMA dominant
Il existe trois implémentations RDMA principales :
- InfiniBand (IB)RDMA natif avec matériel dédié : excellentes performances, mais coût élevé et écosystème fermé.
- iWARPRDMA basé sur TCP : fiable mais complexe et gourmand en ressources.
- RoCEv2RDMA basé sur UDP/IP sur Ethernet standard : routable, économique et performant.
RoCEv1 était limité aux réseaux de couche 2 (Ethertype 0x8915), le restreignant à des sous-réseaux uniques. RoCEv2 (sorti en 2014) ajoute des en-têtes UDP/IP (port 4791), permettant le routage de couche 3 et une évolutivité massive.
Aujourd'hui, RoCEv2 domine car :
- Compatible avec l'infrastructure Ethernet existante (nécessite simplement des cartes réseau compatibles RoCE).
- Moins cher qu'InfiniBand
- Performances comparables : les tests montrent que les temps d'entraînement d'IB et de RoCEv2 sont presque identiques pour des modèles comme 7B paramètres en précision BF16.
Des acteurs majeurs comme Meta (24 000 GPU H100 pour Llama 3) et les principaux fournisseurs chinois choisissent RoCEv2 pour les infrastructures d'IA à très grande échelle.


Structure typique des paquets RoCEv2 et schémas de réseau.
Principes techniques clés de RoCEv2
Ethernet sans perte : les fondements
Les exigences de RoCEv2 zéro perte de paquetsEn effet, RDMA ne dispose pas de mécanisme de retransmission intégré pour les liaisons non fiables. L'Ethernet traditionnel perd des paquets en cas de congestion, ce qui est inacceptable pour RDMA.
Solutions:
- PFC (Contrôle de flux prioritaire): Trames de pause par priorité pour éviter le débordement de la mémoire tampon sans affecter les autres classes de trafic.
- ECN (Notification explicite de congestion): Marque les paquets aux points de congestion ; les points de terminaison réduisent les débits de manière proactive.
- DCQCN (Notification de congestion quantifiée du centre de données): Combine l'ECN avec l'ajustement des tarifs pour un contrôle équitable de la congestion en cas de forte utilisation.
Les implémentations avancées ajoutent un réglage piloté par l'IA (par exemple, des seuils ECN dynamiques basés sur les modèles de trafic).


Les mécanismes PFC et ECN garantissent un comportement sans perte dans les tissus RoCE.
Gestion du trafic et des embouteillages
- Files d'attente prioritaires pour différents types de trafic
- Les algorithmes de planification comme WFQ (Weighted Fair Queuing) ou WRR
- Configuration QoS pour les flux spécifiques à l'IA (par exemple, AllReduce vs. P2P)
Dans les clusters d'IA :
- Données parallèles (DP)Opérations AllReduce à large bande passante
- Pipeline parallèle (PP): Envoi/Réception sensible à la latence
Des POD (points de livraison) plus grands minimisent le trafic et la congestion sur l'axe principal.
RoCEv2 contre InfiniBand : pourquoi Ethernet l’emporte
L'espace Consortium Ultra Ethernet (UEC)Fondée en 2023 et regroupant des entreprises telles que Meta, Intel, Cisco et AMD, cette initiative témoigne de la domination d'Ethernet. Les débits des ports Ethernet (400G/800G/1.6T) surpassent ceux d'IB, et l'ampleur du marché stimule l'innovation.
Équivalence des performances :
- Latence de bout en bout comparable
- RoCE prend en charge VXLAN pour le cloud/multi-tenant (IB ne le prend pas en charge).
Avantage économique : Passez à RoCE en mettant à niveau uniquement les cartes réseau ; pas besoin de remplacer l’intégralité du système IB.
Stratégies de déploiement : Multirail pour une échelle maximale
Dans les clusters d'IA, multirail Le déploiement connecte les 8 GPU de chaque serveur à des commutateurs Leaf distincts, maximisant ainsi la taille du POD et réduisant la congestion entre les POD.
Exemple avec des commutateurs Leaf haute capacité :
- Leaf 51.2T : Le système multirail prend en charge 512 cartes de 400 Go (des milliers de GPU) par POD.
- Limites à une seule voie d'environ 64 cartes, augmentant le trafic inter-POD de plus de 8 fois
Combiné avec des topologies Spine-Leaf ou à trois niveaux, le multi-rail permet des clusters de cartes WAN (10k+) avec une sursouscription 1:1.

Réseaux RoCE pour l'entraînement distribué de l'IA à grande échelle – Ingénierie…
Topologie multi-rails permettant des POD plus grands et moins encombrés.
Solutions RoCEv2 de H3C : Leader des réseaux intelligents sans perte
H3C (New H3C Group) propose des solutions de bout en bout Solutions de centre de données RoCEv2alimentant les laboratoires nationaux et les centres d'IA commerciaux en Chine.
Produits clés:
- Commutateurs centraux de la série S12500 (jusqu'à 800 ports Gbit/s)
- Feuilles haute densité S9827/S6890 pour 400 g/800 g
- Gamme complète de GPU, de moins de 1 000 à 512 000
Innovations:
- AD-DC SeerFabricPlateforme de gestion basée sur l'IA pour le déploiement, la visualisation et les opérations automatisés.
- IA ECNL'apprentissage par renforcement optimise dynamiquement les seuils ECN.
- Validation pré-entraînement en un clic : tests de connectivité, de performance et NCCL en quelques heures au lieu de plusieurs jours.
Cas réels :
- Laboratoire national : 2120 GPU NV avec RoCE 400G
- Cluster de cartes WAN : plus de 16 000 GPU, multi-fournisseurs (NVIDIA, Huawei, fabricants nationaux)
- Entreprise : Rompre la dépendance à un fournisseur unique grâce à la convergence de trois réseaux

Commutateurs de centre de données haute performance H3C prenant en charge les déploiements RoCE massifs.
Opérations automatisées avec AD-DC
Déploiement traditionnel : des semaines de configuration manuelle pour des milliers de câbles/adresses IP.
H3C AD-DC :
- Provisionnement en un clic basé sur l'intention
- Visualisation de la topologie de bout en bout (GPU-NIC-commutateur)
- Détection des pannes en quelques minutes (erreurs de câblage, orages PFC)
- Suivi en cours de formation : RTT, marquages ECN, cartes thermiques de congestion
- prédiction de l'état du module optique
Résultat : Déploiement de plusieurs semaines à quelques jours ; dépannage de plusieurs jours à quelques minutes.
Stratégies d'optimisation pour une performance optimale
- Matériel: Trames Jumbo (9000 MTU), grands tampons, cartes réseau compatibles RoCE (par exemple, série ConnectX ou équivalents).
- Réseau: Activer le PFC sur la priorité RoCE, le marquage ECN et l'équilibrage de charge ECMP.
- Application: Regroupez les petits messages, privilégiez l'écriture RDMA à la lecture.
- Sûreté: IPsec pour le chiffrement, l'isolation VLAN et la surveillance matérielle.
- TuningContrôle de la congestion piloté par l'IA pour les scénarios d'incast.
Tendances futures de RoCEv2 (2026 et au-delà)
- Ultra EthernetAméliorations pour une latence de queue encore plus faible.
- ports 800G/1.6T: Norme pour les déploiements de 2025-2026.
- Informatique en réseauDécharger l'agrégation/la réduction sur les commutateurs.
- Interopérabilité multi-fournisseurs: Des écosystèmes ouverts qui brisent les silos propriétaires.
- Tissus natifs de l'IARéseaux auto-optimisés prédisant les modèles de trafic.
À mesure que les modèles d'IA se développent (par exemple, GPT-4 passe à l'échelle avec des billions de jetons), la conception routable et sans perte de RoCEv2 restera centrale.
Conclusion : Adopter RoCEv2 pour l'infrastructure d'IA de nouvelle génération
RoCEv2 n'est pas qu'une simple mise à niveau : c'est le socle de centres de données d'IA évolutifs et performants. Avec des performances comparables à celles d'InfiniBand pour un coût bien moindre, et grâce aux solutions intelligentes de leaders comme H3C, les entreprises peuvent déployer des clusters de cartes WAN pour entraîner leurs modèles plus rapidement et à moindre coût.
Prêt à déployer RoCEv2Commencez par une conception de réseau sans perte, des topologies multi-rails et une gestion automatisée. L'avenir des réseaux haute performance, c'est Ethernet — et RoCEv2 ouvre la voie.
Produits associés:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode
$550.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF
$900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF
$1199.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique
$700.00
-
Module émetteur-récepteur optique compatible NVIDIA (Mellanox) MMA1T00-HS 200G Infiniband HDR QSFP56 SR4 850 nm 100 m MPO-12 APC OM3/OM4 FEC PAM4
$139.00
-
NVIDIA MCA7J60-N004 Compatible 4m (13ft) 800G Twin-port OSFP vers 2x400G OSFP InfiniBand NDR Breakout Câble Cuivre Actif
$800.00
-
Câble d'attache directe passif NVIDIA MCP7Y60-H01A compatible 1.5 m (5 pieds) 400G OSFP vers 2x200G QSFP56
$116.00
-
Câble de connexion directe en cuivre QSFP1600 vers QSFP00 compatible NVIDIA (Mellanox) MCP30-E0.5AE100 de 28 m InfiniBand EDR 28G
$25.00
-
Carte adaptateur NVIDIA NVIDIA (Mellanox) MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, double port QSFP56, PCIe 3.0/4.0 x16, support haut
$1100.00
-
Carte adaptateur NVIDIA NVIDIA (Mellanox) MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, port unique QSFP56, PCIe 3.0/4.0 x16, support haut
$965.00
