EtherNET ou EtherNOT ?

Une enquête sur les positions des principaux fournisseurs de réseaux d'IA En juillet 2023, l'Ultra Ethernet Consortium (UEC), initié par la Linux Foundation et sa Joint Development Foundation, a été offlancé ici, lançant une grenade sous-marine dans l’écosystème turbulent d’interconnexion des réseaux d’IA. En août 2023, lors du forum international IEEE Hot Interconnects (HOTI), qui se concentre sur les architectures matérielles et logicielles avancées et diverses implémentations de réseaux d'interconnexion, des représentants d'Intel, Nvidia, AMD et d'autres sociétés ont participé à une table ronde sur la question de « EtherNET ou EtherNOT », et ont exprimé leur point de vue sur Ethernet. Les charges de travail émergentes d’IA/ML stimulent la demande d’interconnexion réseau haute performance. Il y a une dizaine d'années, le RDMA sur Converged Ethernet (RoCE) a introduit la transmission de données à faible latence dans l'architecture Ethernet, mais par rapport à d'autres technologies de réseau, Ethernet semblait être en retard dans le développement technologique. La bataille entre EtherNET et EtherNOT est-elle de retour ? À l’ère d’Ethernet, les fournisseurs de cloud, les fournisseurs d’équipements et d’autres parties ont leurs intérêts, et c’est une période de prise de décision critique. Comment vont-ils choisir ?

Ce sujet « EtherNET ou EtherNOT » a déjà été abordé lors de la conférence HOTI en 2005, et la conclusion à cette époque était la suivante :

EtherNET ou EtherNOT

Lors de la discussion de la conférence HOTI 2023, Brad Burres, chercheur principal et architecte matériel en chef du groupe Network and Edge chez Intel, et Frank Helms, architecte système GPU du centre de données chez AMD, ont privilégié Ethernet. Brad Burres a fait valoir que quelle que soit la technologie adoptée, un écosystème ouvert est nécessaire pour réduire les coûts de l'ensemble du secteur et mettre en place l'infrastructure logicielle requise. À mesure que le protocole mûrit, Ethernet sera le gagnant à moins qu'une autre structure standard ouverte n'apparaisse immédiatement (telle que CXL). Frank Helms a classé respectivement la première, la deuxième et la cinquième place dans la liste mondiale des supercalculateurs TOP500, Frontier, Aurora et LUMI, qui sont tous basés sur la structure de réseau HPE Cray Slingshot-11 basée sur Ethernet pour la connexion. Il pensait qu'Ethernet était à la pointe de la technologie d'interconnexion. L’émergence de l’UEC (Ultra Ethernet Alliance) reflète également la forte suppression de la demande d’Ethernet pour l’interconnexion des clusters de formation en IA à grande échelle. Larry Dennison, directeur de la recherche sur les réseaux chez NVIDIA, estime qu'il existe encore un écart entre Ethernet et la satisfaction des besoins des charges de travail d'IA. Si Ethernet répond à tous ces besoins, est-il toujours Ethernet ? Combien de temps peut-on y parvenir ? Le marché Ethernet est effectivement immense, il ne va pas disparaître, mais dans les prochaines années, la vitesse de développement d'Ethernet ne pourra pas répondre aux besoins de ce marché. Torsten Hoefler, professeur à l'ETH Zurich et consultant pour Microsoft dans le domaine de l'intelligence artificielle et des réseaux à grande échelle, a souligné qu'Ethernet est le présent et l'avenir des centres de données et des superordinateurs, mais pas l'Ethernet dont nous parlons actuellement, Ethernet a besoin évoluer.

Écologie ouverte or Verrouillage du fournisseur ?

Historiquement, InfiniBand et Ethernet se disputent la domination du marché de l'IA/HPC, car ce sont tous deux des standards ouverts. Cependant, une différence clé est qu'InfiniBand est actuellement pris en charge par Nvidia en tant que fournisseur unique, tandis qu'Ethernet bénéficie d'un support multi-fournisseurs, favorisant un écosystème dynamique et compétitif. Cependant, même dans le domaine des solutions réseau IA/HPC, les solutions Ethernet peuvent être accompagnées d'une étiquette « partiellement personnalisée », ce qui peut conduire à une dépendance vis-à-vis du fournisseur.

Par exemple, le commutateur Ethernet Jericho3 de Broadcom nécessite que l’ensemble de la structure réseau utilise la même puce de commutation lorsqu’il fonctionne dans son mode « structure entièrement planifiée » hautes performances. Le commutateur Silicon One de Cisco et le commutateur Spectrum-X de Nvidia se trouvent également dans des situations similaires : les exigences de hautes performances peuvent entraîner une dépendance vis-à-vis du fournisseur. Certaines entreprises hyperscale ont conçu des cartes réseau « personnalisées », qui peuvent également conduire à des réseaux personnalisés. Par conséquent, même en choisissant des solutions Ethernet, on peut être confronté à des implémentations personnalisées et à une dépendance vis-à-vis d'un fournisseur. Les réseaux AI/HPC peuvent passer à une nouvelle norme de transport ouverte et plus puissante, remplaçant partiellement ou totalement le protocole ROCEv2 RDMA, ce qui est la vision que poursuit la Beyond Ethernet Alliance.

Inventaire des technologies de mise en réseau IA/ML

Comment les fournisseurs hyperscale choisissent-ils leurs technologies de réseau IA/ML ? Est-ce EtherNET ou EtherNOT ?

Amazon AWS

Amazon s'est inspiré du protocole InfiniBand RD et a lancé le protocole de transport Scalable Reliable Datagram (SRD) pour les réseaux HPC. Amazon utilise « exclusivement » des adaptateurs réseau améliorés (ENA), basés sur sa puce propriétaire Nitro. SRD utilise UDP, prend en charge la diffusion de paquets sur plusieurs liaisons et élimine l'exigence de livraison de paquets « dans l'ordre », réduisant ainsi la congestion de la structure et la latence de queue. Si nécessaire, la réorganisation des paquets est gérée par la couche supérieure de SRD. Amazon continue de poursuivre une stratégie de réseau native IA/HPC et est probablement la moins coopérative avec NVIDIA.

Google

Google utilise une combinaison de ses TPU et des GPU NVIDIA. Les TPU et les GPU sont en concurrence les uns avec les autres et peuvent être déployés en fonction de l'adéquation de la charge de travail. Il est peu probable que Google utilise les produits InfiniBand dans son réseau. Le réseau AI/ML de Google est relativement personnalisé et déploie depuis des années une architecture « cohérente » NVLink similaire. Google a beaucoup innové sur la pile réseau et déployé des systèmes de commutation optique (OCS) « natifs » – un commutateur de circuit basé sur des systèmes micro-électro-mécaniques (miroirs MEM) – dans ses centres de données habituels et ses centres de données d’intelligence artificielle. Les commutateurs optiques éliminent généralement une couche de commutateurs physiques, prennent en charge des configurations de base plus élevées et réduisent la consommation d'énergie et la latence. Les commutateurs optiques « réfléchissent » la lumière et sont indépendants des protocoles réseau et des mises à niveau des commutateurs réseau. L'inconvénient est que le temps de reconfiguration du miroir est généralement long, de l'ordre de plusieurs dizaines de millisecondes, de sorte que ces commutateurs OCS fonctionnent comme un « circuit » à capacité fixe. Pour les réseaux de formation à l’intelligence artificielle, ce n’est pas un problème majeur, car les schémas de trafic sont prévisibles.

Microsoft

Microsoft est la plus pragmatique parmi les entreprises hyperscale et a adopté InfiniBand très tôt pour construire des réseaux d'intelligence artificielle pour son partenaire OpenAI. Bien que Microsoft ait développé son adaptateur réseau personnalisé et utilisé un protocole RDMA personnalisé pour le cloud Azure, son ouverture à InfiniBand, son adoption de la solution IA/ML full-stack de NVIDIA et son étroite collaboration avec OpenAI en font le client préféré de NVIDIA. Microsoft a acquis Fungible, qui a inventé True Fabric, un protocole de datagramme fiable basé sur UDP qui gère le trafic, la congestion et le contrôle des erreurs, et optimise la latence de queue. Certaines innovations technologiques de Fungible pourraient apparaître dans les futurs produits et contributions open source de Microsoft.

Meta

Meta est un cheval noir dans la compétition de l'IA, avec son programme d'intelligence artificielle présentant les caractéristiques exceptionnelles suivantes :

  • Il adopte une approche open source utilisant des modèles fondateurs tels que Llama.
  • Il rend l’IA conviviale et accessible à chaque ingénieur logiciel via le cadre/écosystème logiciel PyTorch.
  • Il fait de la communauté Open Compute Project un pilier clé de l’innovation matérielle ouverte.
  • Il déploie des clusters GPU à grande échelle et reste à la pointe de l'innovation en IA avec son système de recommandation (modèle DLRM).

Les modèles fondamentaux d'IA de Meta et l'écosystème PyTorch permettent de disposer d'une immense bibliothèque d'innovation d'IA open source, de déployer des clusters IA/ML basés sur Ethernet et InfiniBand, et de créer des ASIC pour son modèle DLRM et son transcodage vidéo.

Meta démocratise l’IA, et même si elle n’est pas encore suffisamment reconnue, cette tendance va bientôt changer.

Oracle

Oracle prend fermement en charge Ethernet et n'utilise pas InfiniBand. Oracle Cloud Infrastructure (OCI) exploite les GPU Nvidia et les cartes réseau ConnectX pour créer un supercluster basé sur ROCEv2 RDMA. OCI construit un réseau RDMA distinct, basé sur un protocole de notification de congestion personnalisé de DC-QCN, minimise l'utilisation de PFC et affine les profils personnalisés pour les charges de travail IA et HPC.

NVIDIA

Les GPU de NVIDIA et ses solutions full-stack IA/ML en font un acteur incontesté en amont du marché. La solution NVIDIA DGX Cloud intègre le commutateur InfiniBand Quantum-2 (25.6 To) avec les adaptateurs réseau ConnectX et Bluefield. Ces adaptateurs réseau prennent en charge Ethernet et InfiniBand. La solution full-stack InfiniBand basée sur DGX Cloud sera également vendue aux marchés des télécommunications et des entreprises par NVIDIA et ses OEM. Cependant, NVIDIA investit également massivement dans Ethernet via son commutateur Spectrum-X. Il y a quelques années, InfiniBand était l'architecture privilégiée pour la formation en IA, ce qui en fait le choix idéal pour la solution cloud DGX intégrée de NVIDIA. Avec le lancement du commutateur Ethernet NVIDIA Spectrum-X (capacité de 51.2 To, soit deux fois la capacité du commutateur InfiniBand), NVIDIA passera à Ethernet pour le déploiement de GPU à grande échelle, afin de profiter de la vitesse de port plus élevée, de la rentabilité et de la rentabilité d'Ethernet. et l'évolutivité. Le commutateur Ethernet Spectrum-X prend en charge les extensions ROCEv2 avancées : routage adaptatif RoCE et contrôle de la congestion, prise en charge de la télémétrie et informatique en réseau appelée collective (via le produit SHARP de NVIDIA).

Broadcom

Broadcom offpropose des solutions réseau AI/HPC complètes, notamment des puces de commutation et des adaptateurs réseau. L'acquisition stratégique de « Correct Networks » par Broadcom a introduit un protocole de transport basé sur EQDS UDP, qui déplace toutes les activités de mise en file d'attente du réseau central vers l'hôte émetteur ou le commutateur feuille. Cette approche prend en charge l'optimisation des commutateurs dans la combinaison de puces Jericho3/Ramon3, qui est une « structure entièrement planifiée » équipée de la pulvérisation de paquets, de la réorganisation des tampons dans les commutateurs feuilles, du rééquilibrage des chemins, de la suppression des notifications de congestion et des mécanismes de récupération des pannes dans la bande pilotés par le matériel. La série Tomahawk (52 To) est conçue pour optimiser la capacité d'une seule puce et ne constitue pas une structure entièrement planifiée. Les commutateurs Tomahawk prennent également en charge les files d'attente périphériques, ainsi que les fonctions matérielles critiques en matière de latence, telles que l'équilibrage de charge global au niveau de la structure et le rééquilibrage des chemins. Tomahawk ne prend pas en charge le tri des paquets dans les commutateurs feuilles, des tampons de réorganisation des paquets doivent donc être implémentés dans adaptateurs réseau (points finaux).

Cisco

Cisco a récemment lancé le switch Silicon One 52 Tb/s, démontrant la polyvalence de ses solutions réseau. Le commutateur est programmable P4, permettant une programmation flexible pour divers cas d'utilisation du réseau. Les commutateurs Cisco basés sur Silicon One prennent en charge les structures entièrement planifiées, l'équilibrage de charge, l'isolation des pannes matérielles et la télémétrie. Cisco s'associe à plusieurs fournisseurs de cartes réseau pour fournir des solutions réseau complètes d'IA/ML.

Conclusion

Le voyage vers la normalisation Ethernet pour les réseaux IA/HPC ne fait que commencer et nécessite une réduction supplémentaire des coûts et de la consommation grâce à l'échelle, à l'innovation ouverte et à la concurrence multi-fournisseurs. La Super Ethernet Alliance est composée d'acteurs majeurs du réseau et s'engage à créer une solution Ethernet ouverte et « full-stack » adaptée aux charges de travail IA/HPC. Comme mentionné ci-dessus, la plupart des technologies réseau IA/HPC « nécessaires » ont été déployées par divers fournisseurs Ethernet et hyperscalers sous une forme ou une autre. Le défi de la normalisation n’est donc pas technique, mais plutôt celui de parvenir à un consensus.

Laisser un commentaire

Remonter en haut