Broadcom contre NVIDIA : la course aux commutateurs 400G/800G

Au Computex, NVIDIA a promis de fournir un « Ethernet sans perte » pour les charges de travail d'IA avec sa plate-forme Spectrum-X. Cependant, si vous demandez à Broadcom, ce n'est même pas une idée nouvelle. Ram Velaga, vice-président principal du Core Switching Group chez Broadcom, a déclaré qu '«il n'y a rien d'unique dans leur appareil». Il a expliqué que NVIDIA construit essentiellement une plate-forme Ethernet intégrée verticalement, qui excelle dans la gestion de la congestion de manière à minimiser la latence de queue (percentiles élevés du temps de réponse) et à réduire le temps d'achèvement des tâches d'IA. Velaga pense que ce n'est pas différent de ce que Broadcom a fait avec ses commutateurs ASIC Tomahawk5 et Jericho3-AI. Il considère également le lancement de ce commutateur comme la reconnaissance par NVIDIA de l'importance d'Ethernet dans la gestion des flux GPU dans l'IA.
Plate-forme Spectrum-X
Concernant NVIDIA, la société n'a pas abandonné la mise en réseau InfiniBand. En fait, ils ont investi une somme d'argent substantielle (17 milliards de dollars) pour acquérir Mellanox. InfiniBand convient parfaitement aux utilisateurs exécutant un petit nombre de charges de travail extrêmement volumineuses, telles que GPT-3 ou des jumeaux numériques. Cependant, Gilad Shainer, vice-président du marketing de la division Networking de NVIDIA, a expliqué que dans certains environnements, en particulier les clouds multi-locataires, Ethernet est le choix préféré. Shainer a déclaré que l'infrastructure Ethernet traditionnelle fonctionne bien pour les charges de travail AI/ML plus petites, mais maintenant la croissance de ces charges de travail a dépassé les capacités à nœud unique, ce qui entraîne des vitesses lentes. La plate-forme Spectrum-X de NVIDIA prétend relever ce défi.
Il convient de noter que Spectrum-X de NVIDIA n'est pas un produit autonome. Il s'agit d'une combinaison de matériel et de logiciels, avec des composants de base, notamment le commutateur Ethernet Spectrum-51.2 de 4 Tbit/s de NVIDIA et l'unité de traitement de données BlueField-3 (DPU). L'idée de base est qu'en utilisant à la fois le commutateur et le DPU de NVIDIA, ils collaborent pour réduire la congestion du trafic et, si l'on en croit NVIDIA, éliminer complètement la perte de paquets.
Bien que Shainer prétende qu'il s'agit d'une nouvelle unité fonctionnelle de NVIDIA, Velaga pense que l'idée d'un « Ethernet sans perte » n'est que du marketing. "Au lieu de l'appeler sans perte, il est plus exact de dire que vous gérez efficacement la congestion au point où vous disposez d'une structure Ethernet très efficace", a-t-il commenté.
De plus, Velaga affirme que cette gestion de la congestion a été intégrée à la dernière génération d'ASIC de commutateur de Broadcom, et qu'ils ne peuvent être utilisés qu'avec des smartNIC ou des DPU de n'importe quel fournisseur ou fournisseur de services cloud. « Vous n'avez pas à le faire sur la carte réseau ; vous pouvez passer d'une feuille Jericho3-AI à une autre feuille Jericho3-AI », a-t-il ajouté.
Interrogé sur Tomahawk5 et Jericho3-AI de Broadcom, Shainer a refusé de les comparer, arguant que Spectrum-X appartient à sa propre catégorie et laissant entendre que certains fournisseurs ajoutent simplement « AI » aux produits existants. "Peu importe comment vous l'appelez, il n'y a rien qui ait des fonctionnalités spécialement conçues pour l'IA", a-t-il déclaré.
Broadcom contre NVIDIA
vue de l'interrupteur avant de l'interrupteur
Selon Velaga, NVIDIA tente une intégration verticale pour résoudre la congestion Ethernet. "La raison pour laquelle Ethernet a réussi aujourd'hui est qu'il s'agit d'un écosystème très ouvert", a-t-il déclaré. Pour cette raison, le Spectrum-X de NVIDIA peut s'avérer difficile à vendre aux fournisseurs de cloud qui préfèrent éviter le verrouillage du fournisseur. Ils souhaitent vivement éviter une situation qui mène à l'adoption généralisée de systèmes d'exploitation réseau indépendants des fournisseurs tels que SONiC. Cela leur permet d'exécuter leurs nuages ​​sur n'importe quel commutateur compatible.
En termes de valeur, le Spectrum-4 de NVIDIA prend en effet en charge SONiC, ainsi que ses propres pilotes Cumulus NOS et Linux Switch. Cependant, étant donné que la plate-forme Spectrum-X repose sur la présence simultanée de Spectrum-4 et de BlueField, vous ne pouvez pas simplement en échanger un contre un autre commutateur SONiC ou DPU compatible sans perdre de fonctionnalité.
En parlant de DPU, de nombreux grands fournisseurs de services cloud ont déjà des SmartNIC adaptées à leurs environnements. Amazon Web Services a Nitro, Google a co-développé un ASIC Carte réseau intelligente avec Intel, et Microsoft a acquis Fungible en janvier. Ces appareils sont très précieux pour les fournisseurs de cloud car ils permettent de décharger les charges de travail courantes de réseau, de stockage et de sécurité, libérant ainsi les processeurs pour exécuter les charges de travail des locataires.
Shainer a déclaré que c'était tout à fait faisable. Il pense que les fournisseurs de cloud peuvent utiliser leurs DPU existants pour gérer leur infrastructure et contrôler le trafic nord-sud tout en utilisant BlueField-3 de NVIDIA pour gérer le trafic est-ouest entre les nœuds du cluster.
Il a ajouté que rien n'empêchait les gens de déployer les commutateurs ou les DPU de NVIDIA en tant que produits autonomes. « Si quelqu'un souhaite utiliser nos commutateurs et créer sa propre solution, nous nous en félicitons. Si quelqu'un veut utiliser nos DPU et utiliser les commutateurs de quelqu'un d'autre, bien sûr, allez-y. Vous pouvez développer ces composants par vous-même », a déclaré Shainer.
Cependant, Velaga de Broadcom ne sait pas comment les clients adopteraient cette idée. « Il est difficile de dire comment la valeur des solutions Ethernet intégrées verticalement serait commercialisée dans un monde où tout est en panne », a-t-il commenté.

Laisser un commentaire

Remonter en haut