Pourquoi NVIDIA fabrique-t-il des commutateurs ? Quel est le lien avec l'IA générative ?

L'essentiel de l'attention de Computex s'est concentré sur les nouveaux DGX GH200 et MGX de NVIDIA, qui sont tous deux des produits d'intelligence artificielle au niveau du système de NVIDIA, qu'il s'agisse de conceptions de référence ou de serveurs complets. Ces puces, cartes et systèmes liés aux CPU et aux GPU ont toujours été des sujets brûlants pour NVIDIA, car l'IA et le HPC sont tout aussi populaires.

Mais en fait, dans le contexte de l'IA HPC, en particulier de l'IA générative, ou de ce que beaucoup de gens appellent maintenant l'informatique de « grand modèle », et la mise en réseau est également très importante. En d'autres termes, il faut un grand nombre de serveurs pour travailler ensemble pour résoudre les problèmes, et un cluster à grande échelle est nécessaire pour étendre la puissance de calcul à travers les systèmes et les nœuds. Par conséquent, les problèmes de performances ne concernent pas seulement la puissance de calcul des processeurs, des GPU et des puces IA au sein d'un nœud.

Auparavant, Google avait mentionné que dans l'infrastructure globale de l'IA, l'importance de l'architecture au niveau du système est encore plus élevée que celle de la microarchitecture de la puce TPU. Bien sûr, ce "niveau système" ne couvre pas nécessairement la mise en réseau entre les nœuds, mais évidemment, lorsqu'un groupe de puces fonctionne ensemble pour effectuer des calculs, le système et le réseau deviennent des goulots d'étranglement en matière de performances.

C'est pourquoi le DPU est si important - plutôt qu'un moyen subjectif de vendre ou de concurrencer des produits existants sur le marché. Le DPU de NVIDIA et d'autres produits de mise en réseau ressemblent davantage à des suppléments de carte courte pour leurs propres produits, subjectivement pas comme une concurrence avec d'autres ou en concurrence avec des produits existants sur le marché. De ce point de vue, les produits matériels de NVIDIA constituent horizontalement un écosystème complet : par exemple, le DPU n'est subjectivement pas destiné à concurrencer qui que ce soit mais fait partie de leurs produits existants.

Computex

Au Computex, NVIDIA a annoncé des produits de mise en réseau centrés sur sa plate-forme Ethernet Spectrum-X. NVIDIA affirme qu'il s'agit du premier produit Ethernet hautes performances au monde conçu spécifiquement pour l'IA, en particulier pour les « charges de travail d'IA génératives qui nécessitent un nouveau type d'Ethernet ». Nous n'avons pas beaucoup parlé des produits réseau de NVIDIA dans le passé, y compris son unité de traitement de données (DPU). Avec l'introduction de Spectrum-X, cet article tente de discuter de ce produit Ethernet ainsi que de la logique derrière les produits réseau de NVIDIA.

Pourquoi NVIDIA veut-il construire un « commutateur » ?

Les deux composants principaux de la plate-forme Spectrum-X sont le commutateur Ethernet Spectrum-4 et le DPU BlueField-3. La partie sur le DPU n'est pas beaucoup expliquée ; l'autre partie liée au commutateur Spectrum, le GTC réel de l'année dernière, NVIDIA a publié le commutateur Spectrum-4 400Gbps. Le niveau de la puce est basé sur le Spectrum ASIC - Huang Renxun a montré la puce lors du discours d'ouverture de Computex, qui est un gros gars qui comprend 100 milliards de transistors, 90x90mm, 800 billes de soudure au bas du boîtier de la puce et une consommation électrique de 500W.

Huang Renxun a montré la puce

L'annonce de la "première architecture Ethernet haute performance" conçue spécifiquement pour l'IA, le système de commutateur Ethernet Spectrum-4, est désormais disponible pour les CSP.

Comme le montre la figure, le système dispose d'un total de 128 ports avec une capacité de bande passante de 51.2 To/s, soit deux fois plus que les commutateurs Ethernet traditionnels. Selon la société, cette nouvelle technologie permettra aux ingénieurs réseau, aux scientifiques des données d'IA et aux fournisseurs de services cloud de produire des résultats et de prendre des décisions plus rapidement, tout en permettant des clouds d'IA génératifs. Une bande passante élevée et une faible latence sont essentielles pour réduire les goulots d'étranglement des performances lors de la mise à l'échelle du GPU sur les nœuds. L'ensemble du commutateur consomme 2800W de puissance.

le système dispose d'un total de 128 ports

Lors de la GTC de l'année dernière, NVIDIA a expliqué que le commutateur n'était pas destiné à concurrencer les commutateurs réseau conventionnels dans la gestion du trafic de routine "flux de souris", mais se concentre plutôt sur le traitement du trafic "flux d'éléphant", en tirant parti des produits matériels pour l'IA à grande échelle, le numérique jumeaux et applications de simulation.

« Les commutateurs traditionnels sont trop lents pour gérer les charges de travail actuelles de l'IA générative. De plus, nous sommes encore au début de la révolution de l'IA. Les commutateurs traditionnels peuvent suffire pour les clouds de base, mais ils ne peuvent pas fournir les performances requises pour les charges de cloud IA qui impliquent une IA générative », a déclaré Gilad Shainer, SVP Networking de NVIDIA lors de son discours d'ouverture.

Lors du pré-briefing, un journaliste a demandé spécifiquement si NVIDIA Spectrum était en concurrence directe avec les commutateurs d'Arista et d'autres sociétés. La réponse de Shainer a été qu'il n'y a pas de concurrence : « D'autres commutateurs Ethernet sur le marché sont utilisés pour construire des nuages ​​de produits ordinaires, ou un trafic nord-sud qui inclut l'accès des utilisateurs et le contrôle du nuage. Cependant, il n'existe actuellement aucune solution sur le marché capable de répondre aux exigences de l'IA générative pour Ethernet. En tant que premier réseau Ethernet au monde pour le trafic est-ouest dans l'IA générative, Spectrum-4 a créé une toute nouvelle solution Ethernet ciblant spécifiquement cet objectif. Shainer a également mentionné lors du briefing que les produits de commutation existants de Broadcom ne sont pas en concurrence avec Spectrum-4. NVIDIA souligne que Spectrum-X crée un réseau Ethernet sans perte, ce qui peut être particulièrement important pour expliquer la plate-forme Spectrum-X.

InfiniBand contre Ethernet

Ethernet a évolué au fil du temps. Sans perte est spécifique car Ethernet a été conçu à l'origine pour les environnements de réseau avec perte. En d'autres termes, la perte de paquets est autorisée sur ce réseau. Pour assurer la fiabilité, la couche supérieure du réseau IP nécessite le protocole TCP. Autrement dit, si une perte de paquets se produit pendant la transmission des paquets, le protocole TCP permet à l'expéditeur de retransmettre les paquets perdus. Cependant, du fait de ces mécanismes de correction d'erreurs, la latence augmente, ce qui peut poser des problèmes pour certains types d'applications. De plus, afin de faire face aux pics de trafic soudains sur le réseau, les commutateurs doivent allouer des ressources de cache supplémentaires pour stocker temporairement les informations, c'est pourquoi les puces de commutation Ethernet sont plus grandes et plus chères que les puces InfiniBand de spécifications similaires.

Cependant, "les réseaux avec pertes sont inacceptables pour les centres de données de calcul haute performance (HPC)". Huang Renxun a déclaré : « Le coût total d'exécution d'une charge de travail HPC est très élevé et toute perte dans le réseau est difficile à supporter. De plus, en raison d'exigences telles que l'isolation des performances, les réseaux avec pertes sont en effet difficiles à supporter. NVIDIA utilise une norme de communication réseau appelée InfiniBand. InfiniBand est couramment utilisé dans les applications HPC qui nécessitent un débit élevé et une faible latence. Contrairement à Ethernet, qui est plus universel, InfiniBand est mieux adapté aux applications gourmandes en données.

InfiniBand n'est pas exclusif à NVIDIA. Il a été initialement développé par un certain nombre de sociétés, dont Intel, IBM et Microsoft, entre autres, et il y avait même une alliance spécialisée appelée IBTA. Mellanox a commencé à promouvoir les produits InfiniBand vers 2000. Selon l'introduction de Wikipedia, l'objectif initial d'InfiniBand était de remplacer PCI dans les E/S et Ethernet dans l'interconnexion des salles des machines et des clusters.

Malheureusement, InfiniBand a été développé pendant la période de l'éclatement de la bulle Internet et son développement a été supprimé. Des participants tels qu'Intel et Microsoft avaient tous de nouveaux choix. Cependant, selon la liste TOP500 des supercalculateurs en 2009, il y avait déjà 181 connexions internes basées sur InfiniBand (les autres étaient Ethernet), et en 2014, plus de la moitié d'entre eux utilisaient InfiniBand, bien que l'Ethernet 10 Go ait rapidement rattrapé son retard au cours des deux années suivantes. Lorsque NVIDIA a acquis Mellanox en 2019, Mellanox était déjà devenu le principal fournisseur de produits de communication InfiniBand sur le marché.

Du point de vue de la conception, Ethernet, qui est né dans les années 1980, ne visait qu'à réaliser l'interopérabilité des informations entre plusieurs systèmes. En revanche, InfiniBand est né pour éliminer le goulot d'étranglement dans la transmission de données de cluster dans les scénarios HPC, par exemple en termes de latence, et sa conception de traitement de commutation de couche 2 est assez directe, ce qui peut réduire considérablement la latence de transfert. Par conséquent, il est naturellement adapté au HPC, aux centres de données et aux clusters de superordinateurs : haut débit, faible latence et haute fiabilité.

haut débit, faible latence et haute fiabilité

Du point de vue de la fiabilité, InfiniBand lui-même a une définition de protocole complète pour les couches réseau 1 à 4 : il empêche la perte de paquets grâce à des mécanismes de contrôle de flux de bout en bout, ce qui en soi permet d'obtenir la propriété sans perte. Une autre différence majeure entre les deux est qu'InfiniBand est basé sur une conception de réseau à structure commutée, tandis qu'Ethernet est basé sur un canal partagé à support partagé. Théoriquement, le premier est mieux à même d'éviter les problèmes de conflit de réseau.

Puisque InfiniBand est si bon, pourquoi Nvidia veut-il développer Ethernet ? En pensant par intuition, la base de marché d'Ethernet, sa polyvalence et sa flexibilité devraient être des facteurs importants. Dans son discours d'ouverture, Huang a expliqué comment « nous voulons apporter l'IA générative à chaque centre de données », ce qui nécessite une compatibilité ascendante ; « de nombreuses entreprises déploient Ethernet » et « obtenir la capacité InfiniBand est difficile pour elles, nous apportons donc cette capacité au marché Ethernet. C'est la logique métier derrière le déploiement de Spectrum-4. Mais nous pensons que ce n'est certainement pas toute l'histoire.

NVIDIA travaille à la fois sur les produits Ethernet et InfiniBand, le premier étant la plate-forme Spectrum Ethernet et le second étant appelé Quantum InfiniBand. Si vous regardez le official, vous constaterez que les solutions InfiniBand "offrent des performances inégalées à moindre coût et complexité en plus des infrastructures cloud HPC, AI et supercluster" ; tandis que Spectrum est une commutation Ethernet accélérée pour l'IA et le cloud. De toute évidence, les deux sont en concurrence dans une certaine mesure.

Pourquoi Ethernet ?

Dans son discours d'ouverture, Huang a expliqué scientifiquement les différents types de centres de données - en fait, au GTC l'année dernière, NVIDIA avait clairement divisé les centres de données en six catégories. Et dans le scénario d'IA dont nous discutons aujourd'hui, les centres de données peuvent être divisés en deux catégories principales. Une catégorie est celle qui doit être responsable de tout un tas de charges d'application différentes, où il peut y avoir de nombreux locataires et de faibles dépendances entre les charges.

Mais il existe une autre catégorie généralement telle que le supercalcul ou le supercalcul de l'IA désormais populaire, qui compte très peu de locataires (aussi peu qu'un métal nu) et des charges étroitement couplées - exigeant un débit élevé pour les gros problèmes de calcul. La différence d'infrastructure requise par ces deux types de centres de données est importante. À en juger par intuition, l'environnement avec perte le plus primitif d'Ethernet ne serait pas adapté à cette dernière exigence. Les raisons ont déjà été abordées dans l'article précédent.

SemiAnalysis a récemment écrit un article qui parlait spécifiquement des nombreux problèmes avec InfiniBand - principalement techniques, qui peuvent servir de référence à NVIDIA pour développer Ethernet en même temps. Certains d'entre eux sont extraits ici pour référence. En fait, InfiniBand et Ethernet eux-mêmes évoluent constamment.

Le contrôle de flux d'InfiniBand utilise un mécanisme de contrôle de flux basé sur le crédit. Chaque lien est pré-attribué avec des crédits spécifiques - reflétant des attributs tels que la bande passante du lien. Lorsqu'un paquet est reçu et traité, l'extrémité réceptrice renvoie un crédit à l'extrémité émettrice. Idéalement, un tel système garantirait que le réseau n'est pas surchargé, car l'expéditeur devrait attendre le retour des crédits avant d'envoyer plus de paquets.

Pourquoi Ethernet

Mais il y a des problèmes avec un tel mécanisme. Par exemple, si un nœud d'envoi envoie des données à un nœud de réception à un rythme plus rapide que le nœud de réception ne peut traiter les données, la mémoire tampon du nœud de réception peut devenir pleine. Le nœud de réception ne peut pas renvoyer de crédits au nœud d'envoi et, par conséquent, le nœud d'envoi ne peut pas envoyer plus de paquets de données car les crédits sont épuisés. Si le nœud récepteur ne peut pas renvoyer de crédits et que le nœud émetteur est également un nœud récepteur pour d'autres nœuds, l'incapacité de renvoyer des crédits en cas de surcharge de la bande passante peut entraîner une propagation de la contre-pression à une zone plus vaste. D'autres problèmes incluent les blocages et les taux d'erreur causés par différents composants.

Certains problèmes inhérents à InfiniBand deviennent plus graves à mesure que l'échelle et la complexité du système augmentent. Actuellement, la plus grande solution InfiniBand mise en œuvre commercialement provient probablement de Meta, où un cluster de recherche a déployé un total de 16,000 16,000 cartes réseau et 100 XNUMX GPU AXNUMX.

Cette échelle est sans aucun doute massive, mais SemiAnalysis indique que la formation GPT-4 nécessitera une échelle encore plus grande, et les futurs développements de «grands modèles» nécessiteront probablement une expansion du cluster. En théorie, InfiniBand peut continuer à étendre sa capacité globale, mais il souffrira de plus en plus des effets de problèmes inhérents. Du point de vue de l'inférence, la latence et les performances peuvent toujours bénéficier d'InfiniBand, mais pour les charges d'inférence, différentes requêtes seront transmises à différentes vitesses en continu. De plus, les architectures futures exigeront que plusieurs grands modèles soient inclus dans différentes tailles de lots au sein du même cluster à grande échelle, ce qui nécessite des changements continus de contrôle de flux basés sur des crédits.

Le mécanisme de contrôle de flux de crédit est difficile à répondre rapidement aux changements d'environnement réseau. S'il existe une grande quantité de trafic diversifié au sein du réseau, l'état de la mémoire tampon du nœud récepteur peut changer rapidement. Si le réseau devient encombré, le nœud expéditeur traite toujours les informations de crédit antérieures, ce qui rend le problème encore plus complexe. De plus, si le nœud émetteur attend constamment des crédits et bascule entre les deux états de transmission de données, cela peut facilement entraîner des fluctuations de performances.

En termes pratiques, le Quantum-2 actuel de NVIDIA atteint des bandes passantes de 25.6 To/s, ce qui, au moins numériquement parlant, est inférieur aux 4 To/s de Spectrum-51.2. Les puces et l'infrastructure Quantum plus rapides ne seront pas disponibles avant l'année prochaine, ce qui crée un rythme différent. De plus, du point de vue des coûts, atteindre la même échelle (plus de 8000 XNUMX GPU) de déploiement conventionnel de GPU nécessite une couche supplémentaire de commutation et beaucoup plus de câbles (câbles optiques à coût élevé). Par conséquent, le coût de déploiement du réseau InfiniBand à l'échelle typique est nettement supérieur à celui d'Ethernet. (DPU et NIC les coûts ne sont pas pris en compte ici.)

Du point de vue du client, le marché d'Ethernet est beaucoup plus vaste que celui d'InfiniBand, ce qui contribue également à réduire les coûts de déploiement. Il existe d'autres facteurs comparables spécifiques, tels que les systèmes frontaux de service traditionnels basés sur Ethernet et le problème de liaison du fournisseur avec InfiniBand pour les clients. Ethernet offre évidemment plus de choix, et son élasticité de déploiement et son évolutivité peuvent également être meilleures. Au niveau technique, il semble y avoir une valeur potentielle dans les déploiements futurs de l'infrastructure de transmission optique pour Ethernet.

Ceux-ci peuvent être la base théorique de l'accent mis par NVIDIA sur Ethernet ou une partie de la raison pour laquelle NVIDIA a choisi Ethernet pour les nuages ​​​​IA génératifs. Cependant, une raison qui ne devrait être prise que comme référence est qu'InfiniBand a beaucoup évolué chez NVIDIA, et de nombreux problèmes inhérents ont des solutions.

Quantique-2

Enfin, parlons de la question mentionnée au début, à savoir qu'Ethernet était à l'origine un réseau avec perte. Mais en réalité, avec le développement de technologies telles que RoCE (RDMA over Converged Ethernet), certains des avantages d'InfiniBand ont également été apportés à Ethernet. En fait, l'expansion technologique est dans une certaine mesure l'intégration des avantages de différentes technologies, y compris les hautes performances et sans perte d'InfiniBand, l'universalité, la rentabilité et la flexibilité d'Ethernet, etc.

Le RoCE mentionné dans les fonctionnalités de la plate-forme Spectrum-X permet d'obtenir une absence de perte sur les réseaux Ethernet en s'appuyant sur le contrôle de flux basé sur la priorité (PFC) sur la carte réseau côté point de terminaison, plutôt que sur les périphériques de commutation. De plus, RoCE++ possède de nouvelles extensions optimisées, telles que ASCK, qui gère les problèmes de perte de paquets et d'ordre d'arrivée, permettant à l'extrémité réceptrice de notifier à l'extrémité émettrice de ne retransmettre que les paquets perdus ou endommagés, ce qui permet une utilisation plus élevée de la bande passante ; il existe également un ECN, un mécanisme de contrôle de flux et une optimisation des erreurs, qui contribuent tous à améliorer l'efficacité et la fiabilité. De plus, pour atténuer les problèmes d'évolutivité des cartes réseau des terminaux sur les réseaux Ethernet standard avec RoCE, le mode carte réseau Bluefield peut être utilisé, et le coût global du DPU peut encore être dilué par Ethernet et certaines nouvelles technologies.

Dans son discours d'ouverture, Huang Renxun a spécifiquement mentionné Spectrum-X, qui apporte principalement deux caractéristiques importantes à Ethernet : le routage adaptatif et le contrôle de la congestion. En outre, NVIDIA a précédemment coopéré avec IDC pour publier un rapport de livre blanc sur la valeur commerciale des solutions de commutation Ethernet.

Dans les applications d'IA à grande échelle, Ethernet sera peut-être un choix inévitable à l'avenir. Par conséquent, dans la promotion de Spectrum-X, la position de NVIDIA est spécialement préparée pour les nuages ​​​​d'IA générative, la «première» solution pour le trafic est-ouest de l'IA générative. Cependant, il peut y avoir plus de raisons que la forte universalité d'Ethernet. Sous les charges AI HPC, il existe une certaine probabilité de possibilité d'un changement complet vers Ethernet.

Le développement de différentes normes est en soi un processus consistant à vérifier et à compléter constamment les lacunes des autres, et à absorber l'essentiel. Tout comme InfiniBand, il existe diverses solutions d'atténuation pour résoudre les défauts inhérents, et certains attributs étendus d'InfiniBand sont également très utiles pour son application dans l'IA. Il s'agit d'un problème de comparaison entre choix et développement technologique. Nous pouvons attendre et voir si NVIDIA s'orientera vers le développement d'InfiniBand ou d'Ethernet à l'avenir, même si ces deux ont leurs scénarios d'application respectifs.

Laisser un commentaire

Remonter en haut