FiberMall fournit des solutions de mise en réseau HPC pour AIGC

AIGC (AI-Generated Content) s'est développé rapidement récemment, et le taux d'itération explose de façon exponentielle. Parmi eux, le lancement de GPT-4 et d'ERNIE Bot a attiré l'attention sur sa valeur commerciale et ses scénarios d'application. Avec le développement de l'AIGC, l'échelle des paramètres du modèle de formation est passée de centaines de milliards à des billions de niveaux, et l'échelle de la prise en charge du GPU sous-jacent a également atteint des niveaux de cartes de billions. L'échelle du réseau qui en résulte ne cesse d'augmenter et la communication entre les nœuds du réseau est confrontée à des défis croissants. Dans ce contexte, comment améliorer la puissance de calcul du serveur d'IA et la capacité de communication en réseau et prendre en compte le coût est devenu l'une des directions de recherche importantes dans le domaine actuel de l'IA.

FiberMall a lancé la solution de réseau haute performance « Smart Speed ​​» DDC (Distributed Disaggregated Chassis) avancée de l'industrie pour aborder la relation entre la puissance de calcul AIGC, l'utilisation du GPU et le réseau, ainsi que les défis rencontrés par la mise en réseau HPC grand public, pour aider l'informatique d'entreprise AIGC montée en puissance.

Schéma de connexion du produit DDC de FiberMall

Schéma de connexion du produit DDC de FiberMall

Relation entre la puissance arithmétique AIGC, l'utilisation du GPU et le réseau

Relation entre le temps de formation et l'utilisation du GPU de ChatGPT

En prenant ChatGPT comme exemple, en termes de puissance arithmétique, la consommation d'énergie arithmétique totale pour la formation sur l'infrastructure de supercalcul Microsoft Azure AI (un cluster à large bande passante de 10,000 100 V 3,640 GPU) est d'environ 3,640 10,000 PF-jours (mille billions de calculs par seconde , fonctionnant pendant 100 XNUMX jours), voici une formule pour convertir le temps qu'il faut pour entraîner XNUMX XNUMX V XNUMX.

Puissance de calcul ChatGPT et calendrier de formation

Puissance de calcul ChatGPT et calendrier de formation

Remarque : les exigences de puissance de calcul ChatGPT sont disponibles en ligne et sont fournies ici à titre de référence uniquement. Dans l'article "AI and Compute", OpenAI suppose un taux d'utilisation de 33 %, tandis qu'un groupe de chercheurs de NVIDIA, Stanford et Microsoft ont atteint des taux d'utilisation de 44 % à 52 % pour la formation de grands modèles de langage sur des systèmes distribués.

On peut voir que les principaux facteurs affectant le temps de formation d'un modèle sont l'utilisation du GPU et la puissance de traitement du cluster GPU. Ces mesures clés sont à leur tour étroitement liées à l'efficacité du réseau. L'efficacité du réseau est un facteur important qui affecte l'utilisation du GPU dans les clusters d'IA. Dans les clusters d'IA, les GPU sont généralement la ressource principale des nœuds de calcul, car ils peuvent gérer efficacement des tâches d'apprentissage en profondeur à grande échelle. Cependant, l'utilisation du GPU est influencée par plusieurs facteurs, parmi lesquels l'efficacité du réseau est un facteur clé.

Relation entre l'efficacité du réseau et l'utilisation du GPU

Le réseau joue un rôle essentiel dans la formation à l'IA, et les clusters d'IA se composent généralement de plusieurs nœuds de calcul et de stockage, qui doivent communiquer et échanger fréquemment des données. Si le réseau est inefficace, la communication entre ces nœuds deviendra lente, ce qui affectera directement la puissance de calcul du cluster d'IA.

Des réseaux inefficaces peuvent entraîner les problèmes suivants, qui peuvent réduire l'utilisation du GPU.

Augmentation du temps de transfert des données: Dans un réseau inefficace, le temps de transfert des données augmentera. L'utilisation du GPU diminue lorsque les GPU doivent attendre la fin du transfert de données avant de pouvoir effectuer des calculs.

Goulot d'étranglement de la bande passante du réseau : Dans un cluster d'IA, les GPU doivent généralement échanger fréquemment des données avec d'autres nœuds de calcul. Si la bande passante du réseau est insuffisante, les GPU n'obtiendront pas suffisamment de données pour le calcul, ce qui entraînera une utilisation moindre du GPU.

Planification des tâches déséquilibrée: Dans un réseau inefficace, les tâches peuvent être assignées à différents nœuds de calcul à partir des GPU. Cela peut amener le GPU à attendre inactif lorsqu'une grande quantité de données est requise, réduisant ainsi l'utilisation du GPU.

Afin d'améliorer l'utilisation du GPU, l'efficacité du réseau doit être optimisée. Cela peut être réalisé en utilisant des techniques de réseau plus rapides, en optimisant la topologie du réseau et en rationalisant l'allocation de la bande passante. Dans le modèle d'apprentissage, le parallélisme de l'apprentissage distribué : parallélisme des données, parallélisme des tenseurs et parallélisme des flux détermine le modèle de communication entre les données traitées par les GPU. L'efficacité de la communication entre les modèles est influencée par plusieurs facteurs :

Facteurs affectant la communication

Facteurs affectant la communication

Parmi eux, la bande passante et la latence de transfert des appareils sont limitées par le matériel, la latence de traitement final est influencée par le choix de la technologie (TCP ou RDMA), RDMA sera plus faible, et la mise en file d'attente et la retransmission sont influencées par l'optimisation du réseau et le choix de la technologie.

Sur la base du modèle quantitatif : utilisation du GPU = temps de calcul itératif au sein du GPU / (temps de calcul itératif au sein du GPU + temps de communication réseau global), les conclusions suivantes sont tirées :

Graphique du débit de la bande passante et de l'utilisation du GPU

Graphique du débit de la bande passante et de l'utilisation du GPU                        Graphique de latence dynamique et d'utilisation du GPU

On peut voir que le débit de la bande passante du réseau et la latence dynamique (congestion/perte de paquets) ont un impact significatif sur l'utilisation du GPU.

Basé sur la composition de la latence totale de communication :

Composition de la latence totale de communication

Composition de la latence totale de communication

La latence statique a un impact moindre, il est donc plus important de se concentrer sur la manière de réduire la latence dynamique, ce qui peut améliorer efficacement l'utilisation du GPU pour atteindre l'objectif d'amélioration de la puissance de calcul.

Les défis de la mise en réseau HPC grand public

Le réseautage IB est cher et fermé

Infinibande La mise en réseau est la solution la plus efficace pour les réseaux hautes performances actuels, utilisant une bande passante ultra-élevée et des mécanismes basés sur le crédit pour garantir l'absence de congestion et une latence ultra-faible, mais c'est aussi la solution la plus coûteuse. C'est aussi la solution la plus chère. Il est plusieurs fois plus cher que le réseau Ethernet traditionnel avec la même bande passante. En même temps, Infinibande la technologie est fermée et il n'y a qu'un seul fournisseur mature dans l'industrie, ce qui rend impossible pour les utilisateurs finaux d'obtenir une deuxième source d'approvisionnement.

Par conséquent, la plupart des utilisateurs de l'industrie choisiront la solution de mise en réseau Ethernet traditionnelle.

PFC et ECN peuvent déclencher une baisse de vitesse

La solution de mise en réseau grand public actuelle pour les réseaux hautes performances est basée sur RoCE v2 pour créer des réseaux compatibles RDMA. Deux technologies de colocalisation importantes sont PFC et ECN, qui sont toutes deux créées pour éviter la congestion dans le lien.

Dans le cadre d'un réseau PFC à plusieurs étapes, il ciblera la congestion et la contre-pression d'entrée du commutateur vers le serveur source pour suspendre la transmission étape par étape afin de soulager la congestion du réseau et d'éviter la perte de paquets ; cependant, cette solution peut faire face au risque de PFC Deadlock provoquant l'arrêt du trafic RDMA dans le cadre d'un réseau à plusieurs étapes.

Schéma de principe du mécanisme de travail PFC

Schéma de principe du mécanisme de travail PFC

Alors que ECN génère un paquet RoCEv2 CNP directement pour notifier la source de la réduction de vitesse en fonction de la connaissance côté destination de la congestion à la sortie du commutateur, le serveur source reçoit le message CNP et réduit précisément le débit d'envoi du QP correspondant pour soulager la congestion tout en évitant réduction de vitesse aveugle.

Schéma de principe de l'ECN

Schéma de principe de l'ECN

Ces deux technologies sont conçues pour résoudre la congestion, mais peuvent être fréquemment déclenchées par une éventuelle congestion du réseau. Finalement, l'extrémité source mettra en pause ou ralentira la vitesse de transmission, et la bande passante de communication sera réduite. Le taux d'utilisation du GPU est fortement affecté, ce qui réduit la puissance de calcul de l'ensemble du réseau haute performance.

Un ECMP déséquilibré peut provoquer une congestion

Dans le calcul de la formation AI, il existe deux modèles principaux, All-Reduce et All-to-All, qui nécessitent tous deux une communication fréquente d'un GPU à plusieurs GPU.

Modèles de calcul de formation IA

Modèles de calcul de formation IA

Dans les réseaux traditionnels, les appareils ToR et Leaf adoptent le mode réseau routage + ECMP. ECMP effectue un routage de charge de hachage basé sur les flux. Dans un cas extrême, une liaison ECMP est pleine en raison d'un flux d'éléphant, tandis que d'autres liaisons ECMP sont relativement inactives, ce qui entraîne une charge inégale.

Schéma de déploiement ECMP traditionnel

Schéma de déploiement ECMP traditionnel

Dans un environnement de test avec 8 liens ECMP simulés en interne, les résultats des tests sont les suivants :

Résultats des tests de trafic ECMP

Résultats des tests de trafic ECMP

Comme on peut le voir, l'ECMP basé sur le flux provoque une occupation plus évidente de certains liens (ECMP1-5 et 1-6) et une inactivité (ECMP1-0 à 1-3 sont inactifs). Dans les modèles All-Reduce et All-to-All, il est facile pour un itinéraire d'être encombré en raison d'une charge inégale sur ECMP. Une fois que la congestion provoque la retransmission, elle augmente la latence globale de communication totale et réduit l'utilisation du GPU.

Par conséquent, la communauté des chercheurs a proposé des solutions riches telles que phost, Homa, NDP, 1RMA et Aeolus. Ils traitent l'incast à des degrés divers, ainsi que l'équilibrage de charge et le trafic de requête/réponse à faible latence. Mais ils apportent aussi de nouveaux défis. Souvent, ces solutions étudiées nécessitent une résolution de problèmes de bout en bout, avec des modifications importantes des hôtes, des cartes réseau et des réseaux, ce qui est coûteux pour l'utilisateur moyen.

Défis du clustering IA avec les commutateurs Box

Certaines sociétés Internet se tournent vers les commutateurs de boîtier avec des puces DNX prenant en charge la technologie VOQ pour résoudre le problème de faible utilisation de la bande passante en raison du déséquilibre de charge, mais elles sont également confrontées à plusieurs défis comme suit.

Évolutivité moyenne. La taille de trame limite le nombre maximal de ports. Si vous souhaitez créer un cluster à plus grande échelle, vous devez développer plusieurs cadres horizontalement, ce qui génère également des liens PFC et ECMP à plusieurs niveaux. Le cadre ne convient donc qu'à un déploiement à petite échelle.

Grande consommation d'énergie de l'appareil. Le nombre de puces de carte de ligne, de puces Fabric, de ventilateurs, etc. dans le cadre est important, et la consommation d'énergie d'un seul appareil est grande, facilement plus de 20,000 30,000 watts, certains même plus de XNUMX XNUMX watts, avec des exigences de puissance élevées pour l'armoire .

Le nombre de ports de périphérique unique est important et le domaine de défaillance est important.

Ainsi, pour les raisons ci-dessus, les appareils box ne conviennent qu'au déploiement à petite échelle de clusters informatiques d'IA.

Produits DDC conçus pour soutenir AIGC

DDC est une solution de dispositif de cadre découplé distribué, utilisant presque les mêmes technologies de puce et de clé que les commutateurs de cadre traditionnels, mais l'architecture DDC est simple pour prendre en charge l'expansion élastique et l'itération rapide des fonctions, plus facile à déployer et une faible consommation d'énergie par machine.

Comme illustré dans la figure ci-dessous, la carte de ligne de service devient le rôle NCP en tant que frontal, et la carte de commutation devient le rôle NCF en tant que back-end. Les composants de connecteur d'origine entre les deux sont désormais remplacés par des câbles à fibre optique, et le moteur de gestion du dispositif de trame d'origine devient le composant de gestion centralisé/distribué du NCC dans l'architecture DDC.

Schéma de connectivité du produit DDC

Schéma de connectivité du produit DDC

DDC prend en charge le déploiement à très grande échelle

L'avantage de l'architecture DDC par rapport à l'architecture en boîtier est qu'elle peut fournir une évolutivité flexible et que l'échelle du réseau peut être sélectionnée de manière flexible en fonction de la taille du cluster AI.

Dans le réseau POD unique, 96 NCP sont utilisés comme accès, dont 36 interfaces 200G sur la liaison descendante des NCP sont responsables de la connexion des NIC des clusters de calcul AI. Le total en amont de 40 interfaces 200G peut connecter 40 NCF, NCF fournit 96 interfaces 200G, et la bande passante en amont et en aval de cette échelle est de 1.1:1. L'ensemble du POD peut prendre en charge 3456 interfaces réseau 200G, et selon le calcul d'un serveur avec 8 GPU, 432 serveurs informatiques AI peuvent être pris en charge.

Schéma d'architecture de réseau POD unique

Schéma d'architecture de réseau POD unique

Dans la mise en réseau POD à plusieurs niveaux, une construction à la demande basée sur POD peut être réalisée. Parce que l'équipement NCF dans ce scénario, le POD doit sacrifier la moitié des SerDes pour connecter le NCF du deuxième niveau, donc à ce moment, le POD unique utilise 48 NCP comme accès, avec un total de 36 interfaces 200G dans la liaison descendante, et peut prend en charge les interfaces 1728 200G dans un seul POD. En augmentant le POD horizontalement pour réaliser l'expansion de l'échelle, le maximum global peut prendre en charge plus de 10,368 200 ports réseau XNUMXG.

Liaison montante NCP 40 200G vers 40 NCF dans le POD, les NCF dans le POD utilisent 48 interfaces 200G en aval et 48 interfaces 200G sont divisées en 16 groupes pour la liaison montante vers les NCF au deuxième niveau. 40 plans sont utilisés pour les NCF au deuxième niveau, et chaque plan est conçu avec 3 unités, correspondant à 40 NCF en POD.

L'ensemble du réseau atteint un rapport de surmultiplication de 1:1:1 dans le POD et un rapport de convergence de 1:1 entre le POD et le NCF de deuxième étage.

surmultipliée

Le port réseau 200G est compatible avec Carte réseau 100G accès, et dans des cas particuliers, il est compatible avec les cartes réseau 25/50G utilisant des câbles 1 sur 2 ou 1 sur 4.

Charge plus équilibrée basée sur le mécanisme VOQ+Cell, taux de perte de paquets plus faible

S'appuyant sur le mécanisme de transfert des cellules après la division pour l'équilibrage de charge dynamique, il réalise la stabilité du retard et réduit la différence de crête de bande passante des différentes liaisons.

Le processus de transfert est illustré dans la figure :

L'expéditeur reçoit d'abord les paquets du réseau et les trie en VOQ pour le stockage. Avant d'envoyer les paquets, un message de crédit est envoyé pour déterminer si le récepteur dispose de suffisamment d'espace cache pour les gérer.

Si tel est le cas, les paquets sont découpés en cellules et la charge est équilibrée dynamiquement vers les nœuds Fabric intermédiaires. Ces cellules sont réassemblées et stockées à l'extrémité de réception, puis transmises au réseau.

processus de transfert

Les cellules sont des techniques de découpage basées sur les paquets, généralement d'une taille de 64 à 256 octets.

Les cellules tranchées sont transmises en fonction de la requête de destination de cellule dans la table d'accessibilité et sont envoyées à l'aide d'un mécanisme d'interrogation. L'avantage de ceci est que la charge des cellules tranchées sera pleinement utilisée pour chaque liaison montante et la quantité de données transmises sur toutes les liaisons montantes sera approximativement égale, par rapport au mode ECMP de sélection d'un chemin particulier après hachage par flux.

à base de cellules

Si le destinataire est temporairement incapable de traiter le message, le message sera temporairement stocké dans le VOQ du côté de l'expéditeur et ne sera pas transmis directement au côté du destinataire, ce qui entraînera une perte de paquets. Chaque puce DNX peut fournir un cache OCB sur puce et un off-chip 8 Go de cache HBM, ce qui équivaut à mettre en cache environ 150 ms de données pour un port 200G. Les messages de crédit ne sont envoyés que lorsqu'ils sont clairement acceptables à l'autre bout. Avec un tel mécanisme, l'utilisation complète du cache peut réduire considérablement la perte de paquets, voire ne pas générer de perte de paquets. Avec moins de retransmission de données, la latence de communication globale est plus stable et plus faible, ainsi l'utilisation de la bande passante peut être améliorée, et ainsi l'efficacité du débit de service peut être améliorée.

tissu basé sur le crédit

Pas de blocage sous le déploiement PFC à saut unique

Selon la logique de DDC, tous les NCP et NCF peuvent être considérés comme un seul appareil. Par conséquent, après le déploiement du domaine RDMA dans ce réseau, il n'y a qu'un seul niveau de PFC à l'interface ciblant le serveur, ce qui ne générera pas de suppression de PFC à plusieurs niveaux ni d'interblocage comme dans les réseaux traditionnels. De plus, selon le mécanisme de transfert de données de DDC, ECN peut être déployé à l'interface, et une fois que le mécanisme interne de crédit et de cache ne peut pas prendre en charge le trafic en rafale, les messages CNP peuvent être envoyés côté serveur pour demander une réduction de vitesse (généralement sous le modèle de communication AI, All-to-All et All-Reduce+Cell slicing peut équilibrer le trafic autant que possible, et il est difficile à avoir (1 port est rempli, donc ECN peut être déconfiguré dans la plupart des cas).

Pas de blocage dans le cadre du déploiement à saut unique PFC

Conception sans NCC avec système d'exploitation distribué pour améliorer la fiabilité

Dans le plan de gestion et de contrôle, afin de résoudre l'impact de la défaillance du réseau de gestion et du point de défaillance unique de NCC, nous éliminons le plan de contrôle centralisé de NCC et construisons un système d'exploitation distribué, en configurant les dispositifs de gestion via des interfaces standard (Netconf, GRPC, etc.) par les contrôleurs d'exploitation et de maintenance du SDN, et chaque NCP et NCF est géré indépendamment avec des plans de contrôle et de gestion indépendants.

Résultats de la comparaison des tests

D'un point de vue théorique, DDC présente de nombreux avantages tels que la prise en charge d'une expansion élastique et d'une itération rapide des fonctions, un déploiement plus facile et une faible consommation d'énergie d'une seule machine ; Cependant, d'un point de vue pratique, la mise en réseau traditionnelle présente également des avantages tels qu'un plus grand nombre de marques et de gammes de produits disponibles sur le marché, et peut prendre en charge des clusters à plus grande échelle et d'autres avantages apportés par une technologie mature. Par conséquent, lorsque les clients sont confrontés aux exigences du projet, ils peuvent se référer aux résultats de comparaison et de test suivants pour déterminer s'ils doivent choisir un DDC plus performant ou un réseau traditionnel pour un déploiement à plus grande échelle :

Résultat de la comparaison entre la mise en réseau traditionnelle et le test DDC

Résultat de la comparaison entre la mise en réseau traditionnelle et le test DDC

Présentation de l'équipement FiberMall

Basé sur la compréhension approfondie des besoins des clients, FiberMall a été le premier à lancer deux produits livrables, le commutateur 200G NCP et le commutateur 200G NCF.

NCP : Commutateur FM-S6930-36DC40F1

Ce commutateur a une hauteur de 2U et fournit 36 ​​ports de panneau 200G, 40 ports en ligne Fabric 200G, 4 ventilateurs et 2 alimentations.

Commutateur NCP FM-S6930-36DC40F1

NCF : Commutateur FM-X56-96F1

Ce commutateur a une hauteur de 4U et fournit 96 ports en ligne 200G, 8 ventilateurs et 4 alimentations.

Commutateur NCF FM-X56-96F1

FiberMall continuera à développer et à lancer des produits de facteur de forme de port 400G à l'avenir.

Conclusion

FiberMall, en tant que leader de l'industrie, s'est engagé à fournir des équipements et des solutions de réseau de haute qualité et de haute fiabilité pour répondre à la demande croissante des clients pour Smart Computing Center. Tout en lançant la solution DDC "Smart Speed", FiberMall explore et développe également activement des solutions d'optimisation de réseau final dans les réseaux traditionnels. En tirant pleinement parti des cartes réseau intelligentes du serveur et de l'optimisation du protocole de l'équipement réseau, l'utilisation de la bande passante du réseau peut être améliorée pour aider les clients à entrer plus rapidement dans l'ère de l'informatique intelligente AIGC.

Laisser un commentaire

Remonter en haut