Informations clés sur le cluster xAI de 100,000 XNUMX GPU de Musk

Une vidéo promotionnelle du cluster xAI de 100,000 15 GPU de Musk a récemment été publiée en ligne. Sponsorisée par Supermicro, la vidéo présente une présentation sur place par un expert étranger dans un centre de données, qui prend 100,000 minutes pour discuter de divers aspects du cluster de XNUMX XNUMX GPU. Ces aspects comprennent la densité de déploiement, la distribution des armoires, la solution de refroidissement liquide, les méthodes de maintenance, la configuration de la carte réseau, les spécifications des commutateurs et l'alimentation électrique. Cependant, la vidéo n'a pas révélé grand-chose sur la conception du réseau, le système de stockage ou la progression du modèle de formation. Explorons les dix informations clés !

le plus grand cluster d'IA au monde

Échelle des grands clusters

Contrairement aux clusters les plus courants dans notre pays, généralement composés de 1,000 128 GPU (équivalent à 100 systèmes H100,000), le cluster de 100 12,800 GPU est 100 fois plus grand, nécessitant environ 122 XNUMX systèmes HXNUMX. La vidéo promotionnelle affirme que le déploiement a été réalisé en seulement XNUMX jours, ce qui met en évidence une disparité significative entre les capacités des clusters GPU nationaux et internationaux.

Échelle des grands clusters

Haute densité de calcul

La vidéo montre que le H100 utilise une conception de rack 4U, chaque armoire déployant 8 systèmes, ce qui équivaut à 64 GPU par armoire. Une rangée d'armoires contient 8 armoires, soit 512 GPU par rangée. Le cluster de 100,000 200 GPU comprend environ 1 rangées d'armoires. Sur le plan national, il est plus courant de placer 2 à 100 systèmes H100 par armoire, chaque système H10.2 consommant 8 kW. Le déploiement de 80 systèmes dépasse XNUMX kW, ce qui constitue une référence pour les futurs déploiements de clusters à haute densité.

Haute densité de calcul

Adoption à grande échelle du refroidissement liquide par plaque froide

Bien que la technologie de refroidissement liquide soit développée depuis de nombreuses années au niveau national, sa mise en œuvre à grande échelle est rare. La vidéo montre que le cluster de 100,000 XNUMX GPU utilise la solution de refroidissement liquide à plaque froide la plus répandue, couvrant les puces GPU et CPU (tandis que d'autres composants comme la mémoire et les disques durs nécessitent toujours un refroidissement par air). Chaque armoire dispose d'une CDU (Cooling Distribution Unit) en bas, configurée de manière distribuée, avec des pompes redondantes pour éviter les interruptions du système dues à des pannes uniques.

Adoption à grande échelle du refroidissement liquide par plaque froide

Carte réseau et solution de mise en réseau – RoCE

Bien que la vidéo ne détaille pas la topologie du réseau, elle mentionne que chaque appareil H100 est équipé de 8 cartes Mellanox BFD-3 (une pour chaque GPU et la carte BFD-3 correspondante) et d'une carte réseau CX7 400G. Cela diffère des configurations nationales actuelles et la vidéo ne fournit aucune explication pour cette configuration. De plus, la solution réseau utilise RoCE au lieu du réseau IB plus répandu au niveau national, probablement en raison de la rentabilité de RoCE et de sa maturité dans la gestion des clusters à grande échelle. Mellanox reste la marque de commutateurs de choix.

Carte réseau et solution de mise en réseau - RoCE

Modèle et spécifications du commutateur

La vidéo présente le modèle de commutateur Ethernet NVIDIA Spectrum-x SN5600, qui dispose de 64 interfaces physiques 800G pouvant être converties en 128 interfaces 400G. Cette configuration réduit considérablement le nombre de commutateurs requis, ce qui pourrait devenir une tendance future dans la conception des réseaux.

Modèle et spécifications du commutateur

Maintenance modulaire pour serveurs GPU

Nous savons tous que le taux de défaillance des GPU H100 est nettement plus élevé que celui des serveurs à usage général, ce qui rend le remplacement et la réparation assez difficiles. La vidéo présente la plateforme 4U H100 de Supermicro, qui prend en charge la maintenance de type tiroir pour les modules GPU et CPU. Comme le montre l'image, il y a une poignée qui permet un retrait et une maintenance faciles sans avoir à démonter l'ensemble du serveur, ce qui améliore considérablement l'efficacité de la maintenance.

Maintenance modulaire pour serveurs GPU

Voyants de couleur de l'armoire

Comme le montre l'image, l'effet bleu donne une forte impression technologique tout en indiquant que l'équipement fonctionne normalement. Si une armoire rencontre un problème, le changement de couleur des voyants lumineux permet au personnel de maintenance d'identifier rapidement l'armoire défectueuse. Bien qu'il ne s'agisse pas d'une technologie de pointe, c'est assez intéressant et pratique.

Voyants de couleur de l'armoire

Besoin continu de serveurs polyvalents

Lors de la conception de solutions de centres de calcul intelligents, les serveurs à usage général sont souvent négligés. Bien que les serveurs GPU soient le cœur du système, de nombreuses tâches de gestion auxiliaires nécessitent toujours l'assistance de serveurs à usage général. La vidéo présente des serveurs 1U haute densité fournissant une puissance de calcul CPU, coexistant avec des nœuds GPU sans conflit. Les nœuds CPU prennent principalement en charge les systèmes d'entreprise liés à la gestion.

Besoin continu de serveurs polyvalents

Importance des systèmes de stockage

Bien que la vidéo ne détaille pas la conception du système de stockage, elle présente brièvement ce module essentiel pour les centres de calcul intelligents. Le stockage est essentiel pour prendre en charge le stockage des données dans les systèmes de formation, ce qui affecte directement l'efficacité de la formation. Par conséquent, les centres de calcul intelligents choisissent généralement un stockage GPFS hautes performances pour créer des systèmes de fichiers distribués.

Importance des systèmes de stockage

Système de garantie d'alimentation électrique

La vidéo montre un gros pack de batteries spécialement conçu pour le cluster de 100,000 XNUMX GPU. Le système d'alimentation se connecte au pack de batteries, qui alimente ensuite le cluster, atténuant ainsi efficacement les risques associés à une alimentation électrique instable. Bien que peu d'informations aient été divulguées, cela souligne l'importance d'une alimentation électrique fiable pour les systèmes de centres de calcul intelligents.

Système de garantie d'alimentation électrique

A suivre : l'expansion continue du cluster

La vidéo conclut en affirmant que le cluster de 100,000 XNUMX GPU n'est qu'une phase et que l'ingénierie du système est toujours en cours.

A suivre Expansion continue du cluster

Laisser un commentaire

Remonter en haut