Comment construire un cluster avec 128 DGX H100 ?

Le NVIDIA DGX H100, sorti en 2022, est équipé de 8 cartes réseau ConnectX-7 à port unique, prenant en charge une bande passante NDR de 400 Gb/s, et de 2 DPU Bluefield-3 à double port (200 Gb/s) pouvant prendre en charge les réseaux IB/Ethernet. . L'apparence est illustrée dans la figure suivante.

Gestion du système intra-bande

Le DGX H100 dispose de 4 ports QSFP56 pour le réseau de stockage et le réseau de gestion In-Band ; De plus, il existe un port Ethernet 10G pour la gestion du système d'exploitation hôte distant et un port Ethernet 1G pour la gestion du système à distance.

D'après la figure de la topologie du réseau interne du serveur, il y a 4 ports OSFP pour la connexion au réseau informatique (les violets), et les blocs bleus sont des cartes réseau, qui peuvent agir comme des cartes réseau et jouer également le rôle d'extension du commutateur PCIe. , devenant le pont entre CPU et GPU.

Processeur

Si le schéma d'interconnexion de cluster NVIDIA SuperPOD NVLink est adopté, 32 H100 seront interconnectés via des commutateurs NVLink externes. Les 8 GPU à l'intérieur du serveur sont connectés à 4 modules NVSwitch, chaque module NVSwitch correspond à 4-5 Modules optiques OSFP, un total de 18 OSFP, et les OSFP sont ensuite connectés à 18 commutateurs NVLink externes. (Actuellement, les H100 du marché ne disposent pas de ces 18 modules OSFP) Cet article ne traite pas de la méthode de mise en réseau NVLink mais se concentre sur la méthode de mise en réseau IB. D'après le document de conception de référence NVIDIA : Dans le cluster de serveurs DGX H100, tous les 32 DGX H100 forment un SU, et tous les 4 DGX H100 sont placés dans un rack séparé (on estime que la puissance de chaque rack est proche de 40KW), et divers commutateurs sont placés dans deux racks indépendants. Par conséquent, chaque SU contient 10 racks (8 pour placer les serveurs et 2 pour placer les commutateurs). Le réseau informatique n'a besoin que d'utiliser des commutateurs à deux couches Spine-Leaf (Mellanox QM9700), la topologie du réseau est illustrée dans la figure suivante.

Colonne vertébrale

Utilisation du commutateur : dans le cluster, tous les 32 DGX H100 forment un SU (il y a 8 commutateurs Leaf dans chaque SU), et il y a 4 SU dans le cluster de 128 serveurs H100, il y a donc un total de 32 commutateurs Leaf. Chaque DGX H100 du SU doit disposer d'une connexion avec les 8 commutateurs Leaf. Étant donné que chaque serveur ne dispose que de 4 ports OSFP pour la connexion au réseau informatique, après avoir connecté des modules optiques 800G à chaque port, un port OSFP est étendu à deux ports QSFP via le port d'extension, réalisant ainsi la connexion de chaque DGX H100 avec 8 commutateurs Leaf. Chaque commutateur Leaf dispose de 16 ports de liaison montante qui se connectent à 16 commutateurs Spine.

Utilisation du module optique : des modules optiques 400G sont requis pour les ports de liaison descendante du commutateur Leaf et la demande est de 3284. Des modules optiques 800G sont utilisés pour les ports de liaison montante du commutateur Leaf et la demande est de 1684. Des modules optiques 800G sont utilisés pour les ports de liaison descendante du commutateur Spine. Ainsi, dans le cluster de serveurs 128 H800, le réseau informatique utilisé Modules optiques 800G Modules optiques 1536 et 400G 1024.

Laisser un commentaire

Remonter en haut