Como construir um cluster com 128 DGX H100?

O NVIDIA DGX H100, lançado em 2022, está equipado com 8 placas de rede ConnectX-7 de porta única, com suporte para largura de banda NDR de 400 Gb/s e 2 DPUs Bluefield-3 de porta dupla (200 Gb/s) que podem suportar redes IB/Ethernet . A aparência é mostrada na figura a seguir.

Gerenciamento de sistema em banda

O DGX H100 possui 4 portas QSFP56 para rede de armazenamento e rede de gerenciamento In-Band; Além disso, há uma porta Ethernet 10G para gerenciamento remoto do sistema operacional host e uma porta Ethernet 1G para gerenciamento remoto do sistema.

Pela figura da topologia de rede interna do servidor, existem 4 portas OSFP para conexão de rede computacional (as roxas), e os blocos azuis são placas de rede, que podem atuar como placas de rede e também desempenhar o papel de expansão do Switch PCIe , tornando-se a ponte entre CPU e GPU.

CPU

Se o esquema de interconexão de cluster NVIDIA SuperPOD NVLink for adotado, 32 H100s serão interconectados através de switches NVLink externos. As 8 GPUs dentro do servidor estão conectadas a 4 módulos NVSwitch, cada módulo NVSwitch corresponde a 4-5 Módulos ópticos OSFP, um total de 18 OSFPs, e os OSFPs são então conectados a 18 switches NVLink externos. (Atualmente, os H100s no mercado não possuem esses 18 módulos OSFP) Este artigo não discute o método de rede NVLink, mas concentra-se no método de rede IB. De acordo com o documento de design de referência da NVIDIA: No cluster de servidores DGX H100, cada 32 DGX H100s formam um SU e cada 4 DGX H100s são colocados em um rack separado (estima-se que a potência de cada rack seja próxima de 40KW), e vários switches são colocados em dois racks independentes. Portanto, cada SU contém 10 racks (8 para colocação de servidores e 2 para colocação de switches). A rede de computação só precisa usar switches Spine-Leaf de duas camadas (Mellanox QM9700), a topologia da rede é mostrada na figura a seguir.

Coluna

Uso do switch: No cluster, cada 32 DGX H100s formam um SU (há 8 switches Leaf em cada SU) e há 4 SUs no cluster de 128 servidores H100, portanto, há um total de 32 switches Leaf. Cada DGX H100 no SU precisa ter uma conexão com todos os 8 switches Leaf. Como cada servidor possui apenas 4 portas OSFP para conexão de rede computacional, após conectar módulos ópticos de 800G a cada porta, uma porta OSFP é expandida para duas portas QSFP através da porta de expansão, conseguindo a conexão de cada DGX H100 com 8 switches Leaf. Cada switch Leaf possui 16 portas de uplink que se conectam a 16 switches Spine.

Uso do módulo óptico: módulos ópticos de 400G são necessários para as portas de downlink do switch Leaf, e a demanda é 3284. Módulos ópticos de 800G são usados ​​para as portas de uplink do switch Leaf, e a demanda é de 1684. Módulos ópticos de 800G são usados ​​para as portas de downlink do switch Spine. Portanto, no cluster de 128 servidores H800, a rede de computação utilizada Módulos ópticos 800G Módulos ópticos 1536 e 400G 1024.

Deixe um comentário

Voltar ao Topo