¿Cómo construir un clúster con 128 DGX H100?

La NVIDIA DGX H100, lanzada en 2022, está equipada con 8 tarjetas de red ConnectX-7 de un solo puerto, que admiten un ancho de banda NDR de 400 Gb/s, y 2 DPU Bluefield-3 de doble puerto (200 Gb/s) que pueden admitir redes IB/Ethernet. . La apariencia se muestra en la siguiente figura.

Gestión del sistema en banda

El DGX H100 cuenta con 4 puertos QSFP56 para red de almacenamiento y red de gestión In-Band; Además, hay un puerto Ethernet 10G para la administración remota del sistema operativo del host y un puerto Ethernet 1G para la administración remota del sistema.

En la figura de la topología de la red interna del servidor, hay 4 puertos OSFP para la conexión de la red informática (los morados), y los bloques azules son tarjetas de red, que pueden actuar como tarjetas de red y también desempeñar el papel de expansión del conmutador PCIe. , convirtiéndose en el puente entre CPU y GPU.

CPU

Si se adopta el esquema de interconexión del clúster NVIDIA SuperPOD NVLink, 32 H100 se interconectarán a través de conmutadores NVLink externos. Las 8 GPU dentro del servidor están conectadas a 4 módulos NVSwitch, cada módulo NVSwitch corresponde a 4-5 módulos ópticos OSFP, un total de 18 OSFP, y luego los OSFP se conectan a 18 conmutadores NVLink externos. (Actualmente, los H100 en el mercado no tienen estos 18 módulos OSFP) Este artículo no analiza el método de red NVLink, pero se centra en el método de red IB. Según el documento de diseño de referencia de NVIDIA: en el clúster de servidores DGX H100, cada 32 DGX H100 forman una SU y cada 4 DGX H100 se colocan en un bastidor separado (se estima que la potencia de cada bastidor es cercana a los 40 KW). y se colocan varios interruptores en dos racks independientes. Por lo tanto, cada SU contiene 10 racks (8 para colocar servidores y 2 para colocar conmutadores). La red informática solo necesita utilizar conmutadores de dos capas Spine-Leaf (Mellanox QM9700), la topología de la red se muestra en la siguiente figura.

Espina

Uso del conmutador: en el clúster, cada 32 DGX H100 forma una SU (hay 8 conmutadores Leaf en cada SU) y hay 4 SU en el clúster de servidores 128 H100, por lo que hay un total de 32 conmutadores Leaf. Cada DGX H100 en la SU debe tener una conexión con los 8 interruptores Leaf. Dado que cada servidor solo tiene 4 puertos OSFP para la conexión de la red informática, después de conectar módulos ópticos de 800G a cada puerto, un puerto OSFP se expande a dos puertos QSFP a través del puerto de expansión, logrando la conexión de cada DGX H100 con 8 conmutadores Leaf. Cada conmutador Leaf tiene 16 puertos de enlace ascendente que se conectan a 16 conmutadores Spine.

Uso del módulo óptico: se requieren módulos ópticos de 400G para los puertos de enlace descendente del conmutador Leaf y la demanda es 3284. Se utilizan módulos ópticos de 800G para los puertos de enlace ascendente del conmutador Leaf y la demanda es 1684. Se utilizan módulos ópticos de 800G para los puertos de enlace descendente del conmutador Spine. Por lo tanto, en el clúster de servidores 128 H800, la red informática utilizada Módulos ópticos 800G Módulos ópticos 1536 y 400G 1024.

Deja un comentario

Ir al Inicio