Na era dos grandes modelos de IA, treinar modelos de IA com uma única GPU já é história. Como interconectar centenas ou milhares de GPUs para formar um sistema de supercomputação que se parece com uma GPU se tornou um tópico importante na indústria!
NVIDIA DGX SuperPOD é a arquitetura de inteligência artificial (IA) de data center de última geração. Ela foi projetada para fornecer os níveis de desempenho de computação necessários para desafios de computação avançados em treinamento de modelos de IA, inferência, computação de alto desempenho (HPC) e aplicativos híbridos para melhorar o desempenho preditivo e encurtar o tempo de solução. Vamos aprender sobre a solução de arquitetura de interconexão de GPU das três gerações de produtos da NVIDIA: H100→GH200→GB200.
Construindo um SuperPod com 256 GPUs baseado em H100
No caso do DGX A100, as oito GPUs em cada nó são interconectadas via NVLink e NVSwitch, e diferentes servidores são interconectados diretamente usando uma rede IB HDR de 200 Gbps (Observação: a rede entre servidores pode usar uma rede IB ou uma rede RoCE).
No caso do DGX H100, a NVIDIA estende o NVLink dentro do servidor para entre servidores e adiciona um NVLink-network Switch. O NVSwitch é responsável pela comutação dentro do servidor, enquanto o NVLink-network Switch é responsável pela comutação entre servidores. Um SuperPod (ou seja, um sistema de supercomputação) consistindo de 256 GPUs H100 pode ser construído com base no NVSwitch e no NVLink-network Switch. A Reduce bandwidth de 256 placas de GPU ainda pode atingir 450 GB/s, que é exatamente o mesmo que a Reduce bandwidth de 8 placas de GPU em um único servidor.
No entanto, o SuperPod do DGX H100 também tem certos problemas. Há apenas 72 conexões NVLink nos nós DGX H100, e o sistema SuperPod não é uma rede não convergente. Conforme mostrado na figura abaixo, no sistema DGX H100, quatro NVSwitches reservam 72 conexões NVLink para conexão a outros sistemas DGX H100 por meio do Switch de rede NVLink. A largura de banda bidirecional total das 72 conexões NVLink é de 3.6 TB/s, enquanto a largura de banda bidirecional total de 8 H100s é de 7.2 TB/s. Portanto, há convergência no NVSwitch no sistema SuperPod.

SuperPod com 256 GPUs baseado em H100
Construindo um SuperPod de 256 GPUs baseado em GH200 e GH200 NVL32
Em 2023, a NVIDIA anunciou que o mecanismo de IA generativa DGX GH200 entrou em produção em massa. GH200 é uma combinação de GPU H200 (a principal diferença entre H200 e H100 está no tamanho da memória e no desempenho da largura de banda) e CPU Grace. Uma CPU Grace corresponde a uma GPU H200. Além da conexão NVLink4.0 entre GPUs, GH200 também usa conexão NVLink4.0 entre GPUs e CPUs.
O GH200 melhora o poder de computação por meio da capacidade de largura de banda de rede ultragrande de 900 GB/s do NVLink 4.0. Soluções de fio de cobre podem ser usadas dentro do servidor, mas conexões de fibra óptica podem ser usadas entre servidores. Para um único cluster de 256 chips GH200, um GH200 no lado da computação corresponde a nove transceptores ópticos de 800 Gbps (cada 800 Gbps corresponde a 100 GB/s, dois links NVLink 4.0). A diferença entre o GH200 SuperPod e o DGX H100 SuperPod é que o GH200 usa o NVLink-network Switch para interconexão dentro de um único nó e entre nós. O DGX GH200 adota uma estrutura Fat-tree de dois níveis, consistindo de 8 GH200s e 3 switches de rede NVLink de primeiro nível (cada bandeja NVSwitch contém 2 chips NVSwitch e tem 128 portas) para formar um único servidor. 32 servidores únicos são totalmente interconectados por meio de 36 switches de rede NVLink de segundo nível para formar um SuperPod de 256 GH200s (observe que há 36 switches de rede NVLink de segundo nível para garantir que não haja convergência).
GH200 NVL32 é um cluster de nível de rack. Um único GH200 NVL32 tem 32 GPUs GH200 e 9 NVSwitch Trays (18 chips NVSwitch3.0). Se um super nó GH200 NVL32 com 256 GPUs for formado, 36 switches de rede NVLink entre os servidores de primeiro nível serão necessários.
Construindo um SuperPod com GPU 576 baseado em GB200 NVL72
Ao contrário do GH200, um GB200 consiste em 1 CPU Grace e 2 GPUs Blackwell (Observação: o poder de computação de uma única GPU não é completamente equivalente ao B200). O Compute Tray GB200 é projetado com base no NVIDIA MGX. Um Compute Tray contém 2 GB200s, ou seja, 2 CPUs Grace e 4 GPUs. Um nó GB200 NVL72 contém 18 Compute Trays GB200, ou seja, 36 CPUs Grace, 72 GPUs e 9 NVLink-network Switch Trays (cada GPU Blackwell tem 18 NVLinks e cada 4ª geração NVLink-network Switch Tray contém 144 portas NVLink, então 9 (72*18/144=9) NVLink-network Switch Trays são necessárias para atingir a interconexão completa).
De acordo com a promoção oficial da NVIDIA, oito GB200 NVL72s formam um SuperPod, formando assim um supernó que consiste em 576 GPUs. No entanto, por meio da análise, podemos ver que as 9 bandejas de switch de rede NVLink no gabinete GB200 NVL72 são todas usadas para conectar 72 GB200s. Não há interfaces NVLink adicionais para expansão para formar um cluster de comutação de duas camadas em maior escala. Nas fotos oficiais da NVIDIA, o SuperPod de 576 GPUs é interconectado principalmente pela rede RDMA Scale-Out em vez da rede NVLink Scale-Up. Se precisarmos dar suporte a um SuperPod com 576 GPUs por meio da interconexão NVLink, precisamos configurar 18 NVSwitches para cada 72 GB200s, o que não caberá em um único gabinete.
Além disso, a NVIDIA declarou oficialmente que o NVL72 tem uma versão de gabinete único e uma versão de gabinete duplo, e cada Compute Tray do gabinete duplo tem apenas um subsistema GB200. Neste caso, é possível usar a versão de gabinete duplo para suportar um SuperPod de 576 GPUs por meio da interconexão NVLink e cada gabinete duplo desta versão de gabinete duplo tem 72 GB200s e 18 Switch Trays de rede NVLink, que podem atender às necessidades de implantação de um cluster de duas camadas. Conforme mostrado na figura a seguir:

SuperPod com 576 GPUs baseadas em GB200
É semelhante à geração anterior de 256 estruturas H200 totalmente interconectadas, exceto que o número de dispositivos no primeiro e segundo níveis é diferente, exigindo dois níveis de interconexão de Switch de rede NVLink: metade das portas no primeiro nível conectam 576 GPUs Blackwell, então 576*18/(144/2) =144 Switches de rede NVLink são necessários, e cada NVL72 tem 18 Bandejas de Switch de rede NVLink. Todas as portas de segundo nível são conectadas às Portas de Switch de rede NVLink de primeiro nível, então 144*72/144=72 NVSwitches são necessários.