Análise detalhada do chip NVIDIA GH200, servidores e rede de cluster

Servidores GPU OEM tradicionais: CPU Intel/AMD x86 + GPU NVIDIA

Antes de 2024, tanto os servidores próprios da NVIDIA quanto os servidores de terceiros equipados com GPUs NVIDIA eram baseados em máquinas de CPU x86. As GPUs eram conectadas à placa-mãe por meio de placas PCIe ou módulos de 8 placas.

Nó GPU 8xA100 típico
Topologia típica de hardware de host A8 de 100 placas

Nesse estágio, a CPU e a GPU eram independentes. Os fabricantes de servidores podiam montar seus servidores comprando módulos de GPU (por exemplo, 8*A100). A escolha de CPUs Intel ou AMD dependia de considerações de desempenho, custo ou custo-efetividade.

Servidores GPU OEM de próxima geração: CPU NVIDIA + GPU NVIDIA

Com o advento do chip NVIDIA GH200 em 2024, as GPUs da NVIDIA começaram a incluir CPUs integradas.

  • Era da Computação Desktop: A CPU era primária, com a GPU (placa de vídeo) como componente secundário. O chip da CPU podia integrar um chip GPU, conhecido como placa de vídeo integrada.
  • Era do AI Data Center: A GPU assumiu o papel principal, com a CPU se tornando secundária. O chip/placa da GPU agora integra a CPU.

Como resultado, o nível de integração da NVIDIA aumentou e eles começaram a oferecer máquinas completas ou racks completos.

Chip da CPU: Grace (ARM) é projetado com base na arquitetura ARMv9.

Chip de GPU: Hopper/Blackwell/…

Por exemplo, a série Hopper lançou inicialmente o H100-80GB, seguido por outras iterações:

  • H800: Uma versão reduzida do H100.
  • H200: Uma versão atualizada do H100.
  • H20: Uma versão reduzida do H200, significativamente inferior ao H800.

Exemplos de produtos de chip (nomeação)

CPU Grace + GPU Hopper 200 (H200)

GH200 em uma única placa:

GH200 em uma única placa
Renderização do chip NVIDIA GH200 (placa): Esquerda: chip Grace CPU; Direita: chip Hopper GPU.

CPU Grace + GPU Blackwell 200 (B200)

GB200 em uma única placa (módulo), com alto consumo de energia e refrigeração líquida integrada:

com alto consumo de energia e refrigeração líquida integrada
Renderização NVIDIA GB200: Um módulo incluindo 2 CPUs Grace + 4 GPUs B200, com um módulo de resfriamento líquido integrado.

72 B200s formam um gabinete OEM NVL72:

72 B200s formam um gabinete OEM NVL72
Gabinete NVIDIA GB200 NVL72

Design interno dos servidores GH200

Diagrama lógico do chip GH200

Integração de CPU, GPU, RAM e VRAM em um único chip

O diagrama lógico de um único chip NVIDIA GH200
O diagrama lógico de um único chip NVIDIA GH200

Hardware principal

Conforme ilustrado no diagrama, um único superchip GH200 integra os seguintes componentes principais:

  • Uma CPU NVIDIA Grace
  • completa Nvidia H200 GPU
  • Até 480 GB de memória de CPU
  • 96 GB ou 144 GB de VRAM de GPU

Interconexões de hardware de chip

A CPU se conecta à placa-mãe por meio de quatro pistas PCIe Gen5 x16:

  • Cada pista PCIe Gen5 x16 oferece uma velocidade bidirecional de 128 GB/s
  • Portanto, a velocidade total para quatro pistas é de 512 GB/s

A CPU e a GPU são interconectadas usando a tecnologia NVLink® Chip-2-Chip (NVLink-C2C):

  • 900 GB/s, sete vezes mais rápido que PCIe Gen5 x16

As interconexões de GPU (dentro do mesmo host e entre hosts) usam 18x NVLINK4:

  • 900GB / s

O NVLink-C2C fornece o que a NVIDIA chama de “coerência de memória”, garantindo consistência entre memória e VRAM. Os benefícios incluem:

  • Memória unificada e VRAM de até 624 GB, permitindo que os usuários as utilizem sem distinção, aumentando assim a eficiência do desenvolvedor
  • Acesso simultâneo e transparente à memória da CPU e da GPU tanto pela CPU quanto pela GPU
  • A VRAM da GPU pode ser sobrecarregada, usando a memória da CPU quando necessário, graças à grande largura de banda de interconexão e à baixa latência

Em seguida, vamos nos aprofundar nos componentes de hardware, como CPU, memória e GPU.

CPU e memória

CPU ARMv72 de 9 núcleos

A CPU Grace de 72 núcleos é baseada na arquitetura de núcleo Neoverse V2 Armv9.

Memória LPDDR480X (DDR de baixo consumo) de 5 GB

  • Suporta até 480 GB de memória LPDDR5X
  • Largura de banda de memória de 500 GB/s por CPU

Para entender essa velocidade no contexto de armazenamento:

Suporta até 480 GB de memória LPDDR5X

Comparação de três tipos de memória: DDR vs. LPDDR vs. HBM

A maioria dos servidores (a grande maioria) usa memória DDR, conectada à CPU por meio de slots DIMM na placa-mãe. A primeira à quarta gerações de LPDDR correspondem às versões de baixo consumo de DDR1 a DDR4, comumente usadas em dispositivos móveis.

  • O LPDDR5 foi projetado independentemente do DDR5 e foi produzido antes do DDR5
  • Ele é soldado diretamente à CPU, não é removível e não é expansível, o que aumenta o custo, mas oferece velocidades mais rápidas
  • Um tipo semelhante é o GDDR, usado em GPUs como a RTX 4090

GPU e VRAM

Poder de computação da GPU H200

Detalhes sobre o poder de computação da GPU H200 são fornecidos abaixo.

Opções de VRAM

Dois tipos de VRAM são suportados, com uma escolha entre:

  • 96GB HBM3
  • HBM144e de 3 GB, oferecendo largura de banda de 4.9 TB/s, 50% maior que o H100 SXM.

Esta variante coloca dois chips GH200 em uma única placa, dobrando a CPU, GPU, RAM e VRAM, com interconexão completa entre os dois chips. Por exemplo, em um servidor que pode acomodar 8 placas:

  • Usando chips GH200: O número de CPUs e GPUs é 8 * {72 CPUs Grace, 1 GPU H200}
  • Usando a variante GH200 NVL2: O número de CPUs e GPUs é 8 * {144 CPUs Grace, 2 GPUs H200}

Especificações do produto GH200 e GH200 NVL2 (poder de computação)

Produto GH200 e GH200 NVL2

As especificações do produto para NVIDIA GH200 são fornecidas. A seção superior inclui CPU, memória e outros parâmetros, enquanto os parâmetros da GPU começam em “FP64”.

Servidores e redes GH200

Existem duas especificações de servidor, correspondentes às placas PCIe e às placas NVLINK.

NVIDIA MGX com GH200: Host OEM e rede

O diagrama abaixo ilustra um método de rede para um nó de placa única:

NVIDIA MGX com GH200
  • Cada nó contém apenas um chip GH200, funcionando como uma placa PCIe sem NVLINK.
  • A placa de rede ou placa aceleradora de cada nó (DPUs BlueField-3 (BF3)) se conecta a um switch.
  • Não há conexão direta entre GPUs entre nós; a comunicação é feita por meio da rede host (GPU -> CPU -> NIC).
  • Adequado para cargas de trabalho de HPC e cargas de trabalho de IA de pequena a média escala.

NVIDIA GH200 NVL32: Gabinete OEM de 32 placas

O gabinete de 32 placas conecta 32 chips GH200 em um único módulo de GPU lógico usando NVLINK, daí o nome NVL32.

NVIDIA GH200 NVL32

O módulo NVL32 é essencialmente um gabinete:

  • Um único gabinete fornece 19.5 TB de memória e VRAM.
  • O NVLink TLB permite que qualquer GPU acesse qualquer memória/VRAM dentro do gabinete.
O módulo NVL32 é essencialmente um gabinete

Existem três tipos de métodos de acesso à memória/VRAM no NVIDIA GH200 NVL32, incluindo Memória GPU Estendida (EGM).

Vários gabinetes podem ser interconectados por meio de uma rede para formar um cluster, adequado para cargas de trabalho de IA em larga escala.

Voltar ao Topo