Conteúdo
AlterneServidores GPU OEM tradicionais: CPU Intel/AMD x86 + GPU NVIDIA
Antes de 2024, tanto os servidores próprios da NVIDIA quanto os servidores de terceiros equipados com GPUs NVIDIA eram baseados em máquinas de CPU x86. As GPUs eram conectadas à placa-mãe por meio de placas PCIe ou módulos de 8 placas.

Nesse estágio, a CPU e a GPU eram independentes. Os fabricantes de servidores podiam montar seus servidores comprando módulos de GPU (por exemplo, 8*A100). A escolha de CPUs Intel ou AMD dependia de considerações de desempenho, custo ou custo-efetividade.
Servidores GPU OEM de próxima geração: CPU NVIDIA + GPU NVIDIA
Com o advento do chip NVIDIA GH200 em 2024, as GPUs da NVIDIA começaram a incluir CPUs integradas.
- Era da Computação Desktop: A CPU era primária, com a GPU (placa de vídeo) como componente secundário. O chip da CPU podia integrar um chip GPU, conhecido como placa de vídeo integrada.
- Era do AI Data Center: A GPU assumiu o papel principal, com a CPU se tornando secundária. O chip/placa da GPU agora integra a CPU.
Como resultado, o nível de integração da NVIDIA aumentou e eles começaram a oferecer máquinas completas ou racks completos.
Chip da CPU: Grace (ARM) é projetado com base na arquitetura ARMv9.
Chip de GPU: Hopper/Blackwell/…
Por exemplo, a série Hopper lançou inicialmente o H100-80GB, seguido por outras iterações:
- H800: Uma versão reduzida do H100.
- H200: Uma versão atualizada do H100.
- H20: Uma versão reduzida do H200, significativamente inferior ao H800.
Exemplos de produtos de chip (nomeação)
CPU Grace + GPU Hopper 200 (H200)
GH200 em uma única placa:

CPU Grace + GPU Blackwell 200 (B200)
GB200 em uma única placa (módulo), com alto consumo de energia e refrigeração líquida integrada:

72 B200s formam um gabinete OEM NVL72:

Design interno dos servidores GH200
Diagrama lógico do chip GH200
Integração de CPU, GPU, RAM e VRAM em um único chip

Hardware principal
Conforme ilustrado no diagrama, um único superchip GH200 integra os seguintes componentes principais:
- Uma CPU NVIDIA Grace
- completa Nvidia H200 GPU
- Até 480 GB de memória de CPU
- 96 GB ou 144 GB de VRAM de GPU
Interconexões de hardware de chip
A CPU se conecta à placa-mãe por meio de quatro pistas PCIe Gen5 x16:
- Cada pista PCIe Gen5 x16 oferece uma velocidade bidirecional de 128 GB/s
- Portanto, a velocidade total para quatro pistas é de 512 GB/s
A CPU e a GPU são interconectadas usando a tecnologia NVLink® Chip-2-Chip (NVLink-C2C):
- 900 GB/s, sete vezes mais rápido que PCIe Gen5 x16
As interconexões de GPU (dentro do mesmo host e entre hosts) usam 18x NVLINK4:
- 900GB / s
O NVLink-C2C fornece o que a NVIDIA chama de “coerência de memória”, garantindo consistência entre memória e VRAM. Os benefícios incluem:
- Memória unificada e VRAM de até 624 GB, permitindo que os usuários as utilizem sem distinção, aumentando assim a eficiência do desenvolvedor
- Acesso simultâneo e transparente à memória da CPU e da GPU tanto pela CPU quanto pela GPU
- A VRAM da GPU pode ser sobrecarregada, usando a memória da CPU quando necessário, graças à grande largura de banda de interconexão e à baixa latência
Em seguida, vamos nos aprofundar nos componentes de hardware, como CPU, memória e GPU.
CPU e memória
CPU ARMv72 de 9 núcleos
A CPU Grace de 72 núcleos é baseada na arquitetura de núcleo Neoverse V2 Armv9.
Memória LPDDR480X (DDR de baixo consumo) de 5 GB
- Suporta até 480 GB de memória LPDDR5X
- Largura de banda de memória de 500 GB/s por CPU
Para entender essa velocidade no contexto de armazenamento:

Comparação de três tipos de memória: DDR vs. LPDDR vs. HBM
A maioria dos servidores (a grande maioria) usa memória DDR, conectada à CPU por meio de slots DIMM na placa-mãe. A primeira à quarta gerações de LPDDR correspondem às versões de baixo consumo de DDR1 a DDR4, comumente usadas em dispositivos móveis.
- O LPDDR5 foi projetado independentemente do DDR5 e foi produzido antes do DDR5
- Ele é soldado diretamente à CPU, não é removível e não é expansível, o que aumenta o custo, mas oferece velocidades mais rápidas
- Um tipo semelhante é o GDDR, usado em GPUs como a RTX 4090
GPU e VRAM
Poder de computação da GPU H200
Detalhes sobre o poder de computação da GPU H200 são fornecidos abaixo.
Opções de VRAM
Dois tipos de VRAM são suportados, com uma escolha entre:
- 96GB HBM3
- HBM144e de 3 GB, oferecendo largura de banda de 4.9 TB/s, 50% maior que o H100 SXM.
Variante: GH200 NVL2 com conexão NVLINK completa
Esta variante coloca dois chips GH200 em uma única placa, dobrando a CPU, GPU, RAM e VRAM, com interconexão completa entre os dois chips. Por exemplo, em um servidor que pode acomodar 8 placas:
- Usando chips GH200: O número de CPUs e GPUs é 8 * {72 CPUs Grace, 1 GPU H200}
- Usando a variante GH200 NVL2: O número de CPUs e GPUs é 8 * {144 CPUs Grace, 2 GPUs H200}
Especificações do produto GH200 e GH200 NVL2 (poder de computação)

As especificações do produto para NVIDIA GH200 são fornecidas. A seção superior inclui CPU, memória e outros parâmetros, enquanto os parâmetros da GPU começam em “FP64”.
Servidores e redes GH200
Existem duas especificações de servidor, correspondentes às placas PCIe e às placas NVLINK.
NVIDIA MGX com GH200: Host OEM e rede
O diagrama abaixo ilustra um método de rede para um nó de placa única:

- Cada nó contém apenas um chip GH200, funcionando como uma placa PCIe sem NVLINK.
- A placa de rede ou placa aceleradora de cada nó (DPUs BlueField-3 (BF3)) se conecta a um switch.
- Não há conexão direta entre GPUs entre nós; a comunicação é feita por meio da rede host (GPU -> CPU -> NIC).
- Adequado para cargas de trabalho de HPC e cargas de trabalho de IA de pequena a média escala.
NVIDIA GH200 NVL32: Gabinete OEM de 32 placas
O gabinete de 32 placas conecta 32 chips GH200 em um único módulo de GPU lógico usando NVLINK, daí o nome NVL32.

O módulo NVL32 é essencialmente um gabinete:
- Um único gabinete fornece 19.5 TB de memória e VRAM.
- O NVLink TLB permite que qualquer GPU acesse qualquer memória/VRAM dentro do gabinete.

Existem três tipos de métodos de acesso à memória/VRAM no NVIDIA GH200 NVL32, incluindo Memória GPU Estendida (EGM).
Vários gabinetes podem ser interconectados por meio de uma rede para formar um cluster, adequado para cargas de trabalho de IA em larga escala.
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module
$550.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$900.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$1199.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico
$700.00
-
Módulo transceptor óptico NVIDIA(Mellanox) MMA1T00-HS compatível com 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4
$139.00
-
NVIDIA MFP7E10-N010 compatível com 10 m (33 pés) 8 fibras baixa perda de inserção fêmea para fêmea MPO cabo tronco polaridade B APC para APC LSZH multimodo OM3 50/125
$47.00
-
Compatível com NVIDIA MCP7Y00-N003-FLT 3m (10 pés) 800G OSFP de porta dupla a 2x400G OSFP plano superior InfiniBand NDR Breakout DAC
$260.00
-
NVIDIA MCP7Y70-H002 compatível com 2m (7 pés) 400G Twin-port 2x200G OSFP para 4x100G QSFP56 Passivo Breakout Direct Attach Cabo de cobre
$155.00
-
NVIDIA MCA4J80-N003-FTF compatível com 3m (10 pés) 800G de porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR cabo de cobre ativo, parte superior plana em uma extremidade e parte superior com aletas na outra
$600.00
-
NVIDIA MCP7Y10-N002 compatível com 2m (7 pés) 800G InfiniBand NDR OSFP de porta dupla para 2x400G QSFP112 Breakout DAC
$190.00
