Análise aprofundada: como escolher potência de computação, refrigeração líquida, rede e energia para NVIDIA GB200

Origem do nome

G – CPU de graça

B – GPU Blackwell

200 – Geração

NVL – Tecnologia de Interconexão NVlink

72 – 72 GPUs

anunciando gb200 nvl72

Configuração de energia de computação

Cada NVL72 tem 18 bandejas de computação, que são as unidades básicas da configuração de poder de computação do NVL72. Cada bandeja serve como um nó de computação. O GB200 NVL72 define o super chipset da placa Bianca, onde cada chipset compreende uma CPU Grace (desenvolvida pela NV com base na arquitetura ARM) e dois chips Blackwell GPU. Cada bandeja de computação consiste em dois super chipsets, ou seja, 2 CPUs + 4 GPUs. As 72 bandejas de computação do NVL18 totalizam 18 * 4 = 72 GPUs.

Cada bandeja de computação, em um fator de forma 1U, conecta-se diretamente ao chassi. É a unidade mínima para implantação e manutenção diárias, com cada bandeja de computação consumindo até 5400 W de energia.

O sistema NVL72 inteiro ostenta 13.8 T de memória de vídeo, com cada chip B200 contendo 192 GB de memória de vídeo, um aumento de 112 GB em relação aos 100 GB do H80. Além disso, a largura de banda de memória de GPU única foi atualizada de 3.35 TB/s no H100 para 8 TB/s. O sistema também inclui 17 TB de memória DDR5X, com cada chip Bianca equipado com 480 GB de memória.

Configuração de energia de computação

Configuração de resfriamento

Durante a fase H100, cada GPU consumiu 700 W. Para atender aos requisitos de resfriamento de ar e criar um ambiente aerodinâmico melhor, todo o sistema se encaixou em um espaço de 6-8U com 8 H100s. Na fase B200, cada chip consome 1200 W, exigindo mais espaço de resfriamento, expandindo assim o sistema para um tamanho de 10U (8 * B200).

No cenário da placa GB200 Bianca, com um consumo de energia de 2700 W, a velocidade do ar é insuficiente para fornecer resfriamento eficaz dentro de um rack de 19 polegadas, necessitando de uma solução de resfriamento líquido. Isso permite que o volume do sistema seja controlado dentro da faixa de 1-2U, melhorando significativamente a utilização do espaço e a eficiência do resfriamento.

  1. No nível do servidor: o resfriamento líquido pode atender às necessidades de resfriamento das CPUs e GPUs na placa Bianca por meio de placas frias. No entanto, a parte frontal de cada bandeja de computação e bandeja NVswitch ainda contém muitos componentes personalizados, como placas de rede, PDUs, placas de gerenciamento e discos rígidos, que ainda exigem resfriamento a ar. Normalmente, a proporção líquido-ar para uma bandeja de computação é de cerca de 8.5:1.5. No futuro, se houver expansão com base em placas de rede CX, as placas frias podem ser projetadas para NICs.
  2. No nível do rack: Várias soluções de resfriamento líquido estão disponíveis atualmente:
  3. Soluções de Retrofit para Salas Antigas Refrigeradas a Ar: Há duas opções, RDHx e Sidecar, com a primeira fornecendo resfriamento de 30-40 kW e a última oferecendo resfriamento de 70-140 kW. Essas soluções permitem a adição de um sistema de resfriamento líquido a cada rack sem alterar as unidades HVAC resfriadas a ar existentes, usando um refrigerante para transferir calor para um radiador para troca de ar (mantendo o ambiente de resfriamento de ar interno). Modificações mínimas são necessárias, evitando extensas reformas de tubulação.
no rack
  • Novos Data Centers de Alta Densidade: Para novos data centers de alta densidade como o NV72, CDUs in-rack e CDUs in-row são as principais opções. CDUs in-rack exigem mais de 4U de espaço dentro do rack e normalmente oferecem cerca de 80 kW de eficiência de resfriamento sem recursos de redundância. Em contraste, CDUs in-row são instaladas fora de racks individuais e fornecem resfriamento para vários racks ou fileiras, configuradas com dois sistemas de CDU, oferecendo resfriamento e redundância de 800 kW a 2000 kW. O marketing oficial do cluster NVL576 usa a solução in-row.
CDU em rack L2L
CDU em linha

Configuração de rede

Rede NVLink

O NVL72 apresenta uma arquitetura NVLink totalmente interconectada, eliminando a necessidade de redes RDMA (IB&RoCE) no modo NVL72.

O sistema NVL72 é equipado com 9 bandejas NVSwitch, cada uma contendo 2 chips de switch NVLink. Cada chip suporta uma taxa de 4 * 1.8 TB/s, totalizando 7.2 TB/s de capacidade, o que se traduz em 57.6 Tbps. Essa capacidade é um pouco maior do que os 5 Tbps do popular chip TH51.2. Cada bandeja NVSwitch fornece uma capacidade NVLink de 2 * 4 * 1.8 TB/s = 14.4 TB/s.

Bandeja NVswitch interna
Bandeja NVswitch dentro 2
Bandeja frontal do interruptor NV

O GB200 utiliza NVLink 5.0, com cada chip B200 interconectado a chips de switch NVLink por meio de 18 conexões NVLink 5.0. Portanto, uma unidade NVL72 tem 72 * 18 = 1296 portas NVLink 5.0, com cada porta oferecendo 100 GB/s bidirecionais, consistindo em 4 pares de linhas de sinal diferencial. Cada par é conectado por um cabo de cobre, resultando em 1296 * 4 = 5184 conexões físicas.

nvlink5.0

Conforme ilustrado, todas as 9 bandejas NVSwitch em um gabinete GB200 NVL72 são usadas para conectar 72 chips B200. Cada chip B200 é vinculado a 18 chips NVSwitch por meio de uma única conexão bidirecional NVLink 5.0 de 100 GB. Cada chip NVSwitch suporta 7.2 GB de largura de banda, correspondendo a 72 conexões NVLink 5.0, acomodando assim a implantação de 72 GPUs B200. Não há interfaces NVLink adicionais para expansão para clusters maiores.

todas as 9 bandejas NVSwitch em um gabinete GB200 NVL72 são usadas para conectar 72 chips B200

A rede NVLink dentro do GB200 NVL72 forma um estado totalmente interconectado, alcançando total interconectividade para 72 chips B200 por meio de um único salto NVSwitch. Cada chip switch tem 4 portas NVLink, com cada porta pareada com 72 cabos de cobre, reduzindo significativamente o consumo de energia e o custo da comunicação óptica, e economizando até 20 kW por sistema. A estrutura de comunicação interna do NVL72 é ilustrada no diagrama a seguir:

arquitetura gb200 nvl72

Rede não NVLink (RDMA + rede TCP de alta velocidade)

Cada bandeja de computação inclui 4 slots OSFP e 2 slots QSFP. O layout da porta de rede no painel frontal da bandeja de computação é mostrado abaixo:

O layout da porta de rede no painel frontal da bandeja de computação
  1. Os 2 slots QSFP, suportados pela DPU Bluefield-3, fornecem portas 400G/800G para interconectividade de rede TCP/armazenamento de alto desempenho, formando a rede front-end proposta pela NV.

b. Os 4 slots OSFP, com portas CX7/CX8 800G/1.6TB, suportam a expansão externa do GB200 usando comunicação de rede RDMA, constituindo a rede back-end proposta pela NV.

Devido à arquitetura de design, custos de transmissão e capacidades de chip, a NV atualmente fornece uma solução de rede NVLink pura para um máximo de 576 GPUs, equivalente a 8 unidades GB200 NVL72. Para expansão adicional de clusters de treinamento/inferência de IA, redes RDMA são necessárias. O NVLink 5.0 atinge uma largura de banda de 100 GB/s por GPU, com 18 conexões por GPU, totalizando 1.8 TB/s de largura de banda. A taxa de porta única mais rápida atual do RDMA é de 200 GB/s (1.6 Tbps), o que não corresponde à velocidade do NVLink.

Configuração do Poder

Consumo de energia nominal geral: O sistema tem um consumo de energia nominal geral de 120 kW. Ele é configurado como 2N com 4+4 (ou 4+2) prateleiras de energia, cada uma suportando 33 kW. Cada prateleira de energia pode acomodar seis unidades PSU de 5.5 kW, fornecendo redundância 5+1.

O sistema tem um consumo total de energia nominal de 120 kW.

Especificações do Power Shelf: Os power shelves utilizam o power shelf ORv3 HPR da OCP, ostentando mais de 97.5% de eficiência energética, reduzindo assim as perdas de energia durante o processo de conversão CA-CC. Além disso, ele usa saída CC de baixa tensão de 48 V/50 V para cada slot, o que oferece menores perdas de transmissão de energia em comparação com a saída tradicional de 12 V.

ORv3 hpr

Padrão de alimentação de entrada do rack: A alimentação de entrada do rack está em conformidade com o padrão ORv3 HPR da OCP, com uma entrada CA de 415 V. Cada slot é conectado diretamente ao barramento do rack por meio de conexões rígidas.

OCP
Cada slot é conectado diretamente ao barramento do rack por meio de conexões físicas.

Configuração de entrada CA: No lado da entrada CA, o sistema usa conectores de 3 pinos definidos pelo ORv7. O diagrama abaixo mostra dois padrões de conectores diferentes (esquerda para América do Norte, direita para Europa). Com base no suporte de 33 KW da prateleira de energia, cada entrada provavelmente adere a um padrão de disjuntor de 125 A.

Configuração de entrada CA

Conexões de entrada CA upstream: A extremidade upstream da entrada CA usa conectores industriais padrão, em conformidade com os padrões IEC 60309-2 e classificados como IP67. Esses plugues industriais móveis suportam um disjuntor de 125 A. Dependendo da tensão de fase, você pode escolher entre configurações de 3 pinos 125 A ou 5 pinos 125 A.

Deixe um comentário

Voltar ao Topo