Análise do hardware mais recente da NVIDIA: B100/B200/GH200/NVL72/SuperPod

Visão geral

Já apresentamos brevemente a mais recente GPU Blackwell da NVIDIA, mas parte do conteúdo pode ser facilmente mal interpretada, como a ambigüidade ou conceitos vagos na GPU da NVIDIA. offintrodução oficial. Além disso, temos visto alguns mal-entendidos sobre as capacidades da nova geração de GPUs, como a crença de que elas têm dezenas de vezes mais desempenho. Portanto, decidimos resumir de forma abrangente os vários dados para permitir que todos possam fazer uma comparação mais abrangente e justa.

Neste artigo, coletamos informações de hardware abrangentes sobre as GPUs Blackwell da NVIDIA, incluindo B100, B200, GH200 e NVL72, bem como o SuperPod-576 e as placas de rede ConnectX-800G correspondentes, switches Quantum-X800 IB e Spectrum -Switches Ethernet X800 e compará-los ainda mais com a série anterior. Ressalta-se que parte do conteúdo do artigo são dados que inferimos com base em diversas informações, como as partes vermelhas em algumas das tabelas, e os dados finais estarão sujeitos ao offwhite paper oficial (que ainda não foi visto). Além disso, isso não inclui conteúdo relacionado ao ecossistema de software.

Evolução

A NVIDIA lançou as mais recentes GPUs da arquitetura Blackwell em 19 de março de 2024, sendo as principais as GPUs B200, B100 e GB200, bem como os correspondentes GB200-NVL72 e GB200-SuperPod. A relação entre as várias GPUs é mostrada na figura abaixo.

Evolução

GPU única

A tabela abaixo mostra as GPUs mais poderosas das séries Ampere, Hopper e Blackwell mais recentes. Pode-se ver que a memória, o poder de computação e o NVLink estão sendo gradualmente fortalecidos. (Observação: a NVIDIA também lançou uma solução especial onde duas versões H100 PCIe são conectadas através de NVBridge, chamada H100 NVL, mas como ainda são duas GPUs, os detalhes não serão discutidos aqui.)

A100 -> H100: O poder de computação denso do FP16 aumentou mais de 3 vezes, enquanto o consumo de energia aumentou apenas de 400W para 700W.

H200 -> B200: O poder de computação denso do FP16 aumentou mais de 2 vezes, enquanto o consumo de energia aumentou apenas de 700W para 1000W.

O denso poder de computação do B200 FP16 é cerca de 7 vezes maior que o do A100, enquanto o consumo de energia é de apenas 2.5 vezes.

As GPUs Blackwell suportam precisão FP4, com poder de computação duas vezes maior que o FP8. Alguns dos dados nos relatórios da NVIDIA comparam o poder de computação FP4 com o poder de computação da arquitetura Hopper FP8, portanto a taxa de aceleração será mais exagerada.

Deve notar-se que:

GB200 usa o chip B200 completo, enquanto B100 e B200 são as versões simplificadas correspondentes.

GB200 usa o chip B200 completo

Servidores HGX

HGX é um servidor de alto desempenho da NVIDIA, geralmente contendo 8 ou 4 GPUs, normalmente emparelhado com CPUs Intel ou AMD, e usando NVLink e NVSwitch para obter interconexão completa (8 GPUs geralmente são o limite superior da interconexão total NVLink, exceto para NVL e SuperPod).

Do HGX A100 -> HGX H100 e HGX H200, o denso poder de computação do FP16 aumentou 3.3 vezes, enquanto o consumo de energia é inferior a 2 vezes.

De HGX H100 e HGX H200 -> HGX B100 e HGX B200, o denso poder de computação do FP16 aumentou cerca de 2 vezes, enquanto o consumo de energia é semelhante, no máximo não mais que 50%.

Deve notar-se que:

A rede do HGX B100 e HGX B200 não foi atualizada e a placa de rede IB ainda é de 8x400Gb/s.

HGX B100 e HGX B200

NVL e SuperPod

Além dos servidores GPU da série HGX, a NVIDIA também possui soluções para gabinetes e clusters completos, todos utilizando a mais recente solução Grace CPU + GPU, e correspondentes a sistemas de refrigeração líquida. A tabela abaixo mostra os gabinetes NVL e SuperPod correspondentes para a arquitetura Hopper e arquitetura Blackwell.

NVL32 -> NVL72: O número de GPUs aumentou de 32 para 72, e o denso poder de computação do FP16 aumentou de 32P para 180P, quase 6 vezes, enquanto o consumo de energia também aumentou de 40kW (nenhum número específico visto, dados estimados) para 120kW , quase 3 vezes.

GH200 SuperPod -> GB200 SuperPod: O número de GPUs aumentou de 256 para 576, e o denso poder de computação do FP16 aumentou de 256P para 1440P, quase 6 vezes, e o consumo de energia correspondente não foi encontrado.

As placas de rede ConnectX-8 IB mais recentes com largura de banda de 800 Gb/s são usadas no NVL72 e GB200 SuperPod, enquanto HGX B100 e HGX B200 ainda usam placas de rede ConnectX-7 IB com largura de banda de 400 Gb/s.

Deve notar-se que:

A NVIDIA anunciou que o SuperPod GB200 é composto por 8 NVL72, enquanto o SuperPod GH200 não é composto por 8 NVL32.

O número de bandejas NVSwitch L1 e bandejas NVSwitch L2 no SuperPod GB200 não foi visto e é um dado estimado.

SuperPod GB200

GPU Blackwell

A GPU Blackwell e a GPU H100 usam a tecnologia de processo 4N da TSMC. O H100 contém 80 bilhões de transistores, enquanto a GPU Blackwell contém 208 bilhões de transistores. No entanto, o H100 é um pacote de matriz única (unidade semicondutora completa), enquanto a GPU Blackwell é um pacote de matriz múltipla com 2 matrizes.

Cada matriz da GPU Blackwell tem cerca de 1.25 vezes o poder de computação do H100, e as duas matrizes juntas têm cerca de 2.5 vezes o poder de computação do H100. Isso também pode ser visto pelo número de transistores.

A largura de banda de comunicação entre as duas matrizes é de 10 TB/s.

A memória usa HBM3e, com cada chip tendo 24 GB de tamanho e um limite de largura de banda teórico de 1.2 TB/s, com uma largura de banda real de 1 TB/s. Toda a GPU Blackwell possui 8 desses chips de memória.

Em resumo, as principais especificações de uma GPU Blackwell completa são:

Poder de computação esparso (poder de computação denso * 2):

FP16: FLOPS 5P (2*2.5P)

FP8/FP6/INT8: 10P FLOPS (2*5P)

FP4: FLOPS 20P (2*10P)

Memória:

Tamanho: 192 GB (8*24 GB)

Largura de banda: 8 TB/s (8 * 1 TB/s)

GPU Blackwell

GH200 e GB200

GH200

O GH200 é a combinação da GPU H200 lançada pela NVIDIA no ano passado e da CPU Grace. Cada CPU Grace é emparelhada com uma GPU H200, e a GPU H200 pode ter até 96 GB ou 144 GB de memória. A CPU Grace e a GPU Hopper são interconectadas via NVLink-C2C com uma largura de banda de 900 GB/s. Além do HBM3e, a CPU Grace também possui 480 GB de memória externa LPDDR5X, embora a largura de banda correspondente seja menor, 500 GB/s.

GH200

GB200

Ao contrário do GH200, cada GB200 consiste em 1 CPU Grace e 2 GPUs Blackwell, dobrando o poder de computação e a memória da GPU. A CPU e GPUs ainda estão interconectadas a 900 GB/s via NVLink-C2C. O consumo de energia correspondente é 1200W.

O GB200 inclui 384 GB de memória HBM3e e os mesmos 480 GB de LPDDR5X, totalizando 864 GB de memória rápida.

GB200
memória rápida

HGX H100/H200 e HGX B100/B200

HGX H100 e HGX H200

Conforme mostrado, o H200 tem o mesmo poder de computação que o H100, mas com memória maior. A memória máxima para 8 GPUs aumenta de 640 GB para 1.1 TB. O escasso poder de computação do FP16 para 8 GPUs é 16P, e o esparso FP8 é 32P. A largura de banda de comunicação GPU para GPU é de 900 GB/s para ambos.

HGX H100
HGX H200

HGX B100 e HGX B200

O B100 e o B200 correspondem aos anteriores H100 e H200 respectivamente, mas sem o CPU Grace, portanto podem ser usados ​​com CPUs Intel ou AMD.

A memória do B100 e B200 é maior que a do H100 e H200. A memória máxima para 8 GPUs é de 1.5 TB (Nota: o site da NVIDIA mostrou inicialmente 1.4 TB, o que não corresponde a 192 GB * 8, e foi posteriormente corrigido para 1.5 TB, enquanto a folha de dados do DGX B200 indica claramente 1440 GB ou 180 GB por GPU).

O poder de computação do B100 é cerca de 3/4 do B200. O escasso poder de computação FP16 para 8xB100 é 28P e para 8xB200 é 36P, então 8xB200 é 2.25 vezes maior que 8xH100/H200. Isso significa que o escasso poder de computação FP16 de um único B200 é 4.5P. Deve-se notar que o poder de computação real do B200 é 90% do B200 completo (no GB200).

HGX B200
HGX B100

A imagem mostra os dados da folha de dados do DGX B200.

Folha de dados DGX B200

Os Tensor Cores da Blackwell adicionaram suporte para FP6 e FP4, e a potência de computação do FP4 é 2 vezes a potência do FP8 e 4 vezes a potência do FP16. Os CUDA Cores da Blackwell não suportam mais INT8 e, a partir do Hopper, também não suportam mais INT4.

Os Tensor Cores da Blackwell adicionaram suporte para o formato de dados Microscaling, que pode ser a forma como eles suportam FP8, FP6, FP4 e INT8.

Formato de dados de microescalonamento
nomes de formato

NVSwitch de terceira geração

O NVSwitch de terceira geração possui 64 portas NVLink, cada uma com 2 pistas. O limite de largura de banda é 64*50 GB/s=3.2 TB/s.

NVSwitch de terceira geração

NVSwitch de quarta geração

O chip NVSwitch possui 72 portas NVLink, cada uma com 2 pistas, com largura de banda bidirecional de 2 x 2 x 200 Gb/s = 100 GB/s, totalizando 7.2 TB/s. Os NVLinks de 1.8 TB/s na imagem correspondem a 18 portas.

NVSwitch de quarta geração

O B100 e o B200 usam o NVLink de quinta geração e o NVSwitch de quarta geração. Cada GPU no B100 e B200 ainda possui 18 NVLinks, mas a largura de banda por link foi atualizada de 50 GB/s no NVLink de quarta geração (H100) para 100 GB/s. Portanto, a largura de banda máxima de GPU para GPU para B100 e B200 é 1.8 TB/s.

a largura de banda máxima para B100 e B200 é 1.8 TB

O NVSwitch de quarta geração também dobra a largura de banda de GPU para GPU para 1.8 TB/s. Ele pode suportar até 576 GPUs, para um limite de largura de banda total de 576*1.8 TB/s=1PB/s.

limite total de largura de banda de 1PB.8TB=1PB

Placas de rede e switches de rede

Placa de rede ConnectX-8 InfiniBand

A NVIDIA também lançou uma nova geração de InfiniBand placas de rede, o ConnectX-8 (ConnectX-800G), com largura de banda de comunicação correspondente de 800Gb/s. Os H100 e H200 anteriores usavam a placa de rede ConnectX-7, com largura de banda de comunicação de 400 Gb/s, enquanto o A100 usava a placa de rede ConnectX-6 com largura de banda de 200 Gb/s.

Placa de rede ConnectX-8 IB

No entanto, a NVIDIA não usou a nova placa de rede ConnectX-800G no HGX B100/B200 e, em vez disso, continuou a usar a geração anterior ConnectX-7, como mostrado nas imagens (NVIDIA lança Blackwell-Powered DGX SuperPOD para Generative AI Supercomputing em Escala de trilhões de parâmetros e plataforma NVIDIA Blackwell chegam para impulsionar uma nova era da computação).

Sistemas DGX B200
NVIDIA offé o HGX B200

BlueField-3 DPU/SuperNIC

BlueField-3 suporta conexões Ethernet e IB em velocidades de até 400 Gb/s e pode ser combinado com aceleradores de hardware de rede e armazenamento, programados usando NVIDIA DOCA. Com BlueField-3, existem BlueField-3 DPU e BlueField-3 SuperNIC correspondentes. O BlueField-3 SuperNIC pode fornecer acesso remoto direto à memória (RoCE) Ethernet entre servidores GPU em velocidades de até 400 Gb/s, suportando 400 Gb/s de porta única ou 200 Gb/s de porta dupla. A geração anterior BlueField-2 SuperNIC suportava apenas 200 Gb/s de porta única ou 100 Gb/s de porta dupla.

DPU BlueField-3
BlueField-2 SuperNIC

Comutador IB Quantum-X800

O Quantum-X800 é a nova geração de switch NVIDIA Quantum IB, capaz de alcançar 800Gb / s conexões ponta a ponta com latência ultrabaixa, suportando principalmente a placa de rede NVIDIA ConnectX-8. O switch Quantum-X800 Q3400-RA (4U) correspondente pode fornecer 144 portas de 800 Gb/s, conforme mostrado na imagem, usando refrigeração a ar, mas também suportando refrigeração líquida.

Comutador IB Quantum-X800

Comutador Ethernet Spectrum-X800

O Spectrum-X800 é a nova geração de switch Ethernet NVIDIA Spectrum, incluindo dois tipos: SN5600 e SN5400, ambos usando um design 2U.

Comutador Ethernet Spectrum-X800

Conforme mostrado na tabela, o SN5600 pode suportar até 800 Gb/s por porta, com 64 portas e largura de banda total de 51.2 Tb/s, enquanto o SN5400 pode suportar até 400 Gb/s por porta, com 64 portas e um total largura de banda de 25.6 TB/s.

SN5600

GH200 NVL32 e GH200-SuperPod

Bandeja de computação GH200

A bandeja de computação GH200 é baseada no design NVIDIA MGX (tamanho 1U), com 2 unidades GH200 por bandeja de computação, ou seja, 2 CPUs Grace e 2 GPUs H200.

Bandeja NVSwitch

A bandeja NVSwitch de primeira geração contém 2 chips NVSwitch de terceira geração, com um total de 128 portas NVLink e uma largura de banda máxima de comunicação de 6.4 TB/s.

GH200 NVL32

Cada gabinete contém 16 bandejas de computação GH200 e 9 bandejas NVSwitch, resultando em um total de 32 GPUs GH200 e 18 NVSwitches. As 32 GPUs GH200 têm 32×18=576 NVLinks e, teoricamente, apenas 576/64=9 NVSwitches seriam necessários para alcançar a interconexão total, mas este design inclui 18 NVSwitches.

GH200 NVL32

SuperPod GH200

O GH200 SuperPod é composto por 256 GPUs GH200 em uma configuração totalmente interconectada, mas não é composto por 8 unidades NVL32. Em vez disso, é composto por 32 Superchips 8-Grace Hopper.

Conforme mostrado na Figura 7, cada Superchip 8-Grace Hopper inclui:

8 * Bandejas de computação Hopper (8U), cada uma contendo:

1 * GPU GH200

1 * placa de rede ConnectX-7 IB, 400Gb / s

Placa Ethernet de 1*200 Gb/s

3*Bandejas NVSwitch (3U), com um total de 6*NVSwitches

Superchip 8-Grace Hopper

As conexões NVLink são mostradas na Figura 6, com cada GH200 e cada NVSwitch tendo 3 conexões NVLink. Isto utiliza 24 portas por NVSwitch nesta direção. Além disso, cada NVSwitch possui 24 portas conectadas ao NVSwitch L2, totalizando 48 portas usadas por NVSwitch. (Observação: algumas das portas NVSwitch são redundantes e, teoricamente, seriam necessários apenas 4.5 NVSwitches, portanto, foram escolhidas 3 bandejas NVSwitch.)

Conexões NVLink

Conforme mostrado na Figura 8, o GH200 SuperPod é composto por 32 Superchips 8-Grace Hopper. O nível L1 contém 32 x 3 = 96 bandejas NVSwitch (192 NVSwitches) e o nível L2 contém 36 bandejas NVSwitch (64 NVSwitches). Cada bandeja NVSwitch L1 possui 24 x 2 = 48 portas conectadas às bandejas NVSwitch L2, portanto são necessárias 36 bandejas NVSwitch L2.

topologia nvlink

Conforme mostrado na Figura 12, as GPUs 256 GH200 também são interconectadas por meio de um switch IB de duas camadas.

topologia de gerenciamento de malha

A conectividade completa do GH200 SuperPod é mostrada na Figura 5.

conectividade completa do GH200 SuperPod

GB200 NVL72 e GB200 SuperPod

Bandeja de computação GB200

A bandeja de computação GB200 também é baseada no design NVIDIA MGX (tamanho 1U), com cada bandeja de computação contendo 2 unidades GB200, que são 2 CPUs Grace e 4 GPUs Blackwell, conforme mostrado na imagem.

Bandeja de computação GB200

Cada bandeja de computação GB200 suporta 1.7 TB de memória rápida (Observação: o “HBM3e” na imagem é provavelmente um erro de digitação, deveria ser “Memória rápida”, não “HMB3e”). Se estiver se referindo à memória por GPU Blackwell, deve ser 192 GB x 4 = 768 GB. O 1.7 TB provavelmente inclui 480 GB adicionais de LPDDR5X por GB200, para um total de 768 GB + 480 GB x 2 = 1728 GB.

nó de computação blackwell
Memória rápida de 1.7 TB

Bandeja NVSwitch

Conforme mostrado na imagem, a bandeja NVSwitch de nova geração também contém 2 chips NVSwitch (tamanho 1U), com um total de 144 portas NVLink (72 portas NVLink por chip NVSwitch). Cada porta tem largura de banda de 100 GB/s, suportando um limite de largura de banda total de 14.4 TB/s. O sistema NVSwitch de quarta geração pode suportar até 576 GPUs, portanto o limite total de largura de banda pode chegar a 576 * 1.8 TB/s = 1 PB/s. (Nota: as 8 portas na imagem não são portas NVLink, cada uma corresponde a 18 NVLinks.)

as 8 portas na imagem não são portas NVLink, cada uma corresponde a 18 NVLinks

O sistema NVSwitch usado no NVL72 é mostrado abaixo, contendo 9 bandejas NVSwitch. As 72 portas na imagem correspondem às portas da imagem anterior, não às portas NVLink, com uma largura de banda de 1.8 TB/s (18 NVLinks de 100 GB/s).

O sistema NVSwitch usado no NVL72

GB200 NVL72

Um GB200 NVL72 contém 18 bandejas de computação GB200, portanto, possui 36 CPUs Grace e 72 GPUs. A memória total da GPU é 72 * 192 GB = 13.8 TB, e a memória rápida LPDDR5X da CPU é 480 GB x 36 = 17 TB, então a memória rápida total é de 30 TB. Também inclui 9 bandejas NVSwitch.

NVIDIA também offtem uma configuração NVL36, que ainda possui 18 GB200 Compute Trays, mas cada Compute Tray possui apenas um GB200, portanto, um total de 18 CPUs Grace e 36 GPUs B200. Portanto, os 30 TB mencionados são provavelmente 13.5 TB HBM3e + 17 TB LPDDR5X.

NVIDIA também offtem uma configuração NVL36

O poder de computação correspondente é mostrado na figura abaixo:

O poder de computação correspondente

Portanto, o HBM30e de 3 TB aqui também deve ser HBM13.5e de 3 TB + LPDDR17X de 5 TB:

30 TB HBM3e

SuperPod GB200

O GB200 SuperPod é composto por 8 unidades NVL72, totalizando 576 GPUs Blackwell. Para obter interconectividade total, semelhante às GPUs 256 GH200 anteriores, é necessário um sistema NVSwitch Tray de duas camadas (limite teórico de largura de banda de 576 * 1.8 TB/s = 1 PB/s):

A bandeja NVSwitch de primeiro nível tem metade de suas portas conectadas às 576 GPUs Blackwell, portanto, são necessárias 576 * 18 / (144/2) = 144 bandejas NVSwitch (as 144 * 72 portas restantes).

As bandejas NVSwitch de segundo nível têm todas as suas portas conectadas às portas NVSwitch restantes de primeiro nível, portanto são necessárias 144 * 72/144 = 72 bandejas NVSwitch. Cada bandeja NVSwitch de segundo nível é conectada a todas as bandejas NVSwitch de primeiro nível (2 portas por conexão).

As bandejas NVSwitch de segundo nível

Análise de dados de desempenho

Desempenho do DGX GB200

A NVIDIA afirma que o DGX B200 (correspondente ao HGX B200) tem uma melhoria de 3x no desempenho de treinamento e uma melhoria de 15x no desempenho de inferência em comparação com a geração anterior DGX H100 (HGX H100). No entanto, isso ocorre com certas condições prévias. Olhando apenas para o poder de computação FP16 ou FP8 de HGX H100 a HGX B200, o poder de computação aumentou 2.25x. Mas o tamanho da memória é maior, a largura de banda da memória é cerca de 2.3x maior e a largura de banda do NVLink também dobrou. Portanto, a melhoria geral de 3x na velocidade de treinamento está em linha com as expectativas.

Desempenho do DGX GB200

Conforme mostrado na imagem, a velocidade de treinamento 3x foi medida em sistemas 4096 HGX B200 versus sistemas 4096 HGX H100, treinando o modelo GPT-MoE-1.8T.

a velocidade de treinamento 3x foi medida em sistemas 4096 HGX B200

Conforme mostrado na imagem, a velocidade de inferência de 15x foi medida em 8 sistemas HGX B200 versus 8 sistemas HGX H100, usando o modelo GPT-MoE-1.8T para inferência (a inferência do modelo GPT geralmente é limitada por E/S, portanto, a largura de banda da memória é crucial ; para suportar maior simultaneidade, um grande tamanho de memória também é importante; e como o modelo é grande, estratégias como Tensor Parallel são frequentemente usadas, portanto a largura de banda do NVLink também é crucial). Eles alcançaram 3.5 Tokens/s e 58 Tokens/s respectivamente. Os fatores que afetam a inferência GPT são numerosos e, para esses dois sistemas, as melhorias são determinadas por:

  • Largura de banda VRAM (8×3.35 TB/s -> 8x8 TB/s)
  • Tamanho VRAM (8x141GB -> 8x192GB)
  • Largura de banda NVLink (7.2 TB/s -> 14.4 TB/s)
  • Potência de computação duplicada (16P -> 36P)
  • FP8 -> FP4 (x2)
inferência de modelo de linguagem grande em tempo real

Conforme mostrado na última imagem, Jensen Huang forneceu uma comparação mais detalhada em sua palestra no GTC, mostrando que a melhoria é de apenas cerca de 3x ao comparar B200 FP8 e H200 FP8 (com TP, EP, DP, PP representando Tensor Parallel, Expert Parallel, Dados Paralelos e Pipeline Paralelo). A melhoria usando GB200 no FP4 é muito significativa (provavelmente devido à interconexão NVLink completa no NVL72).

comparando B200 FP8 e H200 FP8

Consumo de energia de treinamento GPT-MoE-1.8T

Em sua palestra no GTC, Jensen Huang também discutiu o consumo de energia para treinar o modelo GPT-MoE-1.8T, comparando as GPUs Hopper e Blackwell:

  • Um único gabinete NVL32 tem 40 kW, então 8000 GPUs seriam em torno de 10 MW, além de outro consumo de energia, provavelmente em torno de 15 MW.
  • Um único gabinete NVL72 tem 120 kW, então 2000 GPUs seriam em torno de 3.3 MW, além de outro consumo de energia, como switches de rede, totalizando cerca de 4 MW.
8000 GPUs
2000 GPUs

Deixe um comentário

Voltar ao Topo