Blackwell da NVIDIA apresenta desenvolvimento para DAC, LACC e 1.6T OSFP-XD

Plataforma Blackwell de nova geração

Em 19 de março de 2024, a NVIDIA revelou uma nova geração da plataforma de arquitetura Blackwell no GTC.

Esta nova plataforma inclui o novo chip AI GB200, o motor Transformer de segunda geração (utilizando a tecnologia central proprietária Blackwell Tensor para duplicar as capacidades de inferência de IA e tamanhos de modelo), a solução NVLink de quinta geração (projetada para acelerar trilhões de parâmetros e modelos complexos de IA). , capaz de interconectar até 576 GPUs, proporcionando um aumento de 9x no rendimento da GPU), O mecanismo RAS (Confiabilidade, Disponibilidade e Capacidade de Manutenção) (identificando falhas potenciais antecipadamente, reduzindo o tempo de inatividade, aprimorando os recursos inteligentes de recuperação e manutenção), Serviços de segurança inteligentes ( protegendo modelos de IA e dados de clientes sem comprometer o desempenho geral, suportando protocolos de criptografia de interface nativa de próxima geração, adaptados para setores com altos requisitos de privacidade de dados, como saúde e finanças).

Figura 1: NVIDIA lança plataforma Blackwell de última geração

NVIDIA lança plataforma Blackwell de última geração
Fonte: https://www.nvidia.com

O NVLink de quinta geração da NVIDIA melhora significativamente a escalabilidade de grandes clusters multi-GPU, com uma largura de banda total de 1.8 TB/s por GPU Blackwell de núcleo único. Cada GPU Blackwell Tensor Core pode suportar até 18 conexões NVLink de 100 GB/s, fornecendo uma largura de banda total de até 1.8 TB/s. Esse desempenho de largura de banda é o dobro do produto H200 da geração anterior da NVIDIA e 14 vezes o da tecnologia PCIe 5.0. A plataforma de servidor GB200 NVL72 aproveita a mais recente tecnologia NVLink da NVIDIA para offmaior escalabilidade para os grandes modelos de IA mais complexos do mundo.

Figura 2: Desempenho da arquitetura de rede NVLink de 5ª geração da NVIDIA

Desempenho da arquitetura de rede NVLink de 5ª geração da NVIDIA
Fonte: https://www.nvidia.com

Nova plataforma de switch IB da NVIDIA Quantum-X800 com suporte para clusters de mil placas

NVIDIA apresentou o primeiro software ponta a ponta do mundo Banda InfiniBand 800G plataforma de switch de rede, Quantum-X800, adaptada para grandes modelos de IA em escala de trilhões de parâmetros. A nova plataforma de switch NVIDIA IB suporta tecnologia de computação em rede baseada em hardware, protocolo escalonável de redução de agregação hierárquica SHARP v4, roteamento adaptativo e controle de congestionamento de rede baseado em monitoramento remoto. Consiste em três componentes principais:

Switch NVIDIA Quantum-X800 Q3400-RA 4U InfiniBand: O primeiro switch do mundo que utiliza tecnologia de canal único de 200 Gb/s, melhorando significativamente o desempenho da rede e a velocidade de transmissão. Este switch oferece 144 portas com velocidades de 800 GB/s cada, facilitadas por 72 módulos ópticos OSFP-XD de 1.6T (conectados por meio do gerenciador de malha unificado UFM da NVIDIA). Aproveitando o alto desempenho do novo switch Quantum-X800 Q3400, sua topologia de rede fat-tree de duas camadas pode conectar até 10,368 placas de interface de rede (NICs) com latência extremamente baixa, mantendo a localidade máxima da rede. O switch Q3400 utiliza refrigeração a ar e é compatível com racks padrão de 19 polegadas; NVIDIA também offoferece o modo de resfriamento líquido paralelo Q3400-LD adequado para racks de 21 polegadas do Open Compute Project (OCP).

Figura 3: Plataforma de switch IB de nova geração da NVIDIA Quantum-X800

Plataforma de switch IB de nova geração da NVIDIA Quantum-X800
Fonte: https://www.nvidia.com

Placa de interface de rede NVIDIA ConnectX-8 SuperNIC: Utilizando a arquitetura de adaptador de rede de última geração da NVIDIA, ela offoferece isolamento de desempenho e rede de 800 Gb/s ponta a ponta, projetado especificamente para gerenciar com eficiência nuvens de IA generativas multilocatários. O ConnectX-8 SuperNIC fornece taxa de transferência de dados de 800 Gb/s via PCIe 6.0, offoferecendo até 48 canais de transmissão para diversas aplicações, incluindo comutação PCIe interna do sistema de GPU NVIDIA. Além disso, o novo SuperNIC suporta a mais recente tecnologia de computação em rede da NVIDIA, MPI_Alltoall e mecanismos de hardware de correspondência de tags MPI, bem como melhorias estruturais, como serviço de alta qualidade e controle de congestionamento de rede. O ConnectX-8 SuperNIC suporta conectores OSFP224 de porta única e QSFP112 de porta dupla, compatível com vários formatos, incluindo OCP3.0 e CEM PCIe x16. Ele também suporta expansão auxiliar NVIDIA Socket Direct de 16 canais.

Figura 4: Nova placa de interface de rede IB NVIDIA ConnectX-8 SuperNIC

NVIDIA ConnectX-8 SuperNIC Nova placa de interface de rede IB
Fonte: https://www.nvidia.com

Cabos e transceptores LinkX: O portfólio de produtos de interconexão da plataforma Quantum-X800 da NVIDIA inclui transceptores de conexão com cabos de conexão direta (DAC) passivos e cabos de cobre ativos lineares (LACC), proporcionando maior flexibilidade para a construção de topologias de rede preferidas. Esta solução de interconexão inclui especificamente transceptores de conexão 2xDR4/2xFR4 de modo único e porta dupla, cabos DAC passivos e cabos lineares de cobre ativos LACC.

Figura 5: Cabos e transceptores NVIDIA LinkX

Cabos e transceptores NVIDIA LinkX
Fonte: https://www.nvidia.com

Solução NVIDIA GB200 NVL72

A solução NVIDIA GB200NBL72 offoferece um aumento de 30x na velocidade de inferência, um aumento de 4x na velocidade de treinamento, uma melhoria de 25x na eficiência energética e um aprimoramento de 18x no desempenho de processamento de dados para modelos de IA de trilhões de parâmetros.

Figura 6: NVIDIA lança solução GB200 NVL72

NVIDIA lança solução GB200 NVL72
Fonte: https://www.nvidia.com
  1. Em termos de desempenho de inferência, a solução GB200 NVL72 utiliza o mecanismo Transformer de última geração com suporte para IA FP4 e emprega o NVLink de quinta geração para fornecer uma melhoria de 30x no desempenho de inferência do Large Language Model (LLM) para modelos grandes de trilhões de parâmetros. Ele alcança maior precisão e rendimento com o novo microformato Tensor Core e implementa um grande cluster de GPU de 72 GPUs em um único gabinete por meio de refrigeração líquida.
  2. Para desempenho de treinamento, o mecanismo Transformer de segunda geração com precisão FP8 acelera modelos de linguagem grandes e velocidades de treinamento em larga escala em 4x. Ele fornece uma velocidade de interconexão GPU a GPU de 1.8 Tb/s por meio do NVLink de quinta geração usando redes de switch InfiniBand e software NVIDIA Magnum IO.
  3. Em relação à eficiência energética, o GB200 NVL72 com refrigeração líquida reduz significativamente o consumo de energia do data center. A tecnologia de resfriamento líquido aumenta a densidade da computação e reduz o espaço ocupado pelo rack do servidor, permitindo comunicação de GPU de alta largura de banda e baixa latência em grandes arquiteturas de domínio NVLink. Comparado com o gabinete refrigerado a ar NVIDIA H100 da geração anterior, o gabinete refrigerado a líquido GB200 oferece uma melhoria de desempenho de 25x com o mesmo consumo de energia, ao mesmo tempo que reduz efetivamente o uso de água.
  4. Em termos de desempenho de processamento de dados, aproveitando o desempenho de memória de alta largura de banda na arquitetura NVIDIA Blackwell, tecnologia NVLink-C2C e mecanismos de descompressão dedicados, o GB200 aumenta as velocidades críticas de consulta de banco de dados em 18x em comparação com CPUs, ao mesmo tempo que reduz os custos de TCO em 5x.

Figura 7: Solução GB200 NVL72 da NVIDIA com desempenho de inferência 30x melhor, desempenho de treinamento 4x melhor e eficiência energética 25x melhor

Solução GB200 NVL72 da NVIDIA
Fonte: https://www.nvidia.com

O gabinete único GB200 NVL72 da NVIDIA compreende 9 switches L1 NV Switch e 18 nós de computação. Cada nó de computação consiste em uma bandeja GPU de camada única no gabinete, com cada bandeja contendo 2 módulos. Cada unidade compreende 2 GPUs Blackwell e 1 CPU Grace, totalizando 4 GPUs por bandeja. O gabinete abriga 18 nós de computação (10 na metade superior e 9 na metade inferior), totalizando 72 GPUs Blackwell e 36 CPUs Grace. O desempenho computacional atinge 1440PFLOPS (FP4)/720PFLOPS (FP8/FP6)/720PFLOPS (INT8), com memória GPU máxima de 13.5 TB (HBM3e). Os parâmetros de interconexão incluem 72 VPIs ConnectX-7 de porta única OSFP (Banda InfiniBand 400G), com parâmetros de desempenho para a placa de rede ConnectX-8 ainda a serem atualizados. O desempenho do chip GB200 AI pode atingir 40PFLOPS (FP4)/20PFLOPS (FP8/FP6)/10PFLOPS (INT8), com memória GPU máxima de 384GB (HBM3e).

Figura 8: NVIDIA Anuncia Chip AI Superchip GB200

NVIDIA Anuncia Chip AI GB200 Superchip
Fonte: https://www.nvidia.com

NVIDIA lança chip AI Superchip GB200

Parâmetros detalhados de desempenho do chip NVIDIA GB200 NVL72 e GB200 AI

Análise dos requisitos de arquitetura de rede GB200 de última geração da NVIDIA para conectividade de cobre e módulos ópticos

A conectividade de cobre tem vantagens econômicas na era do switch de 224 GB

A conectividade de cobre tem vantagens de preço/desempenho e consumo de energia na tendência de clustering de alta densidade de switches e servidores, e espera-se que a conectividade de cabo de cobre seja a melhor solução para a era do switch de 224 Gb/s, estágio por estágio. Uma mudança importante na solução GB200 da NVIDIA está na interconexão entre switches e nós de computação em um único gabinete, e na conexão interna dos switches por conexão de cabo de cobre em vez da conexão anterior módulo óptico-PCB. As interconexões GB200 são divididas em três categorias principais:

(1) Conexão entre gabinetes GB200 NVL72 (cabo externo): grandes data centers geralmente exigem um grande número de gabinetes para computação paralela; se os gabinetes precisarem ser conectados em rede externamente, eles serão conectados por meio do switch TOR com um cabo DAC/AOC (conforme mostrado na Figura 10). Para um grande número de gabinetes, a interconexão externa precisa ser instalada no gabinete acima do equipamento de cabeamento para uma conexão ordenada, o comprimento do cabo é geralmente longo, o cabo de cobre tem mais de 2 a 4 metros depois que os requisitos de conexão não podem ser atendidos, portanto, a interconexão de longa distância do principal uso de cabos de fibra óptica para conectar, os cabos de cobre neste link não podem completamente substitua os cabos de fibra óptica.

Figura 9: Diagrama de interconexão NVIDIA GB200 NVL72 entre gabinetes

Diagrama de interconexão NVIDIA GB200 NVL72 entre gabinetes
Fonte: https://www.nvidia.com

(2) Conexão de gabinete único GB200 NVL72 (cabos internos do gabinete) – todos substituídos por cabos de cobre: Na Figura 10, oito nós de computação e nove switches estão conectados internamente através dos cabos de cobre na área amarela da Figura 10, e o O backplane de cabo de cobre substitui o uso anterior de switches TOR e nós de computação por meio da conexão backplane PCB-módulo óptico-cabo. Para a nova geração de switches com canal único de 224 GB/s, o consumo de energia dos módulos ópticos 800G/1.6T é geralmente superior a 16 W, e se o esquema de conexão do GB200 NVL72 for baseado na conexão anterior de módulos ópticos, é causará problemas de alto consumo de energia. As conexões de cobre consomem menos energia e são mais econômicas que os módulos ópticos. O CEO da Broadcom também mostrou recentemente apoio à atitude de conexão de cobre: “Os dispositivos ópticos na rede de comunicação consumirão muita energia e custos, portanto, na nova geração de desenvolvimento de switches da Broadcom, evite o uso de dispositivos ópticos, mas na medida do possível, use o programa de conexão de cobre. Dispositivos ópticos só serão usados ​​quando a transmissão de cobre não puder atender à demanda”.

Figura 10: Diagrama esquemático das conexões do switch e do nó de computação dentro do chassi único NVIDIA GB200 NVL72

Diagrama esquemático das conexões do switch e do nó de computação dentro do chassi único NVIDIA GB200 NVL72
Fonte: https://www.nvidia.com

Figura 11: Painel traseiro do cabo de cobre NVIDIA GB200 NVL72 e esquema do conector do painel traseiro

Esquema do backplane do cabo de cobre NVIDIA GB200 NVL72 e do conector do backplane
Fonte: https://www.nvidia.com

3) Switch NV interno – usando cabo de cobre para realizar a conexão do conector do backplane ao chip do switch: para um switch de 224 Gb/s de canal único, conforme mostrado na parte amarela da Figura 13, a área da placa PCB também é limitada, não é suficiente para cobrir toda a área, portanto não é possível realizar a conexão do link em uma distância maior, e o jumper de cobre pode realizar a conexão do backplane ao chip do switch.

Figura 12: Diagrama esquemático da solução de conexão interna de cobre do switch NVIDIA GB200 NVL72

Diagrama esquemático da solução de conexão interna de cobre do switch NVIDIA GB200 NVL72
Fonte: https://www.nvidia.com

Módulo óptico 1.6T espera-se que inaugure oportunidades de volume acelerado impulsionadas pelas soluções GB200.

A plataforma Blackwell de nova geração da NVIDIA impulsionará a demanda por módulos ópticos 1.6T com taxas de transmissão mais altas. De acordo com o desempenho do recém-lançado switch Quantum-X800 Q3400-RA 4U InfiniBand da NVIDIA, o primeiro switch do mundo com tecnologia de 200 Gb/s de canal único, fornecendo 144 portas com velocidades de conexão de 800 GB/s, que são realizadas por 72 1.6T OSFP módulos ópticos. Portanto, espera-se que a aplicação gradual da nova geração de switches em soluções GB200 aumente a demanda por módulos ópticos 1.6T.

A plataforma Blackwell em cenários de aplicação de cluster de GPU em grande escala ainda precisa de módulos ópticos para realizar a interconexão entre gabinetes, a demanda por módulos ópticos de 800G será mantida.

(1) Gabinete único GB200 (correspondente a 72 GPUs): a nova geração do programa de gabinete único GB200 não exigirá mais módulos ópticos para obter interconexão.

(2) Entre 1-8 clusters GB200 NVL72 (correspondendo a 72-576 GPUs), alguns módulos ópticos de 800G ainda são necessários para realizar a interconexão entre gabinetes. Se 20% dos dados precisarem ser transmitidos através de gabinetes, a largura de banda de transmissão total unidirecional NVLink de 7200 Gb corresponde a uma única GPU e taxa de demanda de módulo óptico de 800G de 1:2.

(3) Mais de 8 clusters GB200 NVL72 de grande escala (correspondendo a mais de 576 GPUs), espera-se configurar a rede InfiniBand Layer 3, de acordo com a proporção de demanda por GPU e módulos ópticos 800G 1: 2.5, e o segunda camada 1:2, espera-se que a taxa de demanda geral do GB200 seja de 1:4.5.

Deixe um comentário

Voltar ao Topo