Análise NVIDIA GB200: Arquitetura de interconexão e evolução futura

Análise da arquitetura de interconexão GB200

A NVIDIA tem muita confusão no cálculo da largura de banda de transmissão do NVLink e nos conceitos de SubLink/Porta/Lane. Normalmente, a largura de banda NVLink de um único chip B200 é de 1.8 TB/s. Isso geralmente é calculado usando o algoritmo de largura de banda de memória, sendo a unidade bytes por segundo (B/s). Porém, nos switches NVLink ou switches IB/Ethernet e placas de rede, a perspectiva é da Mellanox, que calcula a largura de banda da rede em bits por segundo (b/s). Vamos explicar detalhadamente o método de cálculo do NVLink. A partir do NVLink 3.0, quatro pares diferenciais formam um “sub-link” (a NVIDIA costuma usar os termos Porta/Link, com uma definição um tanto vaga). Esses 4 pares de linhas de sinal diferencial contêm os sinais de direção de recepção e transmissão. Ao calcular a largura de banda da rede, uma interface de 400 Gbps normalmente se refere à capacidade de transmitir e receber 400 Gbps de dados simultaneamente.

Interface de 400 Gbps

É composto por um total de 4 pares de linhas de sinal diferencial, sendo 2 pares cada para RX e TX. Do ponto de vista da rede, é um link unidirecional de 400 Gbps, enquanto do ponto de vista da largura de banda da memória, ele suporta uma largura de banda de acesso à memória de 100 GB/s.

Largura de banda de interconexão NVLINK 5.0

A geração Blackwell usa Serdes 224G, com taxa de transmissão de sublink de 200 Gbps * 4 (4 pares diferenciais) / 8 = 100 GB/s e largura de banda de rede unidirecional de 400 Gbps. O B200 possui 18 sublinks, resultando em uma largura de banda de 100 GB/s * 18 = 1.8 TB/s, o que equivale a 9 interfaces unidirecionais de 400 Gbps do ponto de vista da rede. Da mesma forma, a introdução do NVSwitch menciona que os SerDes duplos de 200 Gb/s compõem um 400 Gbp

esporte.

Chip de comutação nvlink

Para maior clareza, definimos os seguintes termos:

hm

A largura de banda do B200 NVLINK é de 1.8 TB/s, composta por 18 portas, cada uma de 100 GB/s, composta por quatro pares diferenciais, com cada porta contendo dois Serdes de 224 Gbps (2x224G PAM4 equivale a 400Gbps largura de banda unidirecional por porta).

Interconexão NVLINK 4.0

Em relação ao Hopper, o NVLINK 4.0 utiliza Serdes 112G, com uma única linha de sinal diferencial capaz de 100Gbps, resultando em um único sub-link NVLINK cumulativo de 4x100Gbps = 50GB/s. Os produtos Hopper que suportam NVLINK 4.0 têm 18 sublinks (portas), portanto, um único H100 suporta 50 GB/s * 18 = 900 GB/s. Um único sistema com 8 placas pode utilizar 4 NVSwitches para conectividade, conforme mostrado na imagem.

DGX H100

Também é possível adicionar um switch de segundo nível para criar um cluster de 256 placas.

escalar com rede nvlink

A interface de expansão utiliza módulos ópticos OSFP, que podem suportar 16 linhas de sinal diferencial, permitindo que um único OSFP suporte 4 portas NVLINK.

um único OSFP para suportar 4 portas NVLINK
Pinagem do módulo osfp

O switch NVLink na imagem contém 32 conectores de módulo óptico OSFP, suportando um total de 32 * 4 = 128 portas NVLINK 4.

128nvlink 4 portas

GB200 NVL72

O sistema GB200 NVL72 possui as seguintes especificações, com foco principal na interconexão NVLINK:

Interconexão NVLINK

Cada GB200 contém uma CPU Grace ARM de 72 núcleos e duas GPUs Blackwell.

Cada GB200 contém uma CPU Grace ARM de 72 núcleos e duas GPUs Blackwell.

Todo o sistema é composto por Bandejas de Computação e Bandejas de Switch. Cada bandeja de computação contém dois subsistemas GB200, totalizando 4 GPUs Blackwell.

GB200 NVL72

Cada bandeja de switch contém dois chips de switch NVLINK, fornecendo um total de 72 * 2 = 144 portas NVLINK. A estrutura interna de um único chip switch é mostrada, com 36 portas na parte superior e inferior, fornecendo 7.2 TB/s de largura de banda. Usando cálculos de rede, isso equivale a 28.8 Tbps de capacidade de comutação, um pouco menos do que o atual chip de comutação líder de 51.2 Tbps, mas isso se deve à implementação da funcionalidade SHARP (NVLS).

Funcionalidade SHARP (NVLS)

Todo o rack suporta 18 bandejas de computação e 9 bandejas de switch, formando a arquitetura NVL72 com 72 chips Blackwell totalmente interconectados.

Todo o rack suporta 18 bandejas de computação e 9 bandejas de switch

Cada subsistema GB200 possui 2 * 18 = 36 portas NVLink5. A interconexão externa do sistema não utiliza módulos ópticos OSFP, mas sim uma conexão direta de backplane de cobre, conforme mostrado no diagrama.

Subsistema GB200
A interconexão externa do sistema

A topologia geral de interconexão do NVL72 é a seguinte:

topologia geral de interconexão NVL72

Cada B200 possui 18 portas NVLINK e há 18 chips de switch NVLINK nas 9 bandejas de switch. Portanto, cada porta do B200 se conecta a um chip NVSwitch, resultando em um total de 72 portas por NVSwitch, que é como o sistema NVL72 conecta totalmente todos os 72 chips B200.

NVL576

Notamos que no gabinete NVL72, todos os switches não possuem mais interfaces adicionais para formar um cluster maior de switches de duas camadas. De offimagens oficiais da NVIDIA, 16 gabinetes estão dispostos em duas fileiras e, embora o total seja exatamente 72 * 8 = 576 placas de cluster com refrigeração líquida, os cabos de conexão entre as placas parecem ser mais por meio da interconexão de rede Scale-Out RDMA, em vez de a interconexão da rede Scale-Up NVLINK.

Racks de computação GB200 NVL72

Para um cluster de 32,000 placas, também é feito por meio de gabinetes NVL72, uma fileira de 9 gabinetes, 4 NVL72 e 5 gabinetes de rede, duas fileiras de 18 gabinetes formando um Sub-Pod e conectados por meio da rede RDMA Scale-Out.

data center completo com 32000 GPUs

Claro, este não é o chamado NVL576. Se o NVL576 for necessário, cada 72 GB200 precisa ser configurado com 18 NVSwitches, que não caberiam em um único gabinete. Notamos que o official mencionou que existe uma versão de gabinete único do NVL72, bem como uma versão de gabinete duplo, e na versão de gabinete duplo, cada Bandeja de Computação possui apenas um subsistema GB200.

NVIDIA GB200 NVL36

Por outro lado, notamos que existem conectores de cabo de cobre sobressalentes no NVSwitch, que provavelmente são personalizados para diferentes conexões de backplane de cobre.

diferentes conexões de backplane de cobre

Não se sabe se essas interfaces terão gaiolas OSFP adicionais acima do backplane de interconexão de cobre para interconexão NVSwitch de segunda camada, mas este método tem uma vantagem: a versão de gabinete único não é escalável, enquanto a versão de gabinete duplo é escalável, como mostrado na imagem.

interconexão NVSwitch de segundo nível

A versão de gabinete duplo possui 18 bandejas NVSwitch, que podem ser interconectadas costas com costas para formar o NVL72. Embora o número de switches tenha duplicado, cada switch fornece 36 portas de uplink para expansão futura para o cluster de 576 placas. Um único gabinete tem um total de 36*2*9 = 648 portas de uplink, e 16 gabinetes são necessários para formar o NVL576, resultando em um total de 648*16 = 10,368 portas de uplink, que podem ser construídas por 9 planos de switch de segundo nível , cada um com 36 subplanos, formados por 18 Switch Trays. A estrutura de interconexão do NVL576 é mostrada abaixo.

A estrutura de interconexão do NVL576

Examinando NVL576 de uma perspectiva de negócios

Estou cético sobre se existem realmente clientes para uma rede massiva e única de expansão NVLink como a NVL576. Mesmo a AWS optou apenas por offer o NVL72 em seus serviços em nuvem. Os principais problemas são os desafios de confiabilidade e escalabilidade de uma arquitetura de rede de duas camadas, fazendo com que o NVL576 não seja uma solução ideal devido à sua alta complexidade de sistema.

Por outro lado, ao considerar os requisitos de computação dos grandes modelos da próxima geração, o artigo Meta “Como construir redes de baixo custo para grandes modelos de linguagem (sem sacrificar o desempenho)?” discute isso. O artigo refere-se à rede Scale-Up baseada em NVLink como um “domínio de alta largura de banda (HBD)” e analisa o número ideal de placas dentro do HBD:

Domínio de alta largura de banda (HBD)

Para um modelo GPT-1T, os ganhos de desempenho ainda são bastante significativos quando K>36 comparado a K=8, mas os benefícios marginais da escala de K>72 para K=576 não justificam o aumento da complexidade do sistema. Além disso, à medida que o tamanho da rede Scale-Up NVLINK cresce, os benefícios de desempenho da largura de banda RDMA entre HBDs começam a diminuir. O equilíbrio final é usar o NVL72 combinado com o RDMA Scale-Out para construir um cluster de 32,000 placas.

O tamanho da rede NVLINK aumenta

Evolução dos sistemas de interconexão: a história da Cisco

Arquitetura distribuída devido a gargalos de computação/memória

No início, os roteadores da Cisco usavam um único processador PowerPC para realizar o encaminhamento. À medida que a Internet explodiu, o gargalo de desempenho foi causado por operações que consumiam muita memória, como pesquisas em tabelas de roteamento. Isso levou ao surgimento gradual de abordagens como a comutação de processos/CEF, que conectava vários processadores por meio de um barramento de dados:

Arquitetura Distribuída

Esses métodos são semelhantes aos primeiros NVLINK 1.0/NVLINK 2.0, onde os chips eram interconectados diretamente por meio de um barramento, como a geração Pascal.

qualquer-para-qualquer

O surgimento do Switch Fabric

Em 1995, Nick Mckeown propôs o uso de uma malha de switch CrossBar para suportar roteadores Gigabit de maior escala em seu artigo “Fast Switched Backplane for a Gigabit Switched Router” – que mais tarde se tornou os roteadores high-end da série 12000 da Cisco.

placa de linha

As malhas de switch nesses sistemas são conceitualmente idênticas aos atuais NVSwitch e NVSwitch Tray que constroem sistemas NVL8~NVL72. O objetivo é interconectar vários chips para construir um sistema em maior escala quando um único chip atinge a parede da memória.

Bandeja NVSwitch

O design de chassi único do Cisco 12000, com Switch Fabric no meio e 9 bandejas de switch, é semelhante ao GB200, onde a parte superior e inferior possuem 8 slots de placa de linha cada, correspondendo às bandejas de computação no GB200.

A tecnologia principal aqui é o design VOQ (Virtual Output Queuing) e o algoritmo de agendamento iSLIP. Quando o modelo executa All-to-All, vários B200s podem gravar no mesmo B200 simultaneamente, causando bloqueio Head-Of-Line (HOLB). Os humanos adicionam habilmente buffers antes e depois das interseções, que são a fila de entrada e a fila de saída:

Fila de entrada e fila de saída

Infelizmente, a fila de saída pode maximizar a utilização da largura de banda, mas requer velocidade N*R, enquanto a fila de entrada pode processar na velocidade R, mas sofre de HOLB. O rendimento máximo de um switch IQ limitado por HOLB é calculado em 58.6%.

Uma solução simples para o problema IQ HOLB é usar Virtual Output Queue (VOQ), onde cada porta de entrada possui uma fila para cada saída, eliminando HOLB enquanto mantém o buffer de velocidade R.

Fila de saída virtual

É claro que o NVLINK da NVIDIA usa um design baseado em crédito, e a arbitragem de distribuição de crédito é uma área que merece pesquisa aprofundada para startups de GPU domésticas.

Arquitetura Multiestágio e a Evolução das Interconexões Ópticas

O NVL576 é semelhante ao Carrier Routing System (CRS-1) da Cisco lançado em 2003.

Sistema de roteamento de transportadora

Naquela época, a Cisco construiu um sistema de rede de comutação de vários estágios que enfrentava a enorme demanda de largura de banda durante a bolha da Internet.

sistema de rede de comutação multiestágio

A rede de comutação de 3 estágios dentro de um único gabinete, construída usando Switch Trays, é equivalente ao atual GB200 NVL72 não escalável. A estrutura de vários gabinetes corresponde então ao NVL576. Naquela época, a Cisco poderia expandir de um único gabinete com 16 placas de linha para um sistema com 8 gabinetes Fabric + 72 gabinetes de placas de linha, construindo um cluster de placas de linha 1152 em grande escala. As conexões internas da Cisco também usam interconexões ópticas.

um cluster de placa de linha 1152 em grande escala

Os conectores ópticos entre chassis são mostrados na imagem.

conectores ópticos entre chassis

É importante notar que durante esse período, Bill Dally, agora cientista-chefe da NVIDIA, fundou a Avici e usou interconexões 3D-Torus para construir roteadores em escala Terabit.

Roteadores em escala de Terabit

A interconexão 3D-Torus lembra a TPU do Google. Mais tarde, a Huawei OEM do sistema da Avici e o nomeou NE5000, antes de desenvolver seu produto roteador principal NE5000E. Ao mesmo tempo, o surgimento da Juniper também colocou uma pressão significativa sobre a Cisco no domínio principal dos roteadores. Talvez o domínio da NVIDIA também enfrente mais desafios no futuro.

Por outro lado, switches ópticos baseados em MEMS também foram introduzidos naquela época, o que parece ter algumas semelhanças com o uso atual de switches ópticos pelo Google.

Switches ópticos baseados em MEMS

A Evolução Futura da NVIDIA

Na conferência HOTI de 2023 sobre sistemas de interconexão, Bill Dally fez uma palestra intitulada “Clusters de aceleradores, o novo supercomputador”, discutindo três tópicos principais da perspectiva de redes on-chip e sistemas de interconexão:

Topologia:

  • CLOS/3D-Torus/Libélula
  • Roteamento:
  • Controle de fluxo

Diferentes conexões de dispositivos têm larguras de banda e consumo de energia variados.

O novo supercomputador

O desafio é como combiná-los organicamente, considerando fatores como potência, custo, densidade e distância de conexão.

O desafio é como combiná-los organicamente

Interconexões Ópticas

Através destas medições dimensionais, o Co-Package Optic DWDM torna-se uma escolha viável:

Co-pacote óptico DWDM

O diagrama de conceito do sistema para construção de interconexões ópticas é o seguinte:

conceito de sistema

O objetivo final é construir um sistema de interconexão óptica em grande escala.

Rack de GPU

Nesse aspecto, você verá que ele é quase idêntico ao sistema CRS-1 multichassis que a Cisco construiu, onde o GPU Rack é equivalente ao Cisco LineCard Chassis, e o Switch Rack é equivalente ao Fabric Chassis da Cisco. Ambos usam interconexões ópticas e tecnologia DWDM para reduzir a complexidade da conexão e aumentar a largura de banda.

Chassi Cisco LineCard

No nível da arquitetura do chip, um Motor Óptico é usado como chiplet para interconexão.

GPU conectado fotônico

Para a estrutura de interconexão, há uma maior inclinação para a adoção da topologia Dragonfly e utilização de switches ópticos OCS.

libélula

Quanto aos algoritmos de controle de fluxo e controle de congestionamento, Bill discutiu mecanismos semelhantes ao HOMA/NDP e ao roteamento adaptativo. Não é necessário ser tão complexo, pois temos algoritmos MultiPath CC melhores que não requerem novos recursos de switch.

Algoritmos e Integração Especial de Hardware

Por outro lado, o Transformer existe há 7 anos e é um excelente algoritmo que equilibra operadores vinculados à computação e à memória. No entanto, existe um algoritmo ainda mais sofisticado na indústria?

Modelos de atenção esparsa, como Monarch Mixer, e modelos que não requerem atenção, como Mamba/RMKV, bem como algoritmos baseados em teoria de categorias, geometria algébrica e topologia algébrica, estão sendo pesquisados. Existem também diferentes formatos numéricos, como FP4/FP6, suportados pela Blackwell e, potencialmente, Log8 no futuro.

Historicamente, a Cisco também dependia de algoritmos e hardware especial para melhorar gradualmente o desempenho do chip único e superar a complexidade das estruturas de interconexão. Eles usaram algoritmos como TreeBitMap para pesquisas de tabelas de roteamento em grande escala em DRAM regular.

ÁrvoreBitMap

Com o desenvolvimento de redes multi-core e on-chip, eles construíram processadores de rede SPP/QFP/QFA de alto desempenho, e essas tecnologias ressurgiram nos processadores AWS Nitro, NVIDIA BlueField e Intel IPU DPU.

Conclusão

FibeMall analisou a mais recente arquitetura de interconexão da GPU Blackwell e explorou a construção de sistema distribuído e a arquitetura de interconexão que a Cisco e a NVIDIA enfrentaram quando o desempenho do chip único não conseguiu acompanhar a demanda explosiva durante duas ondas tecnológicas, conforme discutido no “Momento Cisco da NVIDIA”. Ele também analisou a palestra HOTI 2023 de Bill Dally, fornecendo uma visão clara do caminho de desenvolvimento futuro da NVIDIA.

No entanto, também notamos que durante o pico da bolha da Internet, empresas como Juniper e Avici surgiram como desafiantes da Cisco, e a NVIDIA também derrotou a 3Dfx como desafiante naquela época antes de dominar o mercado profissional. Cada época tem as suas oportunidades, e os vencedores não são apenas aqueles que acumulam mais recursos, mas aqueles que inovam através da combinação de algoritmos e poder computacional com hardware.

Do ponto de vista do desafiante, a dificuldade do próprio núcleo computacional, além do ecossistema CUDA, não é tão grande. Recentemente, Jim Keller e alguns jogadores da HBM na Coreia do Sul e no Japão têm estado ativos, e vale a pena observar se BUDA + RISC-V + HBM se tornará uma nova força emergente.

nova tendência para computação desagregada

Do ponto de vista de substituição dos sistemas de interconexão IB/NVLINK, a Ethernet já possui chips switch de 51.2 Tbps, e protocolos de comunicação baseados em conexões Ethernet de alta velocidade para HBM, suportando computação em rede como SHARP, já foram projetados no NetDAM há três anos.

Deixe um comentário

Voltar ao Topo