Análise da arquitetura de interconexão GB200
Cálculo de largura de banda NVLink
A NVIDIA tem muita confusão no cálculo da largura de banda de transmissão do NVLink e nos conceitos de SubLink/Porta/Lane. Normalmente, a largura de banda NVLink de um único chip B200 é de 1.8 TB/s. Isso geralmente é calculado usando o algoritmo de largura de banda de memória, sendo a unidade bytes por segundo (B/s). Porém, nos switches NVLink ou switches IB/Ethernet e placas de rede, a perspectiva é da Mellanox, que calcula a largura de banda da rede em bits por segundo (b/s). Vamos explicar detalhadamente o método de cálculo do NVLink. A partir do NVLink 3.0, quatro pares diferenciais formam um “sub-link” (a NVIDIA costuma usar os termos Porta/Link, com uma definição um tanto vaga). Esses 4 pares de linhas de sinal diferencial contêm os sinais de direção de recepção e transmissão. Ao calcular a largura de banda da rede, uma interface de 400 Gbps normalmente se refere à capacidade de transmitir e receber 400 Gbps de dados simultaneamente.
É composto por um total de 4 pares de linhas de sinal diferencial, sendo 2 pares cada para RX e TX. Do ponto de vista da rede, é um link unidirecional de 400 Gbps, enquanto do ponto de vista da largura de banda da memória, ele suporta uma largura de banda de acesso à memória de 100 GB/s.
Largura de banda de interconexão NVLINK 5.0
A geração Blackwell usa Serdes 224G, com taxa de transmissão de sublink de 200 Gbps * 4 (4 pares diferenciais) / 8 = 100 GB/s e largura de banda de rede unidirecional de 400 Gbps. O B200 possui 18 sublinks, resultando em uma largura de banda de 100 GB/s * 18 = 1.8 TB/s, o que equivale a 9 interfaces unidirecionais de 400 Gbps do ponto de vista da rede. Da mesma forma, a introdução do NVSwitch menciona que os SerDes duplos de 200 Gb/s compõem um 400 Gbp
esporte.
Para maior clareza, definimos os seguintes termos:
A largura de banda do B200 NVLINK é de 1.8 TB/s, composta por 18 portas, cada uma de 100 GB/s, composta por quatro pares diferenciais, com cada porta contendo dois Serdes de 224 Gbps (2x224G PAM4 equivale a 400Gbps largura de banda unidirecional por porta).
Interconexão NVLINK 4.0
Em relação ao Hopper, o NVLINK 4.0 utiliza Serdes 112G, com uma única linha de sinal diferencial capaz de 100Gbps, resultando em um único sub-link NVLINK cumulativo de 4x100Gbps = 50GB/s. Os produtos Hopper que suportam NVLINK 4.0 têm 18 sublinks (portas), portanto, um único H100 suporta 50 GB/s * 18 = 900 GB/s. Um único sistema com 8 placas pode utilizar 4 NVSwitches para conectividade, conforme mostrado na imagem.
Também é possível adicionar um switch de segundo nível para criar um cluster de 256 placas.
A interface de expansão utiliza módulos ópticos OSFP, que podem suportar 16 linhas de sinal diferencial, permitindo que um único OSFP suporte 4 portas NVLINK.
O switch NVLink na imagem contém 32 conectores de módulo óptico OSFP, suportando um total de 32 * 4 = 128 portas NVLINK 4.
GB200 NVL72
O sistema GB200 NVL72 possui as seguintes especificações, com foco principal na interconexão NVLINK:
Cada GB200 contém uma CPU Grace ARM de 72 núcleos e duas GPUs Blackwell.
Todo o sistema é composto por Bandejas de Computação e Bandejas de Switch. Cada bandeja de computação contém dois subsistemas GB200, totalizando 4 GPUs Blackwell.
Cada bandeja de switch contém dois chips de switch NVLINK, fornecendo um total de 72 * 2 = 144 portas NVLINK. A estrutura interna de um único chip switch é mostrada, com 36 portas na parte superior e inferior, fornecendo 7.2 TB/s de largura de banda. Usando cálculos de rede, isso equivale a 28.8 Tbps de capacidade de comutação, um pouco menos do que o atual chip de comutação líder de 51.2 Tbps, mas isso se deve à implementação da funcionalidade SHARP (NVLS).
Todo o rack suporta 18 bandejas de computação e 9 bandejas de switch, formando a arquitetura NVL72 com 72 chips Blackwell totalmente interconectados.
Cada subsistema GB200 possui 2 * 18 = 36 portas NVLink5. A interconexão externa do sistema não utiliza módulos ópticos OSFP, mas sim uma conexão direta de backplane de cobre, conforme mostrado no diagrama.
A topologia geral de interconexão do NVL72 é a seguinte:
Cada B200 possui 18 portas NVLINK e há 18 chips de switch NVLINK nas 9 bandejas de switch. Portanto, cada porta do B200 se conecta a um chip NVSwitch, resultando em um total de 72 portas por NVSwitch, que é como o sistema NVL72 conecta totalmente todos os 72 chips B200.
NVL576
Notamos que no gabinete NVL72, todos os switches não possuem mais interfaces adicionais para formar um cluster maior de switches de duas camadas. De offimagens oficiais da NVIDIA, 16 gabinetes estão dispostos em duas fileiras e, embora o total seja exatamente 72 * 8 = 576 placas de cluster com refrigeração líquida, os cabos de conexão entre as placas parecem ser mais por meio da interconexão de rede Scale-Out RDMA, em vez de a interconexão da rede Scale-Up NVLINK.
Para um cluster de 32,000 placas, também é feito por meio de gabinetes NVL72, uma fileira de 9 gabinetes, 4 NVL72 e 5 gabinetes de rede, duas fileiras de 18 gabinetes formando um Sub-Pod e conectados por meio da rede RDMA Scale-Out.
Claro, este não é o chamado NVL576. Se o NVL576 for necessário, cada 72 GB200 precisa ser configurado com 18 NVSwitches, que não caberiam em um único gabinete. Notamos que o official mencionou que existe uma versão de gabinete único do NVL72, bem como uma versão de gabinete duplo, e na versão de gabinete duplo, cada Bandeja de Computação possui apenas um subsistema GB200.
Por outro lado, notamos que existem conectores de cabo de cobre sobressalentes no NVSwitch, que provavelmente são personalizados para diferentes conexões de backplane de cobre.
Não se sabe se essas interfaces terão gaiolas OSFP adicionais acima do backplane de interconexão de cobre para interconexão NVSwitch de segunda camada, mas este método tem uma vantagem: a versão de gabinete único não é escalável, enquanto a versão de gabinete duplo é escalável, como mostrado na imagem.
A versão de gabinete duplo possui 18 bandejas NVSwitch, que podem ser interconectadas costas com costas para formar o NVL72. Embora o número de switches tenha duplicado, cada switch fornece 36 portas de uplink para expansão futura para o cluster de 576 placas. Um único gabinete tem um total de 36*2*9 = 648 portas de uplink, e 16 gabinetes são necessários para formar o NVL576, resultando em um total de 648*16 = 10,368 portas de uplink, que podem ser construídas por 9 planos de switch de segundo nível , cada um com 36 subplanos, formados por 18 Switch Trays. A estrutura de interconexão do NVL576 é mostrada abaixo.
Examinando NVL576 de uma perspectiva de negócios
Estou cético sobre se existem realmente clientes para uma rede massiva e única de expansão NVLink como a NVL576. Mesmo a AWS optou apenas por offer o NVL72 em seus serviços em nuvem. Os principais problemas são os desafios de confiabilidade e escalabilidade de uma arquitetura de rede de duas camadas, fazendo com que o NVL576 não seja uma solução ideal devido à sua alta complexidade de sistema.
Por outro lado, ao considerar os requisitos de computação dos grandes modelos da próxima geração, o artigo Meta “Como construir redes de baixo custo para grandes modelos de linguagem (sem sacrificar o desempenho)?” discute isso. O artigo refere-se à rede Scale-Up baseada em NVLink como um “domínio de alta largura de banda (HBD)” e analisa o número ideal de placas dentro do HBD:
Para um modelo GPT-1T, os ganhos de desempenho ainda são bastante significativos quando K>36 comparado a K=8, mas os benefícios marginais da escala de K>72 para K=576 não justificam o aumento da complexidade do sistema. Além disso, à medida que o tamanho da rede Scale-Up NVLINK cresce, os benefícios de desempenho da largura de banda RDMA entre HBDs começam a diminuir. O equilíbrio final é usar o NVL72 combinado com o RDMA Scale-Out para construir um cluster de 32,000 placas.
Evolução dos sistemas de interconexão: a história da Cisco
Arquitetura distribuída devido a gargalos de computação/memória
No início, os roteadores da Cisco usavam um único processador PowerPC para realizar o encaminhamento. À medida que a Internet explodiu, o gargalo de desempenho foi causado por operações que consumiam muita memória, como pesquisas em tabelas de roteamento. Isso levou ao surgimento gradual de abordagens como a comutação de processos/CEF, que conectava vários processadores por meio de um barramento de dados:
Esses métodos são semelhantes aos primeiros NVLINK 1.0/NVLINK 2.0, onde os chips eram interconectados diretamente por meio de um barramento, como a geração Pascal.
O surgimento do Switch Fabric
Em 1995, Nick Mckeown propôs o uso de uma malha de switch CrossBar para suportar roteadores Gigabit de maior escala em seu artigo “Fast Switched Backplane for a Gigabit Switched Router” – que mais tarde se tornou os roteadores high-end da série 12000 da Cisco.
As malhas de switch nesses sistemas são conceitualmente idênticas aos atuais NVSwitch e NVSwitch Tray que constroem sistemas NVL8~NVL72. O objetivo é interconectar vários chips para construir um sistema em maior escala quando um único chip atinge a parede da memória.
O design de chassi único do Cisco 12000, com Switch Fabric no meio e 9 bandejas de switch, é semelhante ao GB200, onde a parte superior e inferior possuem 8 slots de placa de linha cada, correspondendo às bandejas de computação no GB200.
A tecnologia principal aqui é o design VOQ (Virtual Output Queuing) e o algoritmo de agendamento iSLIP. Quando o modelo executa All-to-All, vários B200s podem gravar no mesmo B200 simultaneamente, causando bloqueio Head-Of-Line (HOLB). Os humanos adicionam habilmente buffers antes e depois das interseções, que são a fila de entrada e a fila de saída:
Infelizmente, a fila de saída pode maximizar a utilização da largura de banda, mas requer velocidade N*R, enquanto a fila de entrada pode processar na velocidade R, mas sofre de HOLB. O rendimento máximo de um switch IQ limitado por HOLB é calculado em 58.6%.
Uma solução simples para o problema IQ HOLB é usar Virtual Output Queue (VOQ), onde cada porta de entrada possui uma fila para cada saída, eliminando HOLB enquanto mantém o buffer de velocidade R.
É claro que o NVLINK da NVIDIA usa um design baseado em crédito, e a arbitragem de distribuição de crédito é uma área que merece pesquisa aprofundada para startups de GPU domésticas.
Arquitetura Multiestágio e a Evolução das Interconexões Ópticas
O NVL576 é semelhante ao Carrier Routing System (CRS-1) da Cisco lançado em 2003.
Naquela época, a Cisco construiu um sistema de rede de comutação de vários estágios que enfrentava a enorme demanda de largura de banda durante a bolha da Internet.
A rede de comutação de 3 estágios dentro de um único gabinete, construída usando Switch Trays, é equivalente ao atual GB200 NVL72 não escalável. A estrutura de vários gabinetes corresponde então ao NVL576. Naquela época, a Cisco poderia expandir de um único gabinete com 16 placas de linha para um sistema com 8 gabinetes Fabric + 72 gabinetes de placas de linha, construindo um cluster de placas de linha 1152 em grande escala. As conexões internas da Cisco também usam interconexões ópticas.
Os conectores ópticos entre chassis são mostrados na imagem.
É importante notar que durante esse período, Bill Dally, agora cientista-chefe da NVIDIA, fundou a Avici e usou interconexões 3D-Torus para construir roteadores em escala Terabit.
A interconexão 3D-Torus lembra a TPU do Google. Mais tarde, a Huawei OEM do sistema da Avici e o nomeou NE5000, antes de desenvolver seu produto roteador principal NE5000E. Ao mesmo tempo, o surgimento da Juniper também colocou uma pressão significativa sobre a Cisco no domínio principal dos roteadores. Talvez o domínio da NVIDIA também enfrente mais desafios no futuro.
Por outro lado, switches ópticos baseados em MEMS também foram introduzidos naquela época, o que parece ter algumas semelhanças com o uso atual de switches ópticos pelo Google.
A Evolução Futura da NVIDIA
Na conferência HOTI de 2023 sobre sistemas de interconexão, Bill Dally fez uma palestra intitulada “Clusters de aceleradores, o novo supercomputador”, discutindo três tópicos principais da perspectiva de redes on-chip e sistemas de interconexão:
Topologia:
- CLOS/3D-Torus/Libélula
- Roteamento:
- Controle de fluxo
Diferentes conexões de dispositivos têm larguras de banda e consumo de energia variados.
O desafio é como combiná-los organicamente, considerando fatores como potência, custo, densidade e distância de conexão.
Interconexões Ópticas
Através destas medições dimensionais, o Co-Package Optic DWDM torna-se uma escolha viável:
O diagrama de conceito do sistema para construção de interconexões ópticas é o seguinte:
O objetivo final é construir um sistema de interconexão óptica em grande escala.
Nesse aspecto, você verá que ele é quase idêntico ao sistema CRS-1 multichassis que a Cisco construiu, onde o GPU Rack é equivalente ao Cisco LineCard Chassis, e o Switch Rack é equivalente ao Fabric Chassis da Cisco. Ambos usam interconexões ópticas e tecnologia DWDM para reduzir a complexidade da conexão e aumentar a largura de banda.
No nível da arquitetura do chip, um Motor Óptico é usado como chiplet para interconexão.
Para a estrutura de interconexão, há uma maior inclinação para a adoção da topologia Dragonfly e utilização de switches ópticos OCS.
Quanto aos algoritmos de controle de fluxo e controle de congestionamento, Bill discutiu mecanismos semelhantes ao HOMA/NDP e ao roteamento adaptativo. Não é necessário ser tão complexo, pois temos algoritmos MultiPath CC melhores que não requerem novos recursos de switch.
Algoritmos e Integração Especial de Hardware
Por outro lado, o Transformer existe há 7 anos e é um excelente algoritmo que equilibra operadores vinculados à computação e à memória. No entanto, existe um algoritmo ainda mais sofisticado na indústria?
Modelos de atenção esparsa, como Monarch Mixer, e modelos que não requerem atenção, como Mamba/RMKV, bem como algoritmos baseados em teoria de categorias, geometria algébrica e topologia algébrica, estão sendo pesquisados. Existem também diferentes formatos numéricos, como FP4/FP6, suportados pela Blackwell e, potencialmente, Log8 no futuro.
Historicamente, a Cisco também dependia de algoritmos e hardware especial para melhorar gradualmente o desempenho do chip único e superar a complexidade das estruturas de interconexão. Eles usaram algoritmos como TreeBitMap para pesquisas de tabelas de roteamento em grande escala em DRAM regular.
Com o desenvolvimento de redes multi-core e on-chip, eles construíram processadores de rede SPP/QFP/QFA de alto desempenho, e essas tecnologias ressurgiram nos processadores AWS Nitro, NVIDIA BlueField e Intel IPU DPU.
Conclusão
FibeMall analisou a mais recente arquitetura de interconexão da GPU Blackwell e explorou a construção de sistema distribuído e a arquitetura de interconexão que a Cisco e a NVIDIA enfrentaram quando o desempenho do chip único não conseguiu acompanhar a demanda explosiva durante duas ondas tecnológicas, conforme discutido no “Momento Cisco da NVIDIA”. Ele também analisou a palestra HOTI 2023 de Bill Dally, fornecendo uma visão clara do caminho de desenvolvimento futuro da NVIDIA.
No entanto, também notamos que durante o pico da bolha da Internet, empresas como Juniper e Avici surgiram como desafiantes da Cisco, e a NVIDIA também derrotou a 3Dfx como desafiante naquela época antes de dominar o mercado profissional. Cada época tem as suas oportunidades, e os vencedores não são apenas aqueles que acumulam mais recursos, mas aqueles que inovam através da combinação de algoritmos e poder computacional com hardware.
Do ponto de vista do desafiante, a dificuldade do próprio núcleo computacional, além do ecossistema CUDA, não é tão grande. Recentemente, Jim Keller e alguns jogadores da HBM na Coreia do Sul e no Japão têm estado ativos, e vale a pena observar se BUDA + RISC-V + HBM se tornará uma nova força emergente.
Do ponto de vista de substituição dos sistemas de interconexão IB/NVLINK, a Ethernet já possui chips switch de 51.2 Tbps, e protocolos de comunicação baseados em conexões Ethernet de alta velocidade para HBM, suportando computação em rede como SHARP, já foram projetados no NetDAM há três anos.
Produtos relacionados:
- OSFP-800G-FR4 800G OSFP FR4 (200G por linha) PAM4 CWDM Duplex LC 2km SMF Módulo Transceptor Óptico $11200.00
- OSFP-800G-2FR2L 800G OSFP 2FR2 (200G por linha) PAM4 1291/1311nm 2km DOM Duplex LC SMF Módulo Transceptor Óptico $8500.00
- OSFP-800G-2FR2 800G OSFP 2FR2 (200G por linha) PAM4 1291/1311nm 2km DOM Dual CS SMF Módulo transceptor óptico $8500.00
- OSFP-800G-DR4 800G OSFP DR4 (200G por linha) PAM4 1311nm MPO-12 500m SMF DDM Módulo transceptor óptico $6300.00
- Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $2000.00
- Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $1400.00
- Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $2000.00
- Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $1400.00
- NVIDIA MMS1Z00-NS400 Compatível 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 com Módulo Transceptor Óptico FEC $1350.00
- Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $1450.00
- Módulo transceptor óptico compatível com NVIDIA MMS4X50-NM OSFP 2x400G FR4 PAM4 1310nm 2km DOM Dual Duplex LC SMF $4650.00
- Módulo ótico do transceptor de OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm 2km SN SMF $17000.00
- Módulo transceptor óptico duplo duplex LC SMF OSFP-XD-1.6T-2FR4 1.6T OSFP-XD 2xFR4 PAM4 2x CWDM4 TBD $22400.00
- Módulo transceptor óptico OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311nm 2km MPO-16 SMF $12600.00