Compreendendo a solução Spectrum-X da NVIDIA

A solução Spectrum-X da NVIDIA é a primeira solução Ethernet ponta a ponta do mundo projetada especificamente para IA generativa. Esta solução abrangente inclui vários componentes principais: os switches da série Spectrum-4, BlueField-3 SuperNICs, módulos de cabo de alto desempenho LinkX 800G/400G e uma solução de software full-stack integrada com recursos de aceleração de hardware. O verdadeiro poder do Spectrum-X está na integração estreita de hardware e software; usar qualquer parte isoladamente não demonstra totalmente sua eficiência máxima.

NVIDIA Spectrum-X

Hoje, muitos fabricantes líderes de chips lançaram chips de switch projetados para aplicações de IA e machine learning (ML), com throughput de chip único atingindo até 51.2 Tbps. Embora chips de switch de data center tradicionais possam ser usados ​​em cenários de IA, eles lutam com eficiência ao lidar com tráfego de IA focado em treinamento e inferência.

Vamos nos aprofundar no motivo pelo qual a Ethernet tradicional enfrenta limitações com modelos de tráfego específicos de IA, principalmente devido ao desequilíbrio de carga, maior latência e instabilidade e controle de congestionamento deficiente.

Problema de desequilíbrio de carga ECMP

Os data centers Ethernet tradicionais lidam principalmente com aplicações como navegação na web, streaming de música e vídeo e tarefas diárias de escritório. Essas aplicações geralmente envolvem pequenos e numerosos fluxos de dados (chamados de “fluxos”) que são distribuídos aleatoriamente, tornando-os adequados para técnicas de balanceamento de carga multicaminho baseadas em algoritmos de hash (ECMP), que garantem que a largura de banda da rede seja usada uniformemente.

No treinamento de modelos de IA, no entanto, os modelos, parâmetros, GPUs, CPUs e NICs são intimamente acoplados. O tráfego de rede consiste principalmente em operações coletivas de alta largura de banda, como all-reduce e all-to-all. Normalmente, cada GPU é pareada com uma NIC de alta largura de banda, e cada NIC estabelece um número relativamente pequeno de conexões de fluxo durante cada processo de treinamento. Esses fluxos são significativos o suficiente para consumir rapidamente toda a largura de banda da NIC — chamados de "fluxos de elefante".

Devido à natureza dos fluxos de elefantes, eles podem se concentrar em caminhos de rede específicos devido a algoritmos de hash, levando a uma sobrecarga severa nesses caminhos enquanto outros permanecem subutilizados. Essa distribuição desbalanceada de tráfego torna os métodos tradicionais de balanceamento de carga baseados em ECMP ineficazes, impactando assim a eficiência geral do treinamento.

Problemas de alta latência e jitter

Os aplicativos Ethernet tradicionais dependem da programação de soquete TCP/IP, onde a CPU deve copiar dados do usuário do espaço do usuário para o espaço do kernel, depois do espaço do kernel para o driver da placa de rede para processamento e transmissão para o receptor. Esse processo aumenta a latência e adiciona carga de trabalho da CPU. Para resolver esses problemas, os clusters de computação de IA modernos usam redes sem perdas que suportam a tecnologia Remote Direct Memory Access (RDMA), como InfiniBand ou RDMA over Converged Ethernet (RoCE). Essas tecnologias reduzem significativamente a latência da transmissão de dados do aplicativo ignorando o kernel (desvio do kernel) e usando mecanismos de cópia zero.

Em cenários de treinamento de IA, tecnologias como GPU Direct RDMA e GPU Direct Storage permitem a troca direta de dados entre a memória da GPU ou entre a memória da GPU e o armazenamento via RDMA. Isso reduz a latência de transmissão de dados da memória da GPU para um décimo do original. Além disso, a NVIDIA Collective Communications Library (NCCL) oferece suporte contínuo a interfaces RDMA, simplificando muito a transição de estruturas TCP para RDMA para aplicativos de IA.

Ao treinar grandes modelos com centenas de milhões de parâmetros, frequentemente desmontamos dados e modelos para processamento paralelo para aumentar a eficiência. Nesse processo, milhares de GPUs trabalham juntas em configurações complexas, multidimensionais, paralelas e de estrutura cruzada, trocando parâmetros continuamente e resumindo resultados computacionais. Garantir que cada etapa desse processo de treinamento paralelo distribuído seja eficiente e estável é essencial. Qualquer falha de GPU ou latência aumentada na comunicação nó a nó pode causar gargalos em todo o processo de treinamento. Essa latência aumentada não apenas estende o tempo geral de treinamento, mas também impacta negativamente a melhoria da velocidade (taxa de aceleração do treinamento) e os resultados finais. Portanto, o treinamento de IA requer redes com menor latência e melhor qualidade de link.

Problemas de controle de congestionamento de rede deficiente

No treinamento paralelo distribuído, picos de tráfego “incast”, onde várias fontes enviam dados para um único receptor, geralmente causam congestionamento na rede. A Ethernet tradicional segue um modelo de serviço de melhor esforço, dificultando evitar estouro de buffer e perda de pacotes, mesmo com boa qualidade de serviço (QoS) de ponta a ponta. Normalmente, os protocolos de camada superior usam mecanismos de retransmissão para mitigar os efeitos da perda de pacotes. Para Ethernet com suporte a RDMA, atingir perda zero de pacotes é crucial.

Para atingir esse objetivo, duas tecnologias-chave são amplamente adotadas: mecanismos de controle de fluxo hop-by-hop e mecanismos de controle de congestionamento para tráfego “incast”. Em redes RDMA over Converged Ethernet (RoCE), esses mecanismos são implementados como Priority Flow Control (PFC) e Data Center Quantized Congestion Control (DCQCN), respectivamente.

artigo:

Em cenários de treinamento de IA, embora o Priority Flow Control (PFC) e o Data Center Quantized Congestion Control (DCQCN) mitiguem o congestionamento da rede, eles ainda apresentam deficiências significativas. O PFC previne a perda de dados gerando contrapressão salto a salto, mas isso pode levar a árvores de congestionamento, bloqueio de cabeça de linha e loops de deadlock, afetando, em última análise, o desempenho geral da rede. O DCQCN depende da marcação ECN e das mensagens CNP para ajustar as taxas, mas sua indicação de congestionamento não é precisa, e os ajustes de taxa são lentos, incapazes de responder prontamente às condições dinâmicas da rede, limitando assim o rendimento. Ambos exigem ajustes e monitoramento manuais, aumentando os custos operacionais e a complexidade da manutenção, falhando em atender às rigorosas demandas por redes de alto desempenho e baixa latência no treinamento de IA.

Como o NVIDIA Spectrum-X supera esses problemas

A solução Spectrum-X da NVIDIA se destaca entre vários fabricantes de rede ao abordar essas limitações tradicionais da Ethernet no treinamento de IA. De acordo com o recente white paper técnico, a principal vantagem da Spectrum-X está em sua tecnologia de roteamento adaptável, considerada seu recurso "matador". Essa tecnologia aborda diretamente a alocação desigual de largura de banda causada por mecanismos de distribuição de hash estáticos na Ethernet tradicional.

Ao integrar profundamente os recursos dos switches do lado da rede e DPUs (Data Processing Units) do lado do terminal, o Spectrum-X obtém monitoramento dinâmico em tempo real da largura de banda física de cada link e do status de congestionamento de saída de porta. Com base nesse monitoramento, o Spectrum-X pode implementar estratégias de distribuição de carga dinâmicas e finamente ajustadas para cada pacote de rede, melhorando significativamente o equilíbrio do link e a utilização efetiva da largura de banda dos tradicionais 50%-60% para mais de 97%. Essa melhoria elimina diretamente os problemas de latência de cauda longa causados ​​por “fluxos de elefantes” (fluxos de transmissão de dados em larga escala) em aplicativos de IA.

desempenho de roteamento adaptável

Conforme ilustrado, o ECMP tradicional pode levar a tempos de conclusão significativamente prolongados para fluxos de dados específicos devido à utilização desigual da largura de banda. Em contraste, o roteamento adaptável garante que todos os fluxos de dados sejam distribuídos uniformemente em vários links, encurtando e equilibrando significativamente os tempos de transmissão de cada fluxo de dados, reduzindo assim o ciclo geral de conclusão da tarefa de treinamento. Notavelmente, em padrões de comunicação coletiva comuns em cenários de treinamento de IA, como all-reduce e all-to-all, o Spectrum-X apresenta vantagens significativas de desempenho sobre a Ethernet tradicional devido às suas capacidades superiores de utilização da largura de banda do link.

Direct Data Placement (DDP): Solução revolucionária para desafios de remontagem fora de ordem

Embora as estratégias de balanceamento de carga por pacote melhorem significativamente a eficiência da utilização da largura de banda e tenham se tornado uma solução muito procurada, o principal desafio que elas trazem é a remontagem de pacotes fora de ordem na extremidade receptora. Esse problema tem sido difícil para a indústria superar. Os métodos tradicionais dependem de processamento do lado da rede ou de soluções do lado do terminal, mas ambos são limitados por gargalos de desempenho de software e hardware, levando a resultados abaixo do ideal.

O Spectrum-X, com sua inovadora integração profunda do lado da rede do switch Spectrum-4 e do hardware do lado do terminal BlueField-3, aborda esse desafio de forma elegante. Aqui está uma explicação detalhada do fluxo de processamento DDP em um cenário RoCE (RDMA over Converged Ethernet):

RoCE (RDMA sobre Ethernet Convergente)

No lado esquerdo, o tráfego de treinamento originado de diferentes memórias de GPU é primeiro especialmente marcado por seus respectivos NICs BlueField-3 de envio. Esses pacotes marcados são então enviados para os switches Spectrum-4 Top of Rack (TOR) conectados diretamente. Os switches TOR, utilizando seus poderosos recursos de hardware, identificam rapidamente os pacotes marcados BlueField-3 e, com base no status da largura de banda em tempo real e nas condições de buffer do uplink, distribuem de forma inteligente os pacotes de cada fluxo de dados em quatro caminhos de uplink para quatro switches spine, usando algoritmos de roteamento dinâmico por pacote.

Topo do Rack (TOR)

À medida que esses pacotes atravessam seus respectivos switches spine, eles eventualmente alcançam o switch TOR de destino e são transmitidos para o BlueField-3 NIC do servidor de destino. Devido aos diferentes caminhos de transmissão e variações de desempenho do equipamento, os pacotes podem chegar ao BlueField-3 NIC de destino fora de ordem. O BlueField-3 NIC de destino, utilizando sua tecnologia DDP integrada, identifica rapidamente os pacotes marcados com BlueField-3 e lê diretamente os endereços de memória do pacote, colocando os pacotes precisamente na memória da GPU de destino. Posteriormente, a tecnologia DDP integra ainda mais esses pacotes fora de ordem, garantindo que eles sejam combinados em um fluxo de dados completo na ordem correta, eliminando completamente os problemas de fora de ordem causados ​​por diferenças de caminho de rede e disparidades de desempenho do equipamento.

Campo Azul-3

Por meio da integração perfeita de roteamento dinâmico e tecnologias de aceleração de hardware DDP, o Spectrum-X não apenas resolve efetivamente os problemas de alocação de largura de banda desigual dos mecanismos Ethernet ECMP (Equal-Cost Multi-Path) tradicionais, mas também elimina fundamentalmente os fenômenos de latência de cauda longa causados ​​por pacotes fora de ordem. Isso fornece uma solução de transmissão de dados mais estável e eficiente para aplicativos de computação de alto desempenho, como treinamento de IA.

Isolamento de desempenho para multilocação de IA

Em um ecossistema de nuvem de IA altamente concorrente, as flutuações de desempenho do aplicativo e as incertezas de tempo de execução geralmente estão intimamente relacionadas ao congestionamento no nível da rede. Esse fenômeno não surge apenas das flutuações de tráfego de rede do próprio aplicativo, mas também pode ser induzido pelo tráfego de segundo plano de outros aplicativos concorrentes. Especificamente, o congestionamento “muitos para um” (várias fontes de dados enviando dados para um único receptor) se torna um gargalo de desempenho significativo, aumentando drasticamente a pressão de processamento no receptor.

Em um ambiente de rede RoCE coexistente multilocatário ou multitarefa, embora tecnologias como VXLAN possam atingir um certo grau de isolamento de host, o congestionamento de tráfego de locatário e os problemas de isolamento de desempenho continuam desafiadores. Um cenário comum é quando alguns aplicativos têm desempenho excelente em um ambiente físico bare-metal, mas veem uma queda significativa no desempenho depois de migrados para a nuvem.

Documento técnico do NVIDIA Spectrum-X

Por exemplo, suponha que a carga de trabalho A e a carga de trabalho B estejam sendo executadas simultaneamente no sistema. Quando ocorre congestionamento de rede e aciona mecanismos de controle de congestionamento, devido às informações limitadas transportadas pelo ECN, o remetente não pode determinar em qual nível de switch o congestionamento ocorreu ou sua extensão. Assim, ele não pode decidir com que rapidez aumentar ou diminuir a taxa de envio, muitas vezes contando com métodos heurísticos para convergir gradualmente. Esse tempo de convergência é longo e pode facilmente causar interferência entre tarefas. Além disso, os parâmetros de controle de congestionamento são numerosos, e switches e NICs exigem configurações de parâmetros muito detalhadas e complexas. Acionar mecanismos de controle de congestionamento muito rápido ou muito lentamente pode impactar significativamente o desempenho comercial do cliente.

Para lidar com esses desafios, o Spectrum-X, com sua poderosa função de controle de congestionamento programável na plataforma de hardware BlueField-3, apresenta uma solução avançada além do algoritmo DCQCN tradicional. O Spectrum-X obtém uma avaliação precisa das condições de congestionamento no caminho do tráfego por meio da colaboração próxima do hardware BlueField-3 nas extremidades do remetente e do destinatário, utilizando pacotes de sondagem RTT (Round Trip Time) e informações de telemetria em banda de switches intermediários. Essas informações incluem, mas não estão limitadas a, carimbos de data/hora de pacotes que passam por switches e taxas de utilização de buffer de saída, fornecendo uma base sólida para o controle de congestionamento.

DCQCN

Criticamente, os recursos de processamento de alto desempenho do hardware BlueField-3 permitem que ele manipule milhões de pacotes de Controle de Congestionamento (CC) por segundo, alcançando controle de congestionamento refinado com base em diferentes cargas de trabalho. Isso efetivamente alcança as metas de isolamento de desempenho. Sob esse mecanismo, a carga de trabalho A e a carga de trabalho B podem cada uma atingir seu desempenho esperado ideal sem serem afetadas negativamente pelo congestionamento de outros inquilinos.

Em resumo, com sua tecnologia de hardware inovadora e algoritmos inteligentes de controle de congestionamento, o Spectrum-X fornece uma solução de isolamento de desempenho eficiente e precisa para ambientes de nuvem multilocatários de IA, ajudando cada locatário a atingir desempenho comparável ao de um ambiente físico.

Composição do produto Spectrum-X

Switch SN5600: O switch SN5600 é um switch de caixa 2U avançado que integra o chip único Spectrum-4 de 51.2 Tbps, feito com o processo de 4 nm de ponta da TSMC e incorporando impressionantes 100 bilhões de transistores.

Composição do produto Spectrum-X

O switch é equipado com 64 portas OSFP de 800G e pode suportar com flexibilidade a expansão para 128 portas de 400G ou 256 portas de 200G, atendendo a diversas necessidades de rede. Sua taxa de encaminhamento de pacotes atinge 33.3 Bpps, com 512K entradas de tabela de encaminhamento e 160 MB de cache compartilhado global, garantindo o encaminhamento de taxa de linha mesmo para pacotes de 172 bytes. Além disso, o SN5600 é totalmente compatível com os principais sistemas operacionais, como Cumulus e Sonic, e sua funcionalidade evoluiu continuamente por meio da série Spectrum da geração 1 à 4, fornecendo aos usuários desempenho e flexibilidade de rede aprimorados.

BlueField-3 SuperNIC: O BlueField-3 SuperNIC é um novo acelerador de rede baseado na plataforma BlueField-3, projetado para alimentar cargas de trabalho de IA em larga escala. Desenvolvido especificamente para computação paralela em larga escala com uso intensivo de rede, ele fornece conectividade RDMA de até 400 Gb/s entre servidores GPU por Ethernet convergente, otimizando a eficiência máxima da carga de trabalho de IA. O BlueField-3 SuperNIC marca uma nova era na computação em nuvem de IA, fornecendo ambientes de data center multilocatários seguros e garantindo consistência de desempenho e isolamento entre trabalhos e locatários.

BlueField-3 SuperNIC

Notavelmente, sua poderosa estrutura de desenvolvimento de software DOCA 2.0 oferece soluções de software altamente personalizáveis, melhorando ainda mais a eficiência geral do sistema.

Cabos LinkX: A série de cabos LinkX foca em conectividade de alta velocidade de ponta a ponta 800G e 400G, utilizando tecnologia 100G PAM4. Suportando totalmente os padrões OSFP e QSFP112 MSA, ele cobre várias formas de módulos ópticos de DAC e ACC a multimodo e monomodo, atendendo a diversas necessidades de fiação. Esses cabos podem interagir perfeitamente com as portas OSFP 5600G do switch SN800, permitindo expansões de 1 para 2 de portas OSFP 400G, melhorando a flexibilidade e a eficiência da conexão de rede.

Resumo e estudo de caso

Spectrum-X, a solução pioneira global de Ethernet de IA da NVIDIA, integra tecnologias de hardware e software líderes do setor, visando remodelar o ecossistema de poder de computação de IA. Seus principais destaques incluem o switch de alto desempenho Spectrum-4 ASIC autodesenvolvido, NICs inteligentes DPU da série BlueField e cabos de módulo óptico LinkX usando a tecnologia Direct Drive. Esses componentes de hardware juntos constroem uma infraestrutura robusta.

Tecnologicamente, o Spectrum-X incorpora vários recursos inovadores, como mecanismos de roteamento dinâmico, tecnologia de correção de saída de ordem final, algoritmos de controle de congestionamento programáveis ​​de nova geração e a plataforma de aceleração de software de IA full-stack DOCA 2.0. Esses recursos não apenas otimizam o desempenho e a eficiência da rede, mas também melhoram significativamente a capacidade de resposta e os recursos de processamento de aplicativos de IA, criando uma base de computação eficiente e confiável para usuários no campo de IA generativa.

Esta solução altamente integrada visa preencher a lacuna entre Ethernet tradicional e InfiniBand, com foco em fornecer suporte de rede personalizado e de alto desempenho para o mercado de AI Cloud. Ela atende às rigorosas demandas de aplicativos de IA por alta largura de banda, baixa latência e expansão flexível, liderando as tendências da tecnologia Ethernet em direção à otimização de cenários específicos de IA e visando desenvolver e expandir este mercado emergente e promissor.

As vantagens técnicas do Spectrum-X são exemplificadas em seu caso de aplicação com o provedor francês de serviços de nuvem Scaleway. A Scaleway, fundada em 1999, oferece infraestrutura de alto desempenho e mais de 80 produtos e serviços de nuvem para mais de 25,000 clientes globais, incluindo Mistral AI, Aternos, Hugging Face e Golem.ai. A Scaleway fornece serviços de nuvem completos para desenvolver soluções inovadoras e ajudar os usuários a construir e dimensionar projetos de IA do zero.

Atualmente, a Scaleway está construindo uma nuvem regional de IA que oferece infraestrutura de GPU para treinamento, inferência e implantação de modelos de IA em larga escala. A adoção das GPUs Hopper da NVIDIA e da plataforma de rede Spectrum-X aumentou significativamente o poder de computação de IA, reduziu o tempo de treinamento de IA e acelerou o desenvolvimento, a implantação e o tempo de comercialização de soluções de IA, melhorando efetivamente o ROI. Os clientes da Scaleway podem escalar de algumas GPUs para milhares para atender a qualquer caso de uso de IA. O Spectrum-X não apenas fornece o desempenho e a segurança necessários para ambientes de IA multilocatários e multitarefas, mas também obtém isolamento de desempenho por meio de mecanismos como roteamento dinâmico, controle de congestionamento e buffers compartilhados globais. Além disso, o NetQ fornece visibilidade profunda da integridade da rede de IA com recursos como contadores de tráfego RoCE, eventos e alertas WJH (What Just Happened), permitindo a visualização, solução de problemas e validação da rede de IA. Com o suporte da NVIDIA Air e Cumulus Linux, a Scaleway pode integrar ambientes de rede nativos de API na cadeia de ferramentas DevOps, garantindo transições perfeitas da implantação para as operações.

Voltar ao Topo