As cargas de trabalho de inteligência artificial são caracterizadas por um pequeno número de tarefas que lidam com grandes quantidades de transferência de dados entre GPUs, e a latência final pode ter um impacto significativo no desempenho geral do aplicativo. O uso de mecanismos tradicionais de roteamento de rede para lidar com esse padrão de tráfego pode resultar em desempenho inconsistente da GPU e baixa utilização de cargas de trabalho de IA.
NVIDIA Spectrum-X RoCE Dynamic Routing é uma tecnologia de balanceamento de carga refinado que ajusta dinamicamente o roteamento de dados RDMA para evitar congestionamento, combinado com a tecnologia DDP do BlueField 3, fornece balanceamento de carga ideal e atinge largura de banda de dados mais eficiente.
Visão geral da plataforma de rede Spectrum-X
A plataforma de rede NVIDIA® Spectrum™-X é a primeira plataforma Ethernet projetada para melhorar o desempenho e a eficiência de nuvens de IA baseadas em Ethernet. Esta tecnologia inovadora aumenta o desempenho da IA e a eficiência energética em 1.7 vezes em cargas de trabalho de IA em grande escala semelhantes ao LLM e garante consistência e previsibilidade em ambientes multilocatários. O Spectrum-X é baseado em switches Ethernet Spectrum-4 e placas de rede NVIDIA BlueField®-3 DPU e é otimizado de ponta a ponta para cargas de trabalho de IA.
Principais tecnologias do Spectrum-X
Para suportar e acelerar cargas de trabalho de IA, o Spectrum-X fez uma série de otimizações de DPUs a switches, cabos/dispositivos ópticos, redes e software de aceleração, incluindo:
- Roteamento adaptativo NVIDIA RoCE no Spectrum-4
- Posicionamento direto de dados (DDP) NVIDIA no BlueField-3
- Controle de congestionamento NVIDIA RoCE no Spectrum-4 e BlueField-3
- Software de aceleração NVIDIA AI
- Visibilidade completa da rede de IA
Principais benefícios do Spectrum-X
- Melhore o desempenho da nuvem de IA: Spectrum-X aumenta o desempenho da nuvem de IA em 1.7 vezes.
- Conectividade Ethernet padrão: O Spectrum-X está em total conformidade com os padrões Ethernet e é totalmente compatível com pilhas de tecnologia baseadas em Ethernet.
- Melhore a eficiência energética: Ao melhorar o desempenho, o Spectrum-X contribui para um ambiente de IA com maior eficiência energética.
- Proteção aprimorada para vários locatários: realize o isolamento do desempenho em ambientes multilocatários, garantindo um desempenho ideal e consistente para a carga de trabalho de cada locatário, aumentando a satisfação do cliente e a qualidade do serviço.
- Melhor visibilidade da rede de IA: monitore o tráfego em execução na nuvem de IA para obter visibilidade, identifique gargalos de desempenho e seja um componente-chave de soluções modernas de validação de rede automatizada.
- Maior escalabilidade de IA: suporte ao escalonamento para 128 portas 400G em um salto ou para portas de 8K em uma topologia de coluna de duas camadas, mantendo altos níveis de desempenho e suportando a expansão da nuvem de IA.
- Configuração de rede mais rápida: configuração completa de recursos avançados de rede automatizada e totalmente otimizada para cargas de trabalho de IA.
Comutador Ethernet Spectrum-4
O switch Spectrum-4 é construído em um ASIC de 51.2 Tbps, suportando até 128 portas Ethernet 400G em um único switch 2U. Spectrum-4 é o primeiro switch Ethernet projetado para cargas de trabalho de IA. Para IA, o RoCE foi estendido:
- Roteamento adaptativo RoCE
- Isolamento de desempenho RoCE
- Aprimoramento efetivo da largura de banda em Ethernet padrão de grande escala
- Baixa latência, baixo jitter e latência de cauda curta
NVIDIA Spectrum-4 400 Gigabits Ethernet Switch
DPU BlueField-3
O DPU NVIDIA BlueField-3 é o chip de infraestrutura de data center de terceira geração que permite às organizações construir infraestruturas de TI definidas por software e aceleradas por hardware, da nuvem ao data center central e até a borda. Com conectividade de rede Ethernet de 400 Gb/s, a DPU BlueField-3 pode offcarregar, acelerar e isolar funções de rede, armazenamento, segurança e gerenciamento definidas por software, melhorando significativamente o desempenho, a eficiência e a segurança dos data centers. O BlueField-3 fornece recursos de desempenho seguro e multilocatário para tráfego norte-sul e leste-oeste em data centers de IA em nuvem com tecnologia Spectrum-X.
NVIDIA BlueField-3 400 Gb/s DPU Ethernet
BlueField-3 foi desenvolvido para aceleração de IA, integrando um mecanismo completo para tecnologias de aceleração de IA, NVIDIA GPUDirect e NVIDIA Magnum IO GPUDirect Storage.
Além disso, ele também possui um modo de interface de rede (NIC) especial que aproveita a memória local para acelerar grandes nuvens de IA. Essas nuvens contêm um grande número de pares de filas que podem ser acessados em endereços locais em vez de usar a memória do sistema. Por fim, inclui a tecnologia NVIDIA Direct Data Placement (DDP) para aprimorar o roteamento adaptativo RoCE.
Camada física ponta a ponta da NVIDIA (PHY)
Spectrum-X é a única plataforma de rede Ethernet construída no mesmo canal SerDes 100G, do switch ao DPU e à GPU, usando a tecnologia SerDes da NVIDIA.
O SerDes da NVIDIA garante excelente integridade de sinal e a menor taxa de erro de bit (BER), reduzindo significativamente o consumo de energia da nuvem de IA. Esta poderosa tecnologia SerDes, combinada com as GPUs Hopper da NVIDIA, Spectrum-4, BlueField-3 e portfólio de produtos Quantum InfiniBand, alcança o equilíbrio perfeito entre eficiência de energia e desempenho.
Topologia de rede Spectrum-X típica
A tecnologia SerDes desempenha um papel importante na transmissão de dados moderna, pois pode converter dados paralelos em dados seriais e vice-versa.
Usar a tecnologia SerDes uniformemente em todos os dispositivos e componentes da rede ou sistema traz muitas vantagens:
Custo e eficiência energética: O SerDes usado pelo NVIDIA Spectrum-X é otimizado para alta eficiência energética e não requer caixas de engrenagens na rede, que são usadas para conectar diferentes taxas de dados. O uso de caixas de engrenagens não apenas aumenta a complexidade do caminho de dados, mas também acrescenta custos extras e consumo de energia. A eliminação da necessidade destas caixas de engrenagens reduz o investimento inicial e os custos operacionais associados à energia e à refrigeração.
Eficiência do projeto do sistema: O uso uniforme da melhor tecnologia SerDes na infraestrutura do data center proporciona melhor integridade do sinal, reduz a necessidade de componentes do sistema e simplifica o projeto do sistema. Ao mesmo tempo, usar a mesma tecnologia SerDes também facilita a operação e melhora a disponibilidade.
Software de aceleração NVIDIA
NetQ
NVIDIA NetQ é um conjunto de ferramentas de operações de rede altamente escalável para visibilidade, solução de problemas e verificação de rede de IA em tempo real. A NetQ aproveita os dados de telemetria do switch NVIDIA e a telemetria NVIDIA DOCA para fornecer insights sobre a integridade do switch e DPU, integrando a rede ao sistema MLOps da organização.
Além disso, a telemetria de tráfego NetQ pode mapear os caminhos e comportamentos do fluxo nas portas do switch e nas filas RoCE, para analisar a situação do fluxo de aplicações específicas.
As amostras NetQ analisam e relatam a latência (máxima, mínima e média) e detalhes de ocupação do buffer em cada caminho de fluxo. A GUI do NetQ relata todos os caminhos possíveis, os detalhes de cada caminho e o comportamento do fluxo. Combinar a telemetria telemétrica com a telemetria de tráfego ajuda os operadores de rede a identificar proativamente as causas principais dos problemas de servidores e aplicativos.
Espectro SDK
O kit de desenvolvimento de software (SDK) do switch Ethernet NVIDIA oferece flexibilidade para implementar funcionalidades de comutação e roteamento, com programabilidade complexa que não afeta a taxa de pacotes, a largura de banda ou o desempenho de latência. Com o SDK, os OEMs de servidor e de rede e o sistema operacional de rede (NOS), os fornecedores podem aproveitar os recursos avançados de rede dos circuitos integrados (ICs) da série de switches Ethernet para criar soluções de comutação flexíveis, inovadoras e com custo otimizado.
Nvidia DOCA
NVIDIA DOCA é a chave para liberar o potencial da DPU NVIDIA BlueField, offcarregar, acelerar e isolar cargas de trabalho do data center. Com o DOCA, os desenvolvedores podem atender às crescentes demandas de desempenho e segurança dos data centers modernos, criando serviços definidos por software, nativos da nuvem e acelerados por DPU, com proteção de confiança zero.
Principais recursos do NVIDIA Spectrum-X
Princípio de funcionamento do roteamento dinâmico NVIDIA RoCE
O roteamento dinâmico RoCE funciona entre o switch Spectrum-4 e o DPU BlueField-3 de ponta a ponta:
- O switch Spectrum-4 é responsável por selecionar cada pacote com base na porta de menor congestionamento e distribuir uniformemente a transmissão de dados. Quando diferentes pacotes do mesmo fluxo passam por diferentes caminhos da rede, eles podem chegar de forma desordenada ao destino.
- A DPU BlueField-3 processa os dados na camada de transmissão RoCE para fornecer transparência contínua de dados aos aplicativos. O switch Spectrum-4 avalia a situação de congestionamento com base na carga da fila de saída e garante que todas as portas estejam equilibradas em termos de utilização. O switch seleciona uma fila de saída com a carga mais baixa para cada pacote de rede. O switch Spectrum-4 também recebe notificações de status de switches adjacentes, o que também pode afetar a decisão de encaminhamento. A avaliação envolve filas que correspondem às classes de tráfego. Portanto, o Spectrum-X pode atingir até 95% de largura de banda efetiva em sistemas de grande escala e cenários de alta carga.
2. Roteamento dinâmico NVIDIA RoCE e tecnologia de posicionamento direto de dados NVIDIA
A seguir, vamos dar um exemplo em nível de pacote de dados para mostrar como os fluxos de IA se movem na rede Spectrum-X.
Ele mostra o processo cooperativo entre o switch Spectrum-4 e o BlueField DPU no nível do pacote de dados.
Etapa 1: os dados se originam de um servidor ou memória GPU no lado esquerdo do gráfico e chegam a um servidor no lado direito.
Etapa 2: A DPU BlueField-3 agrupa os dados em pacotes de rede e os envia para o primeiro switch folha Spectrum-4 enquanto marca esses pacotes para que o switch possa executar o roteamento dinâmico RoCE para eles.
Etapa 3: O switch leaf Spectrum-4 esquerdo aplica o roteamento dinâmico RoCE para equilibrar pacotes de dados de fluxos verdes e roxos e envia os pacotes de cada fluxo para vários switches de coluna. Isso aumenta a largura de banda efetiva do padrão Ethernet60% do Spectrum-X 95% (1.6 vezes).
Etapa 4: Esses pacotes podem chegar fora de ordem na DPU BlueField-3 no lado direito.
Etapa 5: Direita A DPU BlueField-3 usa a tecnologia NVIDIA Direct Data Placement (DDP) para colocar os dados na ordem correta na memória do host/GPU.
Resultados de roteamento dinâmico RoCE
Para verificar a eficácia do roteamento dinâmico RoCE, usamos um programa de teste de gravação RDMA para realizar um teste inicial. No teste, dividimos o host em vários pares, e cada par enviou um grande número de fluxos de dados de gravação RDMA entre si por um determinado período de tempo.
O roteamento dinâmico RoCE pode reduzir o tempo de conclusão.
Conforme mostrado na figura acima, com base no encaminhamento estático baseado em hash, a porta de uplink sofre conflitos, resultando em aumento do tempo de conclusão, redução da largura de banda e diminuição da justiça entre os fluxos. Mudar para o roteamento dinâmico resolve todos esses problemas.
No gráfico ECMP, alguns fluxos mostram largura de banda e tempo de conclusão semelhantes, enquanto outros apresentam conflitos, resultando em tempo de conclusão mais longo e largura de banda menor. Especificamente, no cenário ECMP, alguns fluxos têm um melhor tempo de conclusão T de 13 segundos, enquanto o fluxo mais lento leva 31 segundos para ser concluído, o que é cerca de 2.5 vezes mais que o tempo ideal T. No gráfico de roteamento dinâmico RoCE, todos os fluxos terminam quase ao mesmo tempo e têm larguras de banda de pico semelhantes.
Roteamento dinâmico RoCE para cargas de trabalho de IA
Para avaliar ainda mais o desempenho das cargas de trabalho RoCE com roteamento dinâmico, conduzimos benchmarks comuns de IA em uma plataforma de teste que consiste em 32 servidores em uma topologia de rede leaf-spine de duas camadas construída por quatro switches NVIDIA Spectrum. Esses benchmarks avaliaram operações de conjunto comum e padrões de tráfego de rede em cargas de trabalho de treinamento de IA distribuídas, como tráfego completo e operações de conjunto totalmente reduzido.
O roteamento dinâmico RoCE aprimora a redução total da IA
O roteamento dinâmico RoCE aprimora a IA de todos para todos
Resumo de roteamento dinâmico RoCE
Em muitos casos, o roteamento de fluxo baseado em hash baseado em ECMP pode causar alto congestionamento e tempo de conclusão instável dos fluxos, resultando na degradação do desempenho do aplicativo. O roteamento dinâmico Spectrum-X RoCE resolve esse problema. Esta tecnologia melhora o rendimento real da rede (goodput), ao mesmo tempo que minimiza ao máximo a instabilidade do tempo de conclusão dos fluxos, melhorando assim o desempenho da aplicação. Ao combinar o roteamento dinâmico RoCE com a tecnologia NVIDIA Direct Data Placement (DDP) na DPU BlueField-3, você pode obter suporte transparente para aplicativos.
Usando o controle de congestionamento NVIDIA RoCE para obter isolamento de desempenho
Devido ao congestionamento da rede, os aplicativos executados em sistemas de nuvem de IA podem sofrer degradação de desempenho e tempo de execução instável. Esse congestionamento pode ser causado pelo tráfego de rede do aplicativo ou pelo tráfego de rede em segundo plano de outros aplicativos. A principal causa desse congestionamento é o congestionamento multi-para-um, o que significa que há vários remetentes de dados e um receptor de dados.
O roteamento dinâmico RoCE não pode resolver este problema de congestionamento. Este problema requer a medição do tráfego de rede de cada terminal. O controle de congestionamento Spectrum-X RoCE é uma tecnologia ponto a ponto, onde o switch Spectrum-4 fornece informações de telemetria de rede para representar a situação de congestionamento em tempo real na rede. Essas informações de telemetria são processadas pela DPU BlueField-3, que gerencia e controla a taxa de injeção de dados dos remetentes para maximizar a eficiência da rede compartilhada. Se não houver controle de congestionamento, um cenário multi-para-um poderá causar sobrecarga de rede, propagação de congestionamento ou perda de pacotes, o que degradará gravemente o desempenho da rede e do aplicativo.
No processo de controle de congestionamento, o BlueField-3 DPU executa um algoritmo de controle de congestionamento, que pode processar dezenas de milhões de eventos de controle de congestionamento por segundo no nível de microssegundos e tomar decisões de taxa rápidas e refinadas. O switch Spectrum-4 fornece estimativa precisa de congestionamento com telemetria interna para estimativa precisa de taxa e indicador de utilização de porta para obter recuperação rápida. O controle de congestionamento da NVIDIA permite que os dados de telemetria contornem o atraso da fila de fluxos congestionados, ao mesmo tempo que fornece informações precisas de telemetria simultânea, reduzindo significativamente o tempo de detecção e resposta.
O exemplo a seguir mostra como uma rede sofreu congestionamento multi-para-um e como o Spectrum-X usou medição de tráfego e telemetria interna para controle de congestionamento RoCE.
O congestionamento da rede leva a fluxos perturbados
Esta figura mostra um fluxo afetado pelo congestionamento da rede. Quatro DPUs de origem estão enviando dados para duas DPUs de destino. As fontes 1, 2 e 3 enviam dados para o destino 1, usando a largura de banda do link disponível por três quintos. A fonte 4 envia dados para o destino 2 através de um switch leaf compartilhado com a fonte 3, fazendo com que o destino 2 receba largura de banda de link disponível por dois quintos.
Se não houver controle de congestionamento, as fontes 1, 2 e 3 causarão uma taxa de congestionamento de três para um porque todas enviam dados para o destino 1. Esse congestionamento causará contrapressão do switch folha conectado à origem 1 e ao destino 1. A origem 4 torna-se um fluxo congestionado cuja taxa de transferência no destino 2 cai para a largura de banda disponível em XNUMX% (desempenho esperado em XNUMX%). Isto afeta negativamente o desempenho das aplicações de IA que dependem do desempenho médio e do pior caso.
Spectrum-X resolve problemas de congestionamento por meio de medição de tráfego e telemetria
A figura mostra como o Spectrum-X resolveu o problema de congestionamento da Figura 14. Ela mostra o mesmo ambiente de teste: quatro DPUs de origem enviam dados para duas DPUs de destino. Nesta situação, a medição do tráfego das fontes 1, 2 e 3 evita que os switches leaf sofram congestionamento. Isso elimina a contrapressão na fonte 4, permitindo atingir a largura de banda esperada de dois quintos. Além disso, o Spectrum-4 usa informações de telemetria interna geradas pelo What Just Happened para reatribuir caminhos de fluxo e comportamentos de fila de forma dinâmica.
Isolamento de desempenho RoCE
A infraestrutura de nuvem de IA precisa dar suporte a um grande número de usuários (locatários) e aplicações ou cargas de trabalho paralelas. Esses usuários e aplicações competem por recursos compartilhados na infraestrutura, como a rede, o que pode afetar o seu desempenho.
Além disso, para otimizar o desempenho da rede da biblioteca de comunicação coletiva NVIDIA (NCCL) para aplicações de IA na nuvem, todas as cargas de trabalho executadas na nuvem precisam ser coordenadas e sincronizadas. As vantagens tradicionais da nuvem, como elasticidade e alta disponibilidade, têm um impacto limitado no desempenho dos aplicativos de IA, enquanto a degradação do desempenho é um problema global mais importante.
A plataforma Spectrum-X inclui vários mecanismos que podem alcançar isolamento de desempenho quando combinados. Garante que uma carga de trabalho não afete o desempenho de outra carga de trabalho. Esses mecanismos de qualidade de serviço garantem que nenhuma carga de trabalho cause congestionamento na rede, o que pode afetar a transmissão de dados de outras cargas de trabalho.
Ao usar o roteamento dinâmico RoCE, ele alcançou um balanceamento refinado do caminho de dados, evitando conflitos de fluxo de dados através do switch leaf e do switch de coluna, o que alcançou o isolamento de desempenho. Habilitando o controle de congestionamento RoCE com medição de tráfego e telemetria, melhorando ainda mais o isolamento de desempenho.
Além disso, o switch Spectrum-4 adota um design de buffer compartilhado global para promover o isolamento do desempenho. O buffer compartilhado fornece largura de banda justa para fluxos de tamanhos diferentes, protege as cargas de trabalho de serem afetadas por fluxos vizinhos barulhentos com o mesmo objetivo de porta de destino em cenários com vários fluxos direcionados à mesma porta de destino e absorve melhor as transmissões de curto prazo quando vários fluxos são direcionados. diferentes portas de destino.
Produtos relacionados:
- OSFP-400G-FR4 400G FR4 OSFP PAM4 CWDM4 2 km LC SMF FEC Módulo Transceptor Óptico $900.00
- Módulo Transceptor Óptico OSFP-400G-DR4+ 400G OSFP DR4+ 1310nm MPO-12 2km SMF $879.00
- Módulo transceptor óptico OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10 km SMF $1199.00
- OSFP-400G-SR4-FLT 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $1100.00
- QSFP-DD-400G-LR4 400G QSFP-DD LR4 PAM4 CWDM4 Módulo transceptor óptico SMF FEC LC 10km $1000.00
- QSFP-DD-400G-SR4.2 400Gb/s QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 FEC Módulo Transceptor Óptico $1000.00
- QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310nm 500m MTP/MPO-12 com módulo transceptor óptico KP4 FEC $1350.00
- QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2km Duplex LC SMF FEC Módulo Transceptor Óptico $1760.00
- QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC Módulo Transceptor Óptico $990.00
- QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMF FEC Módulo transceptor óptico $550.00
- QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3 Módulo transceptor óptico FEC $300.00
- QSFP-DD-800G-DR8 800G-DR8 QSFP-DD PAM4 1310nm 500m DOM MTP/MPO-16 Módulo Transceptor Óptico SMF $4500.00
- OSFP-800G-SR8 OSFP 8x100G SR8 PAM4 850nm MTP/MPO-16 100m OM4 MMF FEC Módulo transceptor óptico $1600.00
- QSFP-DD-800G-DR8D QSFP-DD 8x100G DR PAM4 1310nm 500m DOM Módulo Transceptor Ótico MPO-12 SMF Duplo $4500.00
- Placa de interface de rede NVIDIA MCX623106AN-CDAT SmartNIC ConnectX®-6 Dx EN, QSFP100 de porta dupla de 56 GbE, PCIe4.0 x 16, suporte alto e curto $1200.00
- Placa de interface de rede NVIDIA Mellanox MCX516A-CCAT SmartNIC ConnectX®-5 EN, porta dupla 100 GbE QSFP28, PCIe3.0 x 16, suporte alto e curto $985.00