NVIDIA Spectrum-X: plataforma de rede de aceleração de IA baseada em Ethernet

As cargas de trabalho de inteligência artificial são caracterizadas por um pequeno número de tarefas que lidam com grandes quantidades de transferência de dados entre GPUs, e a latência final pode ter um impacto significativo no desempenho geral do aplicativo. O uso de mecanismos tradicionais de roteamento de rede para lidar com esse padrão de tráfego pode resultar em desempenho inconsistente da GPU e baixa utilização de cargas de trabalho de IA.

NVIDIA Spectrum-X RoCE Dynamic Routing é uma tecnologia de balanceamento de carga refinado que ajusta dinamicamente o roteamento de dados RDMA para evitar congestionamento, combinado com a tecnologia DDP do BlueField 3, fornece balanceamento de carga ideal e atinge largura de banda de dados mais eficiente.

Visão geral da plataforma de rede Spectrum-X

A plataforma de rede NVIDIA® Spectrum™-X é a primeira plataforma Ethernet projetada para melhorar o desempenho e a eficiência de nuvens de IA baseadas em Ethernet. Esta tecnologia inovadora aumenta o desempenho da IA ​​e a eficiência energética em 1.7 vezes em cargas de trabalho de IA em grande escala semelhantes ao LLM e garante consistência e previsibilidade em ambientes multilocatários. O Spectrum-X é baseado em switches Ethernet Spectrum-4 e placas de rede NVIDIA BlueField®-3 DPU e é otimizado de ponta a ponta para cargas de trabalho de IA.

Principais tecnologias do Spectrum-X

Para suportar e acelerar cargas de trabalho de IA, o Spectrum-X fez uma série de otimizações de DPUs a switches, cabos/dispositivos ópticos, redes e software de aceleração, incluindo:

  • Roteamento adaptativo NVIDIA RoCE no Spectrum-4
  • Posicionamento direto de dados (DDP) NVIDIA no BlueField-3
  • Controle de congestionamento NVIDIA RoCE no Spectrum-4 e BlueField-3
  • Software de aceleração NVIDIA AI
  • Visibilidade completa da rede de IA

Principais benefícios do Spectrum-X

  • Melhore o desempenho da nuvem de IA: Spectrum-X aumenta o desempenho da nuvem de IA em 1.7 vezes.
  • Conectividade Ethernet padrão: O Spectrum-X está em total conformidade com os padrões Ethernet e é totalmente compatível com pilhas de tecnologia baseadas em Ethernet.
  • Melhore a eficiência energética: Ao melhorar o desempenho, o Spectrum-X contribui para um ambiente de IA com maior eficiência energética.
  • Proteção aprimorada para vários locatários: realize o isolamento do desempenho em ambientes multilocatários, garantindo um desempenho ideal e consistente para a carga de trabalho de cada locatário, aumentando a satisfação do cliente e a qualidade do serviço.
  • Melhor visibilidade da rede de IA: monitore o tráfego em execução na nuvem de IA para obter visibilidade, identifique gargalos de desempenho e seja um componente-chave de soluções modernas de validação de rede automatizada.
  • Maior escalabilidade de IA: suporte ao escalonamento para 128 portas 400G em um salto ou para portas de 8K em uma topologia de coluna de duas camadas, mantendo altos níveis de desempenho e suportando a expansão da nuvem de IA.
  • Configuração de rede mais rápida: configuração completa de recursos avançados de rede automatizada e totalmente otimizada para cargas de trabalho de IA.

Comutador Ethernet Spectrum-4

O switch Spectrum-4 é construído em um ASIC de 51.2 Tbps, suportando até 128 portas Ethernet 400G em um único switch 2U. Spectrum-4 é o primeiro switch Ethernet projetado para cargas de trabalho de IA. Para IA, o RoCE foi estendido:

  • Roteamento adaptativo RoCE
  • Isolamento de desempenho RoCE
  • Aprimoramento efetivo da largura de banda em Ethernet padrão de grande escala
  • Baixa latência, baixo jitter e latência de cauda curta
Switch NVIDIA 400G

NVIDIA Spectrum-4 400 Gigabits Ethernet Switch

DPU BlueField-3

O DPU NVIDIA BlueField-3 é o chip de infraestrutura de data center de terceira geração que permite às organizações construir infraestruturas de TI definidas por software e aceleradas por hardware, da nuvem ao data center central e até a borda. Com conectividade de rede Ethernet de 400 Gb/s, a DPU BlueField-3 pode offcarregar, acelerar e isolar funções de rede, armazenamento, segurança e gerenciamento definidas por software, melhorando significativamente o desempenho, a eficiência e a segurança dos data centers. O BlueField-3 fornece recursos de desempenho seguro e multilocatário para tráfego norte-sul e leste-oeste em data centers de IA em nuvem com tecnologia Spectrum-X.

SFP

NVIDIA BlueField-3 400 Gb/s DPU Ethernet

BlueField-3 foi desenvolvido para aceleração de IA, integrando um mecanismo completo para tecnologias de aceleração de IA, NVIDIA GPUDirect e NVIDIA Magnum IO GPUDirect Storage.

Além disso, ele também possui um modo de interface de rede (NIC) especial que aproveita a memória local para acelerar grandes nuvens de IA. Essas nuvens contêm um grande número de pares de filas que podem ser acessados ​​em endereços locais em vez de usar a memória do sistema. Por fim, inclui a tecnologia NVIDIA Direct Data Placement (DDP) para aprimorar o roteamento adaptativo RoCE.

Camada física ponta a ponta da NVIDIA (PHY)

Spectrum-X é a única plataforma de rede Ethernet construída no mesmo canal SerDes 100G, do switch ao DPU e à GPU, usando a tecnologia SerDes da NVIDIA.

O SerDes da NVIDIA garante excelente integridade de sinal e a menor taxa de erro de bit (BER), reduzindo significativamente o consumo de energia da nuvem de IA. Esta poderosa tecnologia SerDes, combinada com as GPUs Hopper da NVIDIA, Spectrum-4, BlueField-3 e portfólio de produtos Quantum InfiniBand, alcança o equilíbrio perfeito entre eficiência de energia e desempenho.

networking

Topologia de rede Spectrum-X típica

A tecnologia SerDes desempenha um papel importante na transmissão de dados moderna, pois pode converter dados paralelos em dados seriais e vice-versa.

Usar a tecnologia SerDes uniformemente em todos os dispositivos e componentes da rede ou sistema traz muitas vantagens:

Custo e eficiência energética: O SerDes usado pelo NVIDIA Spectrum-X é otimizado para alta eficiência energética e não requer caixas de engrenagens na rede, que são usadas para conectar diferentes taxas de dados. O uso de caixas de engrenagens não apenas aumenta a complexidade do caminho de dados, mas também acrescenta custos extras e consumo de energia. A eliminação da necessidade destas caixas de engrenagens reduz o investimento inicial e os custos operacionais associados à energia e à refrigeração.

Eficiência do projeto do sistema: O uso uniforme da melhor tecnologia SerDes na infraestrutura do data center proporciona melhor integridade do sinal, reduz a necessidade de componentes do sistema e simplifica o projeto do sistema. Ao mesmo tempo, usar a mesma tecnologia SerDes também facilita a operação e melhora a disponibilidade.

Software de aceleração NVIDIA

NetQ

NetQ

NVIDIA NetQ é um conjunto de ferramentas de operações de rede altamente escalável para visibilidade, solução de problemas e verificação de rede de IA em tempo real. A NetQ aproveita os dados de telemetria do switch NVIDIA e a telemetria NVIDIA DOCA para fornecer insights sobre a integridade do switch e DPU, integrando a rede ao sistema MLOps da organização.

Além disso, a telemetria de tráfego NetQ pode mapear os caminhos e comportamentos do fluxo nas portas do switch e nas filas RoCE, para analisar a situação do fluxo de aplicações específicas.

As amostras NetQ analisam e relatam a latência (máxima, mínima e média) e detalhes de ocupação do buffer em cada caminho de fluxo. A GUI do NetQ relata todos os caminhos possíveis, os detalhes de cada caminho e o comportamento do fluxo. Combinar a telemetria telemétrica com a telemetria de tráfego ajuda os operadores de rede a identificar proativamente as causas principais dos problemas de servidores e aplicativos.

Espectro SDK

O kit de desenvolvimento de software (SDK) do switch Ethernet NVIDIA oferece flexibilidade para implementar funcionalidades de comutação e roteamento, com programabilidade complexa que não afeta a taxa de pacotes, a largura de banda ou o desempenho de latência. Com o SDK, os OEMs de servidor e de rede e o sistema operacional de rede (NOS), os fornecedores podem aproveitar os recursos avançados de rede dos circuitos integrados (ICs) da série de switches Ethernet para criar soluções de comutação flexíveis, inovadoras e com custo otimizado.

Nvidia DOCA

NVIDIA DOCA é a chave para liberar o potencial da DPU NVIDIA BlueField, offcarregar, acelerar e isolar cargas de trabalho do data center. Com o DOCA, os desenvolvedores podem atender às crescentes demandas de desempenho e segurança dos data centers modernos, criando serviços definidos por software, nativos da nuvem e acelerados por DPU, com proteção de confiança zero.

Principais recursos do NVIDIA Spectrum-X

Princípio de funcionamento do roteamento dinâmico NVIDIA RoCE

O roteamento dinâmico RoCE funciona entre o switch Spectrum-4 e o DPU BlueField-3 de ponta a ponta:

  • O switch Spectrum-4 é responsável por selecionar cada pacote com base na porta de menor congestionamento e distribuir uniformemente a transmissão de dados. Quando diferentes pacotes do mesmo fluxo passam por diferentes caminhos da rede, eles podem chegar de forma desordenada ao destino.
  • A DPU BlueField-3 processa os dados na camada de transmissão RoCE para fornecer transparência contínua de dados aos aplicativos. O switch Spectrum-4 avalia a situação de congestionamento com base na carga da fila de saída e garante que todas as portas estejam equilibradas em termos de utilização. O switch seleciona uma fila de saída com a carga mais baixa para cada pacote de rede. O switch Spectrum-4 também recebe notificações de status de switches adjacentes, o que também pode afetar a decisão de encaminhamento. A avaliação envolve filas que correspondem às classes de tráfego. Portanto, o Spectrum-X pode atingir até 95% de largura de banda efetiva em sistemas de grande escala e cenários de alta carga.

2. Roteamento dinâmico NVIDIA RoCE e tecnologia de posicionamento direto de dados NVIDIA

A seguir, vamos dar um exemplo em nível de pacote de dados para mostrar como os fluxos de IA se movem na rede Spectrum-X.

Ele mostra o processo cooperativo entre o switch Spectrum-4 e o BlueField DPU no nível do pacote de dados.

Etapa 1: os dados se originam de um servidor ou memória GPU no lado esquerdo do gráfico e chegam a um servidor no lado direito.

Os dados se originam de um servidor ou memória GPU

Etapa 2: A DPU BlueField-3 agrupa os dados em pacotes de rede e os envia para o primeiro switch folha Spectrum-4 enquanto marca esses pacotes para que o switch possa executar o roteamento dinâmico RoCE para eles.

BlueField-3 DPU agrupa dados em pacotes de rede

Etapa 3: O switch leaf Spectrum-4 esquerdo aplica o roteamento dinâmico RoCE para equilibrar pacotes de dados de fluxos verdes e roxos e envia os pacotes de cada fluxo para vários switches de coluna. Isso aumenta a largura de banda efetiva do padrão Ethernet60% do Spectrum-X 95% (1.6 vezes).

O switch leaf Spectrum-4 esquerdo aplica roteamento dinâmico RoCE

Etapa 4: Esses pacotes podem chegar fora de ordem na DPU BlueField-3 no lado direito.

Esses pacotes podem chegar fora de ordem na DPU BlueField-3 no lado direito.

Etapa 5: Direita A DPU BlueField-3 usa a tecnologia NVIDIA Direct Data Placement (DDP) para colocar os dados na ordem correta na memória do host/GPU.

Right BlueField-3 DPU usa tecnologia NVIDIA Direct Data Placement (DDP)

Resultados de roteamento dinâmico RoCE

Para verificar a eficácia do roteamento dinâmico RoCE, usamos um programa de teste de gravação RDMA para realizar um teste inicial. No teste, dividimos o host em vários pares, e cada par enviou um grande número de fluxos de dados de gravação RDMA entre si por um determinado período de tempo.

O roteamento dinâmico RoCE pode reduzir o tempo de conclusão.

O roteamento dinâmico RoCE pode reduzir o tempo de conclusão.

Conforme mostrado na figura acima, com base no encaminhamento estático baseado em hash, a porta de uplink sofre conflitos, resultando em aumento do tempo de conclusão, redução da largura de banda e diminuição da justiça entre os fluxos. Mudar para o roteamento dinâmico resolve todos esses problemas.

No gráfico ECMP, alguns fluxos mostram largura de banda e tempo de conclusão semelhantes, enquanto outros apresentam conflitos, resultando em tempo de conclusão mais longo e largura de banda menor. Especificamente, no cenário ECMP, alguns fluxos têm um melhor tempo de conclusão T de 13 segundos, enquanto o fluxo mais lento leva 31 segundos para ser concluído, o que é cerca de 2.5 vezes mais que o tempo ideal T. No gráfico de roteamento dinâmico RoCE, todos os fluxos terminam quase ao mesmo tempo e têm larguras de banda de pico semelhantes.

Roteamento dinâmico RoCE para cargas de trabalho de IA

Para avaliar ainda mais o desempenho das cargas de trabalho RoCE com roteamento dinâmico, conduzimos benchmarks comuns de IA em uma plataforma de teste que consiste em 32 servidores em uma topologia de rede leaf-spine de duas camadas construída por quatro switches NVIDIA Spectrum. Esses benchmarks avaliaram operações de conjunto comum e padrões de tráfego de rede em cargas de trabalho de treinamento de IA distribuídas, como tráfego completo e operações de conjunto totalmente reduzido.

O roteamento dinâmico RoCE aprimora a redução total da IA

O roteamento dinâmico RoCE aprimora a redução total da IA

O roteamento dinâmico RoCE aprimora a IA de todos para todos

O roteamento dinâmico RoCE aprimora a IA de todos para todos

Resumo de roteamento dinâmico RoCE

Em muitos casos, o roteamento de fluxo baseado em hash baseado em ECMP pode causar alto congestionamento e tempo de conclusão instável dos fluxos, resultando na degradação do desempenho do aplicativo. O roteamento dinâmico Spectrum-X RoCE resolve esse problema. Esta tecnologia melhora o rendimento real da rede (goodput), ao mesmo tempo que minimiza ao máximo a instabilidade do tempo de conclusão dos fluxos, melhorando assim o desempenho da aplicação. Ao combinar o roteamento dinâmico RoCE com a tecnologia NVIDIA Direct Data Placement (DDP) na DPU BlueField-3, você pode obter suporte transparente para aplicativos.

Usando o controle de congestionamento NVIDIA RoCE para obter isolamento de desempenho

Devido ao congestionamento da rede, os aplicativos executados em sistemas de nuvem de IA podem sofrer degradação de desempenho e tempo de execução instável. Esse congestionamento pode ser causado pelo tráfego de rede do aplicativo ou pelo tráfego de rede em segundo plano de outros aplicativos. A principal causa desse congestionamento é o congestionamento multi-para-um, o que significa que há vários remetentes de dados e um receptor de dados.

O roteamento dinâmico RoCE não pode resolver este problema de congestionamento. Este problema requer a medição do tráfego de rede de cada terminal. O controle de congestionamento Spectrum-X RoCE é uma tecnologia ponto a ponto, onde o switch Spectrum-4 fornece informações de telemetria de rede para representar a situação de congestionamento em tempo real na rede. Essas informações de telemetria são processadas pela DPU BlueField-3, que gerencia e controla a taxa de injeção de dados dos remetentes para maximizar a eficiência da rede compartilhada. Se não houver controle de congestionamento, um cenário multi-para-um poderá causar sobrecarga de rede, propagação de congestionamento ou perda de pacotes, o que degradará gravemente o desempenho da rede e do aplicativo.

No processo de controle de congestionamento, o BlueField-3 DPU executa um algoritmo de controle de congestionamento, que pode processar dezenas de milhões de eventos de controle de congestionamento por segundo no nível de microssegundos e tomar decisões de taxa rápidas e refinadas. O switch Spectrum-4 fornece estimativa precisa de congestionamento com telemetria interna para estimativa precisa de taxa e indicador de utilização de porta para obter recuperação rápida. O controle de congestionamento da NVIDIA permite que os dados de telemetria contornem o atraso da fila de fluxos congestionados, ao mesmo tempo que fornece informações precisas de telemetria simultânea, reduzindo significativamente o tempo de detecção e resposta.

O exemplo a seguir mostra como uma rede sofreu congestionamento multi-para-um e como o Spectrum-X usou medição de tráfego e telemetria interna para controle de congestionamento RoCE.

um fluxo que é afetado pelo congestionamento da rede

O congestionamento da rede leva a fluxos perturbados

Esta figura mostra um fluxo afetado pelo congestionamento da rede. Quatro DPUs de origem estão enviando dados para duas DPUs de destino. As fontes 1, 2 e 3 enviam dados para o destino 1, usando a largura de banda do link disponível por três quintos. A fonte 4 envia dados para o destino 2 através de um switch leaf compartilhado com a fonte 3, fazendo com que o destino 2 receba largura de banda de link disponível por dois quintos.

Se não houver controle de congestionamento, as fontes 1, 2 e 3 causarão uma taxa de congestionamento de três para um porque todas enviam dados para o destino 1. Esse congestionamento causará contrapressão do switch folha conectado à origem 1 e ao destino 1. A origem 4 torna-se um fluxo congestionado cuja taxa de transferência no destino 2 cai para a largura de banda disponível em XNUMX% (desempenho esperado em XNUMX%). Isto afeta negativamente o desempenho das aplicações de IA que dependem do desempenho médio e do pior caso.

Spectrum-X resolve problema de congestionamento por medição de tráfego e telemetria

Spectrum-X resolve problemas de congestionamento por meio de medição de tráfego e telemetria

A figura mostra como o Spectrum-X resolveu o problema de congestionamento da Figura 14. Ela mostra o mesmo ambiente de teste: quatro DPUs de origem enviam dados para duas DPUs de destino. Nesta situação, a medição do tráfego das fontes 1, 2 e 3 evita que os switches leaf sofram congestionamento. Isso elimina a contrapressão na fonte 4, permitindo atingir a largura de banda esperada de dois quintos. Além disso, o Spectrum-4 usa informações de telemetria interna geradas pelo What Just Happened para reatribuir caminhos de fluxo e comportamentos de fila de forma dinâmica.

Isolamento de desempenho RoCE

A infraestrutura de nuvem de IA precisa dar suporte a um grande número de usuários (locatários) e aplicações ou cargas de trabalho paralelas. Esses usuários e aplicações competem por recursos compartilhados na infraestrutura, como a rede, o que pode afetar o seu desempenho.

Além disso, para otimizar o desempenho da rede da biblioteca de comunicação coletiva NVIDIA (NCCL) para aplicações de IA na nuvem, todas as cargas de trabalho executadas na nuvem precisam ser coordenadas e sincronizadas. As vantagens tradicionais da nuvem, como elasticidade e alta disponibilidade, têm um impacto limitado no desempenho dos aplicativos de IA, enquanto a degradação do desempenho é um problema global mais importante.

A plataforma Spectrum-X inclui vários mecanismos que podem alcançar isolamento de desempenho quando combinados. Garante que uma carga de trabalho não afete o desempenho de outra carga de trabalho. Esses mecanismos de qualidade de serviço garantem que nenhuma carga de trabalho cause congestionamento na rede, o que pode afetar a transmissão de dados de outras cargas de trabalho.

Ao usar o roteamento dinâmico RoCE, ele alcançou um balanceamento refinado do caminho de dados, evitando conflitos de fluxo de dados através do switch leaf e do switch de coluna, o que alcançou o isolamento de desempenho. Habilitando o controle de congestionamento RoCE com medição de tráfego e telemetria, melhorando ainda mais o isolamento de desempenho.

Além disso, o switch Spectrum-4 adota um design de buffer compartilhado global para promover o isolamento do desempenho. O buffer compartilhado fornece largura de banda justa para fluxos de tamanhos diferentes, protege as cargas de trabalho de serem afetadas por fluxos vizinhos barulhentos com o mesmo objetivo de porta de destino em cenários com vários fluxos direcionados à mesma porta de destino e absorve melhor as transmissões de curto prazo quando vários fluxos são direcionados. diferentes portas de destino.

Deixe um comentário

Voltar ao Topo