Como escolher entre InfiniBand e RoCE

Largura de banda ultra-alta, latência ultrabaixa e confiabilidade ultra-alta são os requisitos de rede para treinamento de modelos grandes.

Por muitos anos, o protocolo TCP/IP tem sido o pilar da comunicação pela Internet, mas para redes de IA, o TCP/IP tem algumas desvantagens fatais. O protocolo TCP/IP tem alta latência, geralmente em torno de dezenas de microssegundos, e também causa grande carga de CPU. O RDMA pode acessar diretamente os dados da memória através da interface de rede, sem a intervenção do kernel do sistema operacional. Isso permite comunicação de rede de alto rendimento e baixa latência, especialmente adequada para uso em clusters de computadores paralelos de grande escala.

InfiniBand, RoCEv1, RoCEv2 e iWARP são as quatro implementações da tecnologia RDMA. No entanto, o RoCEv1 não é mais usado e o iWARP é incomum. As soluções de rede predominantes na indústria são InfiniBand e RoCEv2.

Pilha de protocolo RDMA

Quais são os requisitos de rede para cargas de trabalho de HPC/AI?

A maioria dos data centers hoje usa uma arquitetura de rede de duas camadas, enquanto os clusters de IA são supercomputadores construídos para executar tarefas complexas de IA em grande escala. As cargas de trabalho do computador são executadas em paralelo em várias GPUs, exigindo alta utilização. Portanto, em comparação com as redes tradicionais de data centers, as redes de data centers de IA enfrentam complexidade adicional:

  • Computação paralela: as cargas de trabalho de IA são uma infraestrutura unificada de múltiplas máquinas executando a mesma tarefa de aplicação/computação;
  • Escala: A escala das tarefas de HPC/IA pode atingir milhares de mecanismos de computação (como GPUs, CPUs, FPGAs, etc.);
  • Tipos de tarefas: diferentes tarefas variam em tamanho, duração de execução, tamanho e quantidade do conjunto de dados a serem considerados, tipo de resposta a ser gerada e diferentes linguagens usadas para codificar o aplicativo e o tipo de hardware em que ele é executado, o que causa os padrões de tráfego dentro do rede construída para executar cargas de trabalho de HPC/AI em constante mudança;
  • Sem perdas: em data centers tradicionais, as mensagens perdidas são retransmitidas, enquanto nas cargas de trabalho de IA, as mensagens perdidas significam que toda a computação está errada ou travada. Portanto, os data centers de IA precisam de uma rede sem perdas.
  • Largura de banda: O tráfego de alta largura de banda precisa ser executado entre servidores para que os aplicativos possam acessar os dados. Em implantações modernas, a velocidade da interface de cada mecanismo de computação para IA ou outros recursos de computação de alto desempenho chega a 400 Gbps.

Essas complexidades representam desafios significativos para as redes de IA, portanto as redes de data centers de IA precisam ter alta largura de banda, baixa latência, sem instabilidade, sem perda de pacotes e estabilidade a longo prazo.

Do TCP/IP ao RDMA

Para aplicações como HPC/AI que exigem baixa latência e alta simultaneidade de E/S, o software TCP/IP existente e a arquitetura de hardware não podem atender aos requisitos da aplicação. A comunicação de rede TCP/IP tradicional usa o kernel para enviar mensagens, que possui alta movimentação de dados e sobrecarga de cópia de dados. Por exemplo, em uma transferência de dados IP típica, quando um aplicativo em um computador envia dados para um aplicativo em outro computador, as seguintes operações ocorrem no terminal receptor:

  1. O kernel deve receber os dados.
  2. O kernel deve determinar a qual aplicativo os dados pertencem.
  3. O kernel ativa o aplicativo.
  4. O kernel espera que o aplicativo execute uma chamada de sistema no kernel.
  5. O aplicativo copia os dados do espaço de memória do kernel para o buffer fornecido pelo aplicativo.

Esse processo significa que se o adaptador host usar acesso direto à memória (DMA), a maior parte do tráfego de rede será copiada para a memória principal do sistema. Além disso, o computador realiza algumas trocas de contexto para alternar entre o kernel e o aplicativo. Essas mudanças de contexto podem causar maior carga de CPU e alto tráfego, ao mesmo tempo em que tornam outras tarefas mais lentas.

Transmissão TCP-IP

Transmissão TCP/IP

Ao contrário da comunicação IP tradicional, a comunicação RDMA ignora a intervenção do kernel no processo de comunicação, permitindo que o host acesse diretamente a memória de outro host, reduzindo a sobrecarga da CPU. O protocolo RDMA permite que o adaptador host decida qual aplicativo deve recebê-lo e onde armazená-lo no espaço de memória desse aplicativo após o pacote entrar na rede. O adaptador host não envia o pacote ao kernel para processamento e o copia para a memória do aplicativo do usuário, mas coloca diretamente o conteúdo do pacote no buffer do aplicativo.

Transmissão RDMA

Transmissão RDMA

A transmissão RDMA reduz o número de ciclos de CPU envolvidos, o que ajuda a melhorar o rendimento e o desempenho. Em outras palavras, a essência do RDMA é que, para cenários de computação e armazenamento distribuídos em larga escala, ele permite que a placa de rede contorne a CPU e acesse diretamente a memória do servidor remoto, acelerando a interação entre servidores, reduzindo a latência e usando os preciosos recursos da CPU para computação de alto valor e controle lógico.

Em comparação com as redes TCP/IP tradicionais, o InfiniBand e o RoCEv2 ignoram a pilha de protocolos do kernel e o desempenho da latência pode ser melhorado em várias ordens de magnitude. Quando a comunicação dentro do mesmo cluster pode ser alcançada em um único salto, testes experimentais mostram que, após ignorar a pilha de protocolos do kernel, a latência ponta a ponta na camada de aplicação pode ser reduzida de 50us (TCP/IP) para 5us (RoCE). ) ou 2us (InfiniBand).

latência de comunicação ponta a ponta de diferentes tecnologias

Uma introdução às redes InfiniBand

As redes InfiniBand usam adaptadores ou switches InfiniBand em vez de Ethernet para obter transmissão de dados. A latência porta a porta de um tipo específico de switch Ethernet é de 230 ns, enquanto a latência de um switch InfiniBand com o mesmo número de portas é de 100 ns.

Redes InfiniBand

Os principais componentes de uma rede InfiniBand incluem um gerenciador de sub-rede (SM), uma placa de rede IB, um switch IB e um cabo IB. Os switches InfiniBand não executam nenhum protocolo de roteamento e as tabelas de encaminhamento de toda a rede são calculadas e distribuídas por um gerenciador de sub-rede centralizado. Além de encaminhar tabelas, o SM também é responsável por gerenciar partições, QoS e outras configurações na sub-rede InfiniBand. As redes InfiniBand requerem cabos e módulos ópticos dedicados para interconectar switches e conectar switches a placas de rede.

Rede local sem perdas

As redes InfiniBand usam um mecanismo de token de crédito para evitar fundamentalmente o buffer overflow e a perda de pacotes. O remetente só inicia a transmissão do pacote após confirmar que o destinatário possui créditos suficientes para aceitar o número correspondente de pacotes.

Cada link da rede InfiniBand possui um buffer predeterminado. O remetente não transmite dados que excedam o tamanho do buffer predeterminado disponível no destinatário. Depois que o receptor conclui o encaminhamento, ele libera o buffer e retorna continuamente o tamanho do buffer predeterminado disponível atualmente para o remetente. Esse mecanismo de controle de fluxo no nível do link garante que o remetente não envie muitos dados, evitando o estouro do buffer da rede e a perda de pacotes.

diagrama de transmissão de dados sem perdas na rede InfiniBand

Capacidade de expansão de placa de rede

O roteamento adaptativo do InfiniBand é baseado no roteamento dinâmico por pacote, garantindo a utilização ideal da rede em implantações em larga escala. Existem muitos exemplos de clusters de GPU em grande escala usando redes InfiniBand, como Baidu Artificial Intelligence Cloud e Microsoft Azure.

As placas de rede InfiniBand têm evoluído rapidamente em termos de velocidade, com HDR de 200 Gbps já amplamente implantado comercialmente e placas de rede NDR de 400 Gbps também começando a ser implantadas comercialmente. Atualmente, existem grandes soluções de rede InfiniBand e fornecedores de equipamentos de suporte no mercado, como NVIDIA, Intel, Cisco e HPE. Entre eles, a NVIDIA detém a maior participação de mercado, ultrapassando 70%. A figura a seguir mostra o comumente usado Placas de rede InfiniBand.

Capacidade de expansão de placa de rede

Uma introdução às redes RoCEv2

RoCE implementa funcionalidade RDMA sobre Ethernet, que pode ignorar TCP/IP e usar hardware offcarregamento, reduzindo assim a utilização da CPU. RoCE tem duas versões principais: RoCEv1 e RoCEv2. RoCEv1 é um protocolo RDMA implementado na camada de link Ethernet. Os switches precisam suportar técnicas de controle de fluxo, como o PFC, para garantir uma transmissão confiável na camada física. RoCEv2 é implementado na camada UDP do protocolo Ethernet TCP/IP e introduz o protocolo IP para resolver problemas de escalabilidade.

RoCEv2 suporta roteamento RDMA em redes Ethernet de camada 3. O RoCEv2 substitui a camada de rede InfiniBand por cabeçalhos IP e UDP na camada de link Ethernet, o que possibilita rotear o RoCE entre roteadores tradicionais baseados em IP.

As redes InfiniBand são, até certo ponto, redes gerenciadas centralmente com SM (gerenciador de sub-rede), enquanto as redes RoCEv2 são redes distribuídas puras compostas por NICs e switches que suportam RoCEv1, geralmente adotando uma arquitetura de duas camadas.

diagrama da arquitetura de rede RoCE

Os principais fornecedores de placas de rede RoCE são NVIDIA, Intel e Broadcom, etc. As placas PCIe são a principal forma de placas de rede para servidores de data center. A velocidade PHY da porta de RDM as placas geralmente começam em 50 Gbps, e as placas de rede comerciais atualmente disponíveis podem atingir até 400 Gbps de velocidade de porta única.

Placa de rede RoCE

Atualmente, a maioria dos switches de data center oferece suporte à tecnologia de controle de fluxo RDMA, que pode alcançar comunicação RDMA ponta a ponta quando combinada com placas de rede compatíveis com RoCE. Os principais players em switches de data center incluem Cisco, HPE, Arista, etc. O núcleo dos switches de alto desempenho é o chip de encaminhamento que eles usam. Atualmente no mercado, os chips da série Tomahawk da Broadcom são amplamente utilizados em chips de encaminhamento comercial. Entre eles, o chip da série Tomahawk3 é mais comumente usado em switches, e os switches que suportam o chip da série Tomahawk4 estão aumentando gradualmente no mercado.

evolução dos chips de encaminhamento Ethernet

InfiniBand x RoCE

Comparado ao InfiniBand, o RoCE tem maior versatilidade e custo relativamente menor. Ele pode ser usado não apenas para construir redes RDMA de alto desempenho, mas também para Ethernet tradicional. No entanto, configurar parâmetros como Headroom, PFC (Controle de Fluxo Baseado em Prioridade) e ECN (Notificação de Congestionamento Explícito) em switches pode ser complexo. Em implantações em larga escala, o desempenho geral da taxa de transferência das redes RoCE pode ser ligeiramente inferior ao das redes InfiniBand.

IB x RoCE
  • Do ponto de vista técnico, a InfiniBand adota diversas tecnologias para melhorar o desempenho do encaminhamento de rede, reduzir o tempo de recuperação de falhas, aumentar a escalabilidade e reduzir a complexidade operacional.
  • Em termos de desempenho comercial, o InfiniBand tem menor latência ponta a ponta do que o RoCEv2, portanto, as redes construídas no InfiniBand têm uma vantagem no desempenho comercial no nível do aplicativo.
  • Em termos de largura de banda e latência, fatores como congestionamento e roteamento afetam a interconexão de redes de alto desempenho.

Congestionamento

O InfiniBand usa duas mensagens de frame relay diferentes para controlar o congestionamento: Forward Explicit Congestion Notification (FECN) e Backward Explicit Congestion Notification (BECN). Quando a rede está congestionada, o FECN notifica o dispositivo receptor, enquanto o BECN notifica o dispositivo remetente. InfiniBand combina FECN e BECN com uma taxa de marcação adaptativa para reduzir o congestionamento. Ele fornece controle de congestionamento de granulação grossa.

O controle de congestionamento no RoCE usa Notificação de Congestionamento Explícito (ECN), que é uma extensão de IP e TCP que permite notificação de congestionamento de rede de endpoint sem descartar pacotes. ECN coloca uma marca no cabeçalho IP para informar ao remetente que há congestionamento. Para comunicação de congestionamento não-ECN, os pacotes perdidos precisam ser retransmitidos. ECN reduz a perda de pacotes causada pelo congestionamento da conexão TCP, evitando a retransmissão. Menos retransmissões podem reduzir a latência e o jitter, proporcionando assim melhor desempenho de transação e rendimento. O ECN também fornece controle de congestionamento de granulação grossa, que não tem nenhuma vantagem óbvia sobre o InfiniBand.

Roteamento

Quando há congestionamento na rede, o roteamento adaptativo envia os dispositivos por rotas alternativas para aliviar o congestionamento e acelerar a transmissão. RoCE v2 é executado em IP. O IP é roteável há décadas por meio de algoritmos de roteamento avançados e agora pode prever rotas congestionadas com aprendizado de máquina de IA e enviar pacotes automaticamente por rotas mais rápidas. Em termos de roteamento, Ethernet e RoCE v2 apresentam vantagens significativas.

No entanto, InfiniBand e RoCE não fazem muito para lidar com a latência final. A latência final é muito importante para a sincronização de aplicativos de mensagens HPC.

UEC planeja definir um novo protocolo de transporte

Além de InfiniBand e RoCE, outros protocolos foram propostos pela indústria.

No dia 19 de julho, o Ultra Ethernet Consortium (UEC) foi offoficialmente estabelecido. O objetivo da UEC é ir além dos recursos Ethernet existentes e fornecer uma camada de transporte de alto desempenho, distribuída e sem perdas, otimizada para computação de alto desempenho e inteligência artificial. Os membros fundadores da UEC incluem AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta e Microsoft, todos com décadas de experiência em redes, inteligência artificial, nuvem e implantações de computação de alto desempenho em larga escala.

membros fundadores

A UEC acredita que o RDMA, definido há décadas, está desatualizado no exigente tráfego de rede de IA/ML. O RDMA transfere dados em grandes blocos de tráfego, o que pode causar desequilíbrio e sobrecarga no link. É hora de começar a construir um protocolo de transporte moderno que suporte RDMA para aplicações emergentes.

É relatado que o protocolo de transporte UEC está em desenvolvimento, com o objetivo de fornecer melhor transporte Ethernet do que o RDMA atual (ainda suportando RDMA), mantendo as vantagens da Ethernet/IP e fornecendo o desempenho exigido pelas aplicações de IA e HPC. O transporte UEC é uma nova forma de camada próxima ao transporte que possui alguns ajustes semânticos, protocolo de notificação de congestionamento e recursos de segurança aprimorados. O UEC fornecerá um transporte mais flexível que não requer uma rede sem perdas, permitindo que cargas de trabalho de inteligência artificial muitos-para-muitos exijam transmissão de pacotes multicaminho e fora de ordem e outros recursos.

Mais poder empresarial

À medida que a rede HPC/IA continua a evoluir, cada vez mais empresas lançam os seus próprios protocolos ou soluções de rede para satisfazer as suas necessidades específicas.

A Tencent Cloud usa sua rede Starlink RDMA autodesenvolvida em sua rede Starlink, que permite que as GPUs se comuniquem diretamente entre si, economizando recursos da CPU e melhorando o desempenho geral e a eficiência dos nós de computação. Por meio de seu protocolo colaborativo de ponta a ponta autodesenvolvido TiTa, a rede Starlink pode atingir 90% de carga e 0 perda de pacotes. O protocolo TiTa incorpora um algoritmo de controle de congestionamento, que pode monitorar o status da rede em tempo real e otimizar a comunicação, tornando a transmissão de dados mais suave e a latência menor.

Alibaba Cloud Panjiu PredFabric usa seu protocolo de rede de alta velocidade Solar-RDMA autodesenvolvido, que permite aos processadores acessar a memória de qualquer outro servidor por meio de instruções de carregamento/armazenamento, o que é muito adequado para a forma interativa de redes neurais em modelos de aprendizado profundo . Comparado com o modo tradicional, o tempo de autocorreção da falha e a latência final podem ser reduzidos em 90%.

A rede hiperconvergente de data center da Huawei usa seu algoritmo inteligente sem perdas iLossless original, que coopera com três tecnologias principais de tecnologia de controle de tráfego, tecnologia de controle de congestionamento e tecnologia de rede de armazenamento inteligente sem perdas para evitar que o impasse PFC ocorra antecipadamente, aliviar/liberar o congestionamento, e obter controle rápido de hosts, construindo assim uma rede Ethernet sem perdas e resolvendo o problema de perda de pacotes de congestionamento em redes Ethernet tradicionais.

A crescente demanda do mercado é a força motriz fundamental para o desenvolvimento tecnológico. De acordo com dados da IDC, o investimento na construção de infraestruturas de IA atingirá 154 mil milhões de dólares americanos em 2023 e aumentará para 300 mil milhões de dólares americanos até 2026. Em 2022, o mercado de redes de IA atingiu 2 mil milhões de dólares americanos, dos quais a InfiniBand contribuiu com 75% da receita .

Ao comparar InfiniBand e RoCE, podemos ver que ambos têm suas próprias vantagens e cenários de aplicação. O InfiniBand tem um bom desempenho na área de computação de alto desempenho, proporcionando excelente desempenho, baixa latência e escalabilidade. RoCE é mais fácil de integrar na infraestrutura Ethernet existente e tem um custo menor. Os protocolos de transporte emergentes representados pela UEC também representam o desenvolvimento contínuo e a inovação da tecnologia. Somente adaptando-nos às novas necessidades poderemos manter a competitividade central.

Deixe um comentário

Voltar ao Topo