Ethernet ou Ethernet?

Uma pesquisa sobre as posições de rede de IA dos principais fornecedores Em julho de 2023, o Ultra Ethernet Consortium (UEC), iniciado pela Linux Foundation e sua Joint Development Foundation, foi offlançado oficialmente, lançando uma carga profunda no turbulento ecossistema de interconexão de redes de IA. Em agosto de 2023, no fórum internacional IEEE Hot Interconnects (HOTI), que se concentra em arquiteturas avançadas de hardware e software e várias implementações de redes de interconexão, representantes da Intel, Nvidia, AMD e outras empresas participaram de um painel de discussão sobre a questão de “ EtherNET ou EtherNOT”, e expressaram suas opiniões sobre Ethernet. As cargas de trabalho emergentes de IA/ML estão impulsionando a demanda por interconexão de rede de alto desempenho. Cerca de dez anos atrás, o RDMA sobre Ethernet Convergente (RoCE) introduziu a transmissão de dados de baixa latência na arquitetura Ethernet, mas em comparação com outras tecnologias de rede, a Ethernet parecia estar atrasada no desenvolvimento da tecnologia. A batalha entre EtherNET e EtherNOT voltará? Na era Ethernet, os fornecedores de nuvem, os fornecedores de equipamentos e outras partes têm seus interesses, e este é um período crítico para a tomada de decisões. Como eles vão escolher?

Este tópico “EtherNET ou EtherNOT” já foi discutido na conferência HOTI em 2005, e a conclusão na época foi a seguinte:

Ethernet ou EtherNOT

Na discussão da conferência HOTI 2023, Brad Burres, pesquisador sênior e arquiteto-chefe de hardware do Network and Edge Group da Intel, e Frank Helms, arquiteto de sistema GPU de data center da AMD, preferiram a Ethernet. Brad Burres argumentou que não importa qual tecnologia seja adotada, é necessário um ecossistema aberto para reduzir o custo de toda a indústria e alcançar a infraestrutura de software necessária. À medida que o protocolo amadurece, a Ethernet será a vencedora, a menos que surja imediatamente outra estrutura de padrão aberto (como o CXL). Frank Helms listou o primeiro, segundo e quinto lugares na lista global de supercomputadores TOP500, Frontier, Aurora e LUMI, respectivamente, todos baseados na estrutura de rede HPE Cray Slingshot-11 baseada em Ethernet para conexão. Ele acreditava que a Ethernet está na vanguarda da tecnologia de interconexão. O surgimento da UEC (Ultra Ethernet Alliance) também reflete que há uma grande demanda reprimida por Ethernet para interconexão de clusters de treinamento de IA em larga escala. Larry Dennison, diretor de pesquisa de rede da NVIDIA, acredita que ainda existe uma lacuna entre a Ethernet e o atendimento às necessidades das cargas de trabalho de IA. Se a Ethernet atende a todas essas necessidades, ainda é Ethernet? Quanto tempo isso pode ser alcançado? O mercado Ethernet é realmente enorme, não vai desaparecer, mas nos próximos anos a velocidade de desenvolvimento da Ethernet não será capaz de atender às necessidades deste mercado. Torsten Hoefler, professor da ETH Zurique e consultor da Microsoft na área de inteligência artificial e redes em grande escala, destacou que a Ethernet é o presente e o futuro dos data centers e supercomputadores, mas não a Ethernet da qual estamos falando agora, a Ethernet precisa evoluir.

Ecologia Aberta or Bloqueio do fornecedor?

Historicamente, InfiniBand e Ethernet têm competido pelo domínio do mercado de IA/HPC, pois ambos são padrões abertos. No entanto, uma diferença importante é que o InfiniBand é atualmente suportado pela Nvidia como um único fornecedor, enquanto a Ethernet desfruta de suporte de vários fornecedores, promovendo um ecossistema vibrante e competitivo. No entanto, mesmo no campo das soluções de rede AI/HPC, as soluções Ethernet podem vir com um rótulo “parcialmente personalizado”, o que pode levar à dependência do fornecedor.

Por exemplo, o switch Ethernet Jericho3 da Broadcom exige que toda a estrutura da rede use o mesmo chip do switch quando executado em seu modo de “estrutura totalmente programada” de alto desempenho. O switch Silicon One da Cisco e o switch Spectrum-X da Nvidia também têm situações semelhantes – requisitos de alto desempenho podem causar dependência do fornecedor. Algumas empresas de hiperescala projetaram NICs “personalizadas”, o que também pode levar a redes personalizadas. Portanto, mesmo ao escolher soluções Ethernet, é possível encontrar implementações personalizadas e dependência de fornecedor. As redes AI/HPC podem fazer a transição para um padrão de transporte novo, aberto e mais poderoso, substituindo parcial ou totalmente o protocolo ROCEv2 RDMA, que é a visão que a Beyond Ethernet Alliance está perseguindo.

Inventário de tecnologia de rede AI/ML

Como os fornecedores de hiperescala escolhem suas tecnologias de rede de IA/ML? É Ethernet ou EtherNOT?

Amazon AWS

A Amazon se inspirou no protocolo InfiniBand RD e lançou o protocolo de transporte Scalable Reliable Datagram (SRD) para redes HPC. A Amazon usa “exclusivamente” adaptadores de rede aprimorados (ENA), que são baseados em seu chip proprietário Nitro. O SRD usa UDP, oferece suporte à pulverização de pacotes em vários links e elimina o requisito de entrega de pacotes “em ordem”, reduzindo o congestionamento da malha e a latência final. Quando necessário, a reordenação dos pacotes é feita pela camada superior do SRD. A Amazon continua a buscar uma estratégia de rede nativa de IA/HPC e é provavelmente a menos cooperativa com a NVIDIA.

Google

O Google usa uma combinação de TPUs e GPUs da NVIDIA. TPUs e GPUs competem entre si e podem ser implantadas dependendo da adequação da carga de trabalho. É improvável que o Google use produtos InfiniBand em sua rede. A rede AI/ML do Google é relativamente personalizada e vem implantando uma arquitetura “coerente” NVLink semelhante há anos. O Google inovou muito na pilha de rede e implantou sistemas de comutação óptica (OCS) “nativos” – um switch de circuito baseado em sistemas microeletromecânicos (espelhos MEM) – em seus data centers regulares e data centers de inteligência artificial. Os switches ópticos normalmente eliminam uma camada de switches físicos, suportam configurações de base mais altas e reduzem o consumo de energia e a latência. Os switches ópticos “refletem” a luz e são independentes dos protocolos de rede e das atualizações dos switches de rede. A desvantagem é que o tempo de reconfiguração do espelho costuma ser longo, na faixa de dezenas de milissegundos, então esses switches OCS funcionam como “circuito” de capacidade fixa. Para redes de treino de inteligência artificial, este não é um problema importante, uma vez que os padrões de tráfego são previsíveis.

Microsoft

A Microsoft é a mais pragmática entre as empresas de hiperescala e adotou InfiniBand desde o início para construir redes de inteligência artificial para seu parceiro OpenAI. Embora a Microsoft tenha desenvolvido seu adaptador de rede personalizado e usado um protocolo RDMA personalizado para a nuvem Azure, sua abertura ao InfiniBand, a adoção da solução full-stack AI/ML da NVIDIA e a estreita colaboração com OpenAI fazem dela o cliente preferencial da NVIDIA. A Microsoft adquiriu a Fungible, que inventou o True Fabric – um protocolo de datagrama confiável baseado em UDP que lida com tráfego, congestionamento e controle de erros, além de otimizar a latência final. Algumas das inovações tecnológicas do Fungible podem aparecer em futuros produtos e contribuições de código aberto da Microsoft.

Meta

Meta é um azarão na competição de IA, com seu programa de inteligência artificial tendo os seguintes recursos excepcionais:

  • Ele adota uma abordagem de código aberto usando modelos fundamentais como o Llama.
  • Torna a IA fácil de usar e acessível a todos os engenheiros de software por meio da estrutura/ecossistema de software PyTorch.
  • Ele estabelece a comunidade do Open Compute Project como um pilar fundamental da inovação de hardware aberto.
  • Ela implanta clusters de GPU em grande escala e permanece na vanguarda da inovação em IA com seu sistema de recomendação (modelo DLRM).

Os modelos básicos de IA da Meta e o ecossistema PyTorch permitem uma enorme biblioteca de inovação de IA de código aberto, implantam clusters de AI/ML baseados em Ethernet e InfiniBand e criam ASICs para seu modelo DLRM e transcodificação de vídeo.

A Meta está democratizando a IA e, embora ainda não tenha recebido reconhecimento suficiente, esta tendência mudará em breve.

Oracle

A Oracle oferece suporte firme à Ethernet e não usa InfiniBand. A Oracle Cloud Infrastructure (OCI) aproveita GPUs Nvidia e NICs ConnectX para construir um supercluster baseado em RDMA ROCEv2. A OCI constrói uma rede RDMA separada, baseada em um protocolo de notificação de congestionamento personalizado de DC-QCN, minimiza o uso de PFC e ajusta perfis personalizados para cargas de trabalho de IA e HPC.

NVIDIA

As GPUs da NVIDIA e suas soluções completas de IA/ML a tornam um player upstream indiscutível no mercado. A solução NVIDIA DGX Cloud integra switch InfiniBand Quantum-2 (25.6 TB) com adaptadores de rede ConnectX e Bluefield. Esses adaptadores de rede oferecem suporte a Ethernet e InfiniBand. A solução InfiniBand full-stack baseada em DGX Cloud também será vendida para os mercados de telecomunicações e empresariais pela NVIDIA e seus OEMs. No entanto, a NVIDIA também está investindo pesadamente em Ethernet por meio do switch Spectrum-X. Há alguns anos, a InfiniBand era a arquitetura preferida para treinamento de IA, tornando-a a escolha ideal para a solução de nuvem DGX integrada da NVIDIA. Com o lançamento do switch Ethernet NVIDIA Spectrum-X (capacidade de 51.2 Tbs, o dobro da capacidade do switch InfiniBand), a NVIDIA mudará para Ethernet para implantação de GPU em larga escala, para aproveitar a maior velocidade de porta Ethernet, economia e e escalabilidade. O switch Ethernet Spectrum-X oferece suporte a extensões ROCEv2 avançadas: roteamento adaptativo RoCE e controle de congestionamento, suporte de telemetria e computação em rede chamada coletiva (por meio do produto SHARP da NVIDIA).

Broadcom

Broadcom offoferece soluções abrangentes de rede AI/HPC, incluindo chips de switch e adaptadores de rede. A aquisição estratégica da “Correct Networks” pela Broadcom introduziu um protocolo de transporte baseado em EQDS UDP, que move todas as atividades de enfileiramento da rede principal para o host transmissor ou switch folha. Essa abordagem oferece suporte à otimização de switch na combinação de chips Jericho3/Ramon3, que é uma “estrutura totalmente programada” equipada com pulverização de pacotes, reordenação de buffers em switches leaf, rebalanceamento de caminho, eliminação de notificação de congestionamento e mecanismos de recuperação de falhas em banda acionados por hardware. A série Tomahawk (52Tbs) foi projetada para otimizar a capacidade de chip único e não é uma malha totalmente programada. Os switches Tomahawk também suportam filas de borda, bem como funções críticas de latência em hardware, como balanceamento de carga global em nível de malha e rebalanceamento de caminho. O Tomahawk não oferece suporte à classificação de pacotes em switches leaf, portanto, os buffers de reordenação de pacotes precisam ser implementados em adaptadores de rede (pontos finais).

Cisco

A Cisco lançou recentemente o switch Silicon One 52Tb/s, demonstrando a versatilidade de suas soluções de rede. O switch é programável P4, permitindo programação flexível para vários casos de uso de rede. Os switches baseados em Silicon One da Cisco fornecem suporte para malhas totalmente programadas, balanceamento de carga, isolamento de falhas de hardware e telemetria. A Cisco faz parceria com vários fornecedores de NIC para fornecer soluções completas de rede de IA/ML.

Conclusão

A jornada de padronização Ethernet para redes AI/HPC apenas começou e exige maior redução de custos e energia por meio de escala, inovação aberta e competição entre vários fornecedores. A Super Ethernet Alliance é composta pelas principais partes interessadas da rede e está comprometida em criar uma solução Ethernet aberta e “full stack” adaptada para cargas de trabalho de IA/HPC. Conforme mencionado acima, a maioria das tecnologias de rede AI/HPC “necessárias” foram implantadas por vários fornecedores de Ethernet e hiperescaladores de alguma forma. Portanto, o desafio da padronização não é técnico, mas sim a construção de consenso.

Deixe um comentário

Voltar ao Topo