Broadcom x NVIDIA: a corrida do switch 400G/800G

Na Computex, a NVIDIA prometeu fornecer “Ethernet sem perdas” para cargas de trabalho de IA com sua plataforma Spectrum-X. No entanto, se você perguntar à Broadcom, essa nem é uma ideia nova. Ram Velaga, vice-presidente sênior do Core Switching Group da Broadcom, comentou que “não há nada de único em seu dispositivo”. Ele explicou que a NVIDIA está essencialmente construindo uma plataforma Ethernet integrada verticalmente, que se destaca no gerenciamento de congestionamento de uma forma que minimiza a latência de cauda (altos percentis de tempo de resposta) e reduz o tempo de conclusão do trabalho de IA. Velaga acredita que isso não é diferente do que a Broadcom fez com seus ASICs de switch Tomahawk5 e Jericho3-AI. Ele também vê o lançamento dessa opção como o reconhecimento da NVIDIA sobre a importância da Ethernet no tratamento de fluxos de GPU em IA.
Plataforma Spectrum-X
Em relação à NVIDIA, a empresa não abandonou a rede InfiniBand. Na verdade, eles investiram uma quantia substancial de dinheiro (US$ 17 bilhões) para adquirir a Mellanox. O InfiniBand é altamente adequado para usuários que executam um pequeno número de cargas de trabalho extremamente grandes, como GPT-3 ou gêmeos digitais. No entanto, Gilad Shainer, vice-presidente de marketing da divisão de rede da NVIDIA, explicou que em determinados ambientes, especialmente nuvens multilocatários, a Ethernet é a escolha preferida. Shainer afirmou que a infraestrutura Ethernet tradicional funciona bem para cargas de trabalho AI/ML menores, mas agora o crescimento dessas cargas de trabalho excedeu os recursos de nó único, resultando em velocidades lentas. A plataforma Spectrum-X da NVIDIA afirma enfrentar esse desafio.
Deve-se notar que o Spectrum-X da NVIDIA não é um produto independente. É uma combinação de hardware e software, com componentes principais, incluindo o switch Ethernet Spectrum-51.2 de 4 Tbit/s da NVIDIA e a unidade de processamento de dados (DPU) BlueField-3. A ideia básica é que, ao usar o switch da NVIDIA e o DPU juntos, eles colaboram para aliviar o congestionamento do tráfego e, se for para acreditar na NVIDIA, eliminam completamente a perda de pacotes.
Embora Shainer afirme que esta é uma nova unidade funcional da NVIDIA, Velaga acredita que a ideia de “Ethernet sem perdas” é meramente marketing. “Em vez de chamá-lo de sem perdas, é mais correto dizer que você gerencia efetivamente o congestionamento até o ponto em que possui uma estrutura Ethernet altamente eficiente”, comentou ele.
Além disso, Velaga afirma que esse gerenciamento de congestionamento foi incorporado à última geração de switch ASICs da Broadcom e somente eles podem ser usados ​​com smartNICs ou DPUs de qualquer fornecedor ou provedor de serviços em nuvem. “Você não precisa fazer isso na NIC; você pode ir de uma folha de Jericho3-AI para outra folha de Jericho3-AI”, acrescentou.
Quando questionado sobre o Tomahawk5 e o Jericho3-AI da Broadcom, Shainer se recusou a compará-los, argumentando que o Spectrum-X pertence à sua própria categoria e insinuando que alguns fornecedores estão simplesmente adicionando “AI” aos produtos existentes. “Não importa como você chame, não há nada que tenha recursos projetados especificamente para IA”, disse ele.
Broadcom x NVIDIA
vista do interruptor frente do interruptor
De acordo com Velaga, a NVIDIA está tentando uma integração vertical para lidar com o congestionamento da Ethernet. “O motivo do sucesso da Ethernet hoje é que é um ecossistema muito aberto”, disse ele. Por causa disso, o Spectrum-X da NVIDIA pode ser um desafio para vender para provedores de nuvem que preferem evitar o bloqueio do fornecedor. Eles desejam fortemente evitar uma situação que leve à adoção generalizada de sistemas operacionais de rede independentes de fornecedores, como o SONiC. Isso permite que eles executem suas nuvens em qualquer switch compatível.
Em termos de valor, o Spectrum-4 da NVIDIA realmente suporta o SONiC, bem como seus próprios drivers Cumulus NOS e Linux Switch. No entanto, devido à plataforma Spectrum-X contar com Spectrum-4 e BlueField simultaneamente, você não pode simplesmente trocar um por outro switch SONiC compatível ou DPU sem perder a funcionalidade.
Falando em DPUs, muitos dos principais provedores de serviços em nuvem já possuem SmartNICs personalizados para seus ambientes. Amazon Web Services tem Nitro, Google co-desenvolveu um baseado em ASIC SmartNIC com a Intel, e a Microsoft adquiriu a Fungible em janeiro. Esses dispositivos são altamente valiosos para os provedores de nuvem, pois permitem offcarregando cargas de trabalho comuns de rede, armazenamento e segurança, liberando CPUs para executar cargas de trabalho de locatário.
Shainer afirmou que é completamente viável. Ele acredita que os provedores de nuvem podem utilizar seus DPUs existentes para gerenciar sua infraestrutura e controlar o tráfego norte-sul enquanto usam o BlueField-3 da NVIDIA para gerenciar o tráfego leste-oeste entre os nós do cluster.
Ele acrescentou que não há nada que impeça as pessoas de implantar switches ou DPUs da NVIDIA como produtos independentes. “Se alguém quiser usar nossos switches e construir sua própria solução, nós agradecemos. Se alguém quiser usar nossos DPUs e usar os switches de outra pessoa, é claro, vá em frente. Você pode desenvolver esses componentes por conta própria”, disse Shainer.
No entanto, Velaga, da Broadcom, não tem certeza de como os clientes adotariam essa ideia. “É difícil dizer como o valor das soluções Ethernet integradas verticalmente seria comercializado em um mundo onde tudo está sendo quebrado”, comentou ele.

Deixe um comentário

Voltar ao Topo