Na Computex, a NVIDIA prometeu fornecer “Ethernet sem perdas” para cargas de trabalho de IA com sua plataforma Spectrum-X. No entanto, se você perguntar à Broadcom, essa nem é uma ideia nova. Ram Velaga, vice-presidente sênior do Core Switching Group da Broadcom, comentou que “não há nada de único em seu dispositivo”. Ele explicou que a NVIDIA está essencialmente construindo uma plataforma Ethernet integrada verticalmente, que se destaca no gerenciamento de congestionamento de uma forma que minimiza a latência de cauda (altos percentis de tempo de resposta) e reduz o tempo de conclusão do trabalho de IA. Velaga acredita que isso não é diferente do que a Broadcom fez com seus ASICs de switch Tomahawk5 e Jericho3-AI. Ele também vê o lançamento dessa opção como o reconhecimento da NVIDIA sobre a importância da Ethernet no tratamento de fluxos de GPU em IA.
Em relação à NVIDIA, a empresa não abandonou a rede InfiniBand. Na verdade, eles investiram uma quantia substancial de dinheiro (US$ 17 bilhões) para adquirir a Mellanox. O InfiniBand é altamente adequado para usuários que executam um pequeno número de cargas de trabalho extremamente grandes, como GPT-3 ou gêmeos digitais. No entanto, Gilad Shainer, vice-presidente de marketing da divisão de rede da NVIDIA, explicou que em determinados ambientes, especialmente nuvens multilocatários, a Ethernet é a escolha preferida. Shainer afirmou que a infraestrutura Ethernet tradicional funciona bem para cargas de trabalho AI/ML menores, mas agora o crescimento dessas cargas de trabalho excedeu os recursos de nó único, resultando em velocidades lentas. A plataforma Spectrum-X da NVIDIA afirma enfrentar esse desafio.
Deve-se notar que o Spectrum-X da NVIDIA não é um produto independente. É uma combinação de hardware e software, com componentes principais, incluindo o switch Ethernet Spectrum-51.2 de 4 Tbit/s da NVIDIA e a unidade de processamento de dados (DPU) BlueField-3. A ideia básica é que, ao usar o switch da NVIDIA e o DPU juntos, eles colaboram para aliviar o congestionamento do tráfego e, se for para acreditar na NVIDIA, eliminam completamente a perda de pacotes.
Embora Shainer afirme que esta é uma nova unidade funcional da NVIDIA, Velaga acredita que a ideia de “Ethernet sem perdas” é meramente marketing. “Em vez de chamá-lo de sem perdas, é mais correto dizer que você gerencia efetivamente o congestionamento até o ponto em que possui uma estrutura Ethernet altamente eficiente”, comentou ele.
Além disso, Velaga afirma que esse gerenciamento de congestionamento foi incorporado à última geração de switch ASICs da Broadcom e somente eles podem ser usados com smartNICs ou DPUs de qualquer fornecedor ou provedor de serviços em nuvem. “Você não precisa fazer isso na NIC; você pode ir de uma folha de Jericho3-AI para outra folha de Jericho3-AI”, acrescentou.
Quando questionado sobre o Tomahawk5 e o Jericho3-AI da Broadcom, Shainer se recusou a compará-los, argumentando que o Spectrum-X pertence à sua própria categoria e insinuando que alguns fornecedores estão simplesmente adicionando “AI” aos produtos existentes. “Não importa como você chame, não há nada que tenha recursos projetados especificamente para IA”, disse ele.
De acordo com Velaga, a NVIDIA está tentando uma integração vertical para lidar com o congestionamento da Ethernet. “O motivo do sucesso da Ethernet hoje é que é um ecossistema muito aberto”, disse ele. Por causa disso, o Spectrum-X da NVIDIA pode ser um desafio para vender para provedores de nuvem que preferem evitar o bloqueio do fornecedor. Eles desejam fortemente evitar uma situação que leve à adoção generalizada de sistemas operacionais de rede independentes de fornecedores, como o SONiC. Isso permite que eles executem suas nuvens em qualquer switch compatível.
Em termos de valor, o Spectrum-4 da NVIDIA realmente suporta o SONiC, bem como seus próprios drivers Cumulus NOS e Linux Switch. No entanto, devido à plataforma Spectrum-X contar com Spectrum-4 e BlueField simultaneamente, você não pode simplesmente trocar um por outro switch SONiC compatível ou DPU sem perder a funcionalidade.
Falando em DPUs, muitos dos principais provedores de serviços em nuvem já possuem SmartNICs personalizados para seus ambientes. Amazon Web Services tem Nitro, Google co-desenvolveu um baseado em ASIC SmartNIC com a Intel, e a Microsoft adquiriu a Fungible em janeiro. Esses dispositivos são altamente valiosos para os provedores de nuvem, pois permitem offcarregando cargas de trabalho comuns de rede, armazenamento e segurança, liberando CPUs para executar cargas de trabalho de locatário.
Shainer afirmou que é completamente viável. Ele acredita que os provedores de nuvem podem utilizar seus DPUs existentes para gerenciar sua infraestrutura e controlar o tráfego norte-sul enquanto usam o BlueField-3 da NVIDIA para gerenciar o tráfego leste-oeste entre os nós do cluster.
Ele acrescentou que não há nada que impeça as pessoas de implantar switches ou DPUs da NVIDIA como produtos independentes. “Se alguém quiser usar nossos switches e construir sua própria solução, nós agradecemos. Se alguém quiser usar nossos DPUs e usar os switches de outra pessoa, é claro, vá em frente. Você pode desenvolver esses componentes por conta própria”, disse Shainer.
No entanto, Velaga, da Broadcom, não tem certeza de como os clientes adotariam essa ideia. “É difícil dizer como o valor das soluções Ethernet integradas verticalmente seria comercializado em um mundo onde tudo está sendo quebrado”, comentou ele.
Produtos relacionados:
-
OSFP-400G-FR4 400G FR4 OSFP PAM4 CWDM4 2 km LC SMF FEC Módulo Transceptor Óptico $900.00
-
Módulo Transceptor Óptico OSFP-400G-DR4+ 400G OSFP DR4+ 1310nm MPO-12 2km SMF $879.00
-
Módulo transceptor óptico OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10 km SMF $1199.00
-
OSFP-400G-SR4-FLT 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $1500.00
-
QSFP-DD-400G-LR4 400G QSFP-DD LR4 PAM4 CWDM4 Módulo transceptor óptico SMF FEC LC 10km $1000.00
-
QSFP-DD-400G-SR4.2 400Gb/s QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 FEC Módulo Transceptor Óptico $750.00
-
QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310nm 500m MTP/MPO-12 com módulo transceptor óptico KP4 FEC $1560.00
-
QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2km Duplex LC SMF FEC Módulo Transceptor Óptico $1760.00
-
QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC Módulo Transceptor Óptico $990.00
-
QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMF FEC Módulo transceptor óptico $650.00
-
QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3 Módulo transceptor óptico FEC $400.00
-
QSFP-DD-800G-DR8 800G-DR8 QSFP-DD PAM4 1310nm 500m DOM MTP/MPO-16 Módulo Transceptor Óptico SMF $4500.00
-
OSFP-800G-SR8 OSFP 8x100G SR8 PAM4 850nm MTP/MPO-16 100m OM4 MMF FEC Módulo transceptor óptico $2000.00
-
QSFP-DD-800G-DR8D QSFP-DD 8x100G DR PAM4 1310nm 500m DOM Módulo Transceptor Ótico MPO-12 SMF Duplo $4500.00
-
Placa de interface de rede NVIDIA MCX623106AN-CDAT SmartNIC ConnectX®-6 Dx EN, QSFP100 de porta dupla de 56 GbE, PCIe4.0 x 16, suporte alto e curto $1080.00
-
Placa de interface de rede NVIDIA Mellanox MCX516A-CCAT SmartNIC ConnectX®-5 EN, porta dupla 100 GbE QSFP28, PCIe3.0 x 16, suporte alto e curto $850.00