Hoje, exploraremos os internos de um grande switch abrangendo 64 portas de 800GbE. O Marvell Teralynx 10 é um switch de 51.2 Tbps, definido para ser um componente-chave em clusters de IA até 2025. Este switch de rede substancial é bastante fascinante.

A Marvell adquiriu a Innovium em 2021, após nossa análise do switch 7x 32GbE baseado em Innovium Teralynx 400. Anteriormente, desmontamos o switch de geração de 12.8 Tbps (32 portas 400GbE) dessa startup.

A Innovium surgiu como a startup mais bem-sucedida de sua geração, fazendo incursões significativas em data centers de hiperescala. Por exemplo, em 2019, a Intel anunciou sua aquisição da Barefoot Networks para obter chips de switch Ethernet. No entanto, no quarto trimestre de 4, a Intel declarou sua intenção de alienar esse negócio de switch Ethernet. A Broadcom detém uma posição significativa no mercado de chips de switch comercial, enquanto a Innovium/Marvell penetrou com sucesso em data centers de hiperescala, ao contrário de outras empresas que investiram pesadamente, mas falharam.

Dada a escala da construção do cluster de IA, a geração de chips de switch de 51.2 Tbps é substancial. Perguntamos se a Marvell poderia atualizar a desmontagem do Teralynx 2021 de 7 e fornecer insights sobre o novo Marvell Teralynx 10.

O switch apresenta um chassi 2U, composto principalmente de gaiolas OSFP e canais de fluxo de ar. Há 64 portas OSFP no total, cada uma operando a 800 Gbps.

Cada porta é equipada com óptica plugável OSFP, que geralmente é maior do que os dispositivos da geração QSFP+/QSFP28 aos quais você pode estar acostumado.

A Marvell introduziu vários módulos ópticos, alavancando componentes de sua aquisição da Inphi. Discutimos isso em vários contextos, como os módulos fotônicos de silício Marvell COLORZ 800G e o Orion DSP para redes de próxima geração. Este switch pode utilizar esses módulos ópticos, e as portas podem operar em velocidades diferentes de 800 Gbps.

Um dos aspectos intrigantes são os módulos ópticos de longa distância, capazes de atingir 800 Gbps em centenas de quilômetros ou mais. Esses módulos se encaixam em gaiolas OSFP e não exigem as grandes caixas ópticas de longa distância que são padrões da indústria há anos.

Os módulos OSFP podem ter dissipadores de calor integrados, eliminando a necessidade de dissipadores de calor nas gaiolas. Em alguns switches de 100GbE e 400GbE, as gaiolas ópticas exigem dissipadores de calor devido ao alto consumo de energia dos módulos.

No lado direito do switch, há portas de gerenciamento e console.

A parte traseira do switch abriga ventiladores e fontes de alimentação, cada um com seu próprio ventilador.

Considerando que este switch pode usar módulos ópticos que consomem cerca de 1.8 kW e tem um chip de switch de 500 W, fontes de alimentação com capacidade acima de 2 kW são esperadas.

Em seguida, vamos nos aprofundar nos componentes internos do switch para ver o que alimenta essas gaiolas OSFP.
Começaremos pelas gaiolas OSFP à direita e passaremos para as fontes de alimentação e ventoinhas à esquerda.

Ao abrir o interruptor, a primeira coisa que chama a atenção é o grande dissipador de calor.

Este dissipador de calor, mostrado com um passaporte vencido para fins de escala, é bastante substancial.

Aqui está uma vista inferior do dissipador de calor.

O chip em si é um componente de 500 W e 5 nm.

A Marvell nos permitiu limpar o chip para tirar algumas fotos sem o dissipador de calor.

Isso nos dá uma visão clara das gaiolas OSFP sem o dissipador de calor.

Dessa perspectiva, há apenas 32 gaiolas OSFP porque o PCB do switch está situado entre dois blocos.

Atrás das gaiolas OSFP, temos o chip Teralynx 10.

Para os interessados, informações mais detalhadas sobre o Teralynx 10 podem ser encontradas em nosso diagrama de recursos anterior.

Uma diferença notável é que muitos componentes do switch são angulados, em vez de horizontais ou paralelos às bordas do chip do switch.

Aqui está uma foto de cima para baixo do switch, mostrando o chip switch de 64 portas 800GbE. Para aqueles familiarizados com a tecnologia de servidores, estamos olhando para NICs de porta única 800GbE na era PCIe Gen6, enquanto hoje temos NICs PCIe Gen400 x5 16GbE. Este chip tem capacidade para lidar com as NICs 128 PCIe Gen5 400GbE mais rápidas disponíveis hoje.

Como muitos switches, o switch Teralynx 10 tem um controlador de gerenciamento dedicado, baseado na placa de gerenciamento Marvell Octeon. Fomos informados de que outros switches podem usar x86.

Um SSD M.2 está localizado na placa de distribuição de energia principal.

Um recurso interessante é o slot PCIe integrado para diagnóstico.

Logo abaixo disso, há uma porta 10Gbase-T exposta internamente como uma interface de gerenciamento.

Outro aspecto a considerar é a espessura do PCB do switch. Se as placas-mãe dos servidores fossem tão grossas, muitos designs de servidores 1U enfrentariam desafios significativos de resfriamento. Em termos de resfriamento, o switch tem uma configuração de ventoinha relativamente simples, com quatro módulos de ventoinha na parte traseira do chassi.

A Marvell tem um laboratório em outro prédio onde esses switches são testados. A empresa liberou temporariamente o laboratório para nos permitir fotografar o switch em operação.

Aqui está a vista traseira.

Ao lado do switch Teralynx 10 está a caixa de teste Keysight Ixia AresONE 800GbE.

Gerar tráfego de 800 GbE em uma única porta não é tarefa fácil, pois é mais rápido do que PCIe Gen5 x16 em servidores. Foi fascinante ver esse dispositivo em operação no laboratório. Tínhamos comprado anteriormente uma caixa Spirent de segunda mão para testes de 10 GbE, mas a Spirent se recusou a fornecer uma licença de mídia/analista. Dispositivos como essa caixa de 800 GbE são incrivelmente caros.

A empresa também tem um chassi maior no laboratório para testes de 100GbE. Como fornecedora de switches, a Marvell precisa desse equipamento para validar o desempenho sob várias condições.

Aqui está um exemplo de 400GbE duplo operando através do switch Teralynx a uma taxa de linha de aproximadamente 99.3%.

Por que escolher um switch de 51.2 Tbps?
Há duas forças principais impulsionando a adoção de switches 51.2T no mercado. A primeira é o tópico sempre popular de IA, e a segunda é o impacto do consumo de energia e radix.

O Teralynx 10 da Marvell oferece uma latência de aproximadamente 500 nanossegundos, ao mesmo tempo em que fornece uma largura de banda imensa. Essa latência previsível, combinada com os recursos de controle de congestionamento, programabilidade e telemetria do chip switch, ajuda a garantir que grandes clusters mantenham o desempenho ideal. Permitir que os aceleradores de IA fiquem ociosos enquanto aguardam a rede é uma proposta muito custosa.

Outro exemplo é o radix. Switches maiores podem reduzir o número de camadas de comutação, o que, por sua vez, reduz o número de switches, fibras, cabos e outros componentes necessários para conectar o cluster.

Como o Teralynx 10 pode lidar com um radix de 512, conectando-se por meio de links de até 512x 100GbE, algumas redes podem reduzir a necessidade de três níveis de comutação para apenas dois. Em grandes clusters de treinamento de IA, isso não apenas economiza em equipamento de capital, mas também reduz significativamente o consumo de energia. A Marvell forneceu um exemplo em que um radix maior poderia reduzir o consumo de energia em mais de 1MW.

A Marvell também compartilhou um slide mostrando um switch com um cooler interessante se estendendo do chassi. Este parece ser um protótipo de desktop, o que achamos bem intrigante.

Por fim, embora frequentemente vejamos a frente e até mesmo a parte de trás dos switches em fotos on-line e de data center, raramente conseguimos ver como esses switches operam internamente. Graças à Marvell, conseguimos ver o switch em operação e até mesmo desmontá-lo até o silício.

A Innovium, agora uma subsidiária da Marvell, é uma das poucas equipes na indústria que competiu com sucesso com a Broadcom e obteve vitórias em hiperescala. Vimos outros grandes fornecedores de silício fracassarem nesse processo. Dada a demanda do mercado por comutação de alta raiz, alta largura de banda e baixa latência em clusters de IA, o Teralynx 10 provavelmente se tornará a maior linha de produtos da empresa desde o Teralynx 7. A competição nesse campo é intensa.

Claro, há muitas camadas em todas as redes. Poderíamos até mesmo conduzir um estudo abrangente de módulos ópticos, sem mencionar software, desempenho e mais. No entanto, mostrar o que acontece dentro desses switches ainda é bastante fascinante.
Conteúdo
AlterneProdutos relacionados:
-
Módulo transceptor óptico compatível com NVIDIA MMS4X50-NM OSFP 2x400G FR4 PAM4 1310nm 2km DOM Dual Duplex LC SMF
$1200.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$1199.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$900.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
QSFP-DD-800G-SR8 800G SR8 QSFP-DD 850nm 100m OM4 MMF MPO-16 Módulo Transceptor Óptico
$850.00
-
OSFP-800G-2FR4 OSFP 2x400G FR4 PAM4 CWDM4 2km DOM Dual CS SMF Módulo Transceptor Óptico
$1500.00
-
QSFP-DD-800G-LR8 QSFP-DD 8x100G LR PAM4 1310nm 10km MPO-16 SMF FEC Módulo Transceptor Óptico
$1600.00
-
OSFP-800G-FR8L OSFP 800G FR8 PAM4 CWDM8 Duplex LC 2km SMF Módulo Transceptor Óptico
$3000.00
-
OSFP-800G-SR8D OSFP 8x100G SR8 PAM4 850nm 100m DOM Módulo Transceptor Ótico MPO-12 MMF Duplo
$650.00
