Uma olhada dentro do switch Marvell 51.2T (64 portas 800G)

Hoje, exploraremos os internos de um grande switch abrangendo 64 portas de 800GbE. O Marvell Teralynx 10 é um switch de 51.2 Tbps, definido para ser um componente-chave em clusters de IA até 2025. Este switch de rede substancial é bastante fascinante.

Marvell 51.2T

A Marvell adquiriu a Innovium em 2021, após nossa análise do switch 7x 32GbE baseado em Innovium Teralynx 400. Anteriormente, desmontamos o switch de geração de 12.8 Tbps (32 portas 400GbE) dessa startup.

Switch 7x 32GbE baseado em Innovium Teralynx 400

A Innovium surgiu como a startup mais bem-sucedida de sua geração, fazendo incursões significativas em data centers de hiperescala. Por exemplo, em 2019, a Intel anunciou sua aquisição da Barefoot Networks para obter chips de switch Ethernet. No entanto, no quarto trimestre de 4, a Intel declarou sua intenção de alienar esse negócio de switch Ethernet. A Broadcom detém uma posição significativa no mercado de chips de switch comercial, enquanto a Innovium/Marvell penetrou com sucesso em data centers de hiperescala, ao contrário de outras empresas que investiram pesadamente, mas falharam.

disrupção da ia criando novos pontos de entrada

Dada a escala da construção do cluster de IA, a geração de chips de switch de 51.2 Tbps é substancial. Perguntamos se a Marvell poderia atualizar a desmontagem do Teralynx 2021 de 7 e fornecer insights sobre o novo Marvell Teralynx 10.

Vista frontal do switch

O switch apresenta um chassi 2U, composto principalmente de gaiolas OSFP e canais de fluxo de ar. Há 64 portas OSFP no total, cada uma operando a 800 Gbps.

O switch possui um chassi 2U

Cada porta é equipada com óptica plugável OSFP, que geralmente é maior do que os dispositivos da geração QSFP+/QSFP28 aos quais você pode estar acostumado.

Óptica plugável OSFP

A Marvell introduziu vários módulos ópticos, alavancando componentes de sua aquisição da Inphi. Discutimos isso em vários contextos, como os módulos fotônicos de silício Marvell COLORZ 800G e o Orion DSP para redes de próxima geração. Este switch pode utilizar esses módulos ópticos, e as portas podem operar em velocidades diferentes de 800 Gbps.

Módulos fotônicos de silício Marvell COLORZ 800G

Um dos aspectos intrigantes são os módulos ópticos de longa distância, capazes de atingir 800 Gbps em centenas de quilômetros ou mais. Esses módulos se encaixam em gaiolas OSFP e não exigem as grandes caixas ópticas de longa distância que são padrões da indústria há anos.

Esses módulos se encaixam em gaiolas OSFP

Os módulos OSFP podem ter dissipadores de calor integrados, eliminando a necessidade de dissipadores de calor nas gaiolas. Em alguns switches de 100GbE e 400GbE, as gaiolas ópticas exigem dissipadores de calor devido ao alto consumo de energia dos módulos.

gaiolas ópticas requerem dissipadores de calor

No lado direito do switch, há portas de gerenciamento e console.

portas de gerenciamento e console

A parte traseira do switch abriga ventiladores e fontes de alimentação, cada um com seu próprio ventilador.

A parte traseira do switch abriga ventiladores e fontes de alimentação

Considerando que este switch pode usar módulos ópticos que consomem cerca de 1.8 kW e tem um chip de switch de 500 W, fontes de alimentação com capacidade acima de 2 kW são esperadas.

Chip de comutação de 500 W

Em seguida, vamos nos aprofundar nos componentes internos do switch para ver o que alimenta essas gaiolas OSFP.

Começaremos pelas gaiolas OSFP à direita e passaremos para as fontes de alimentação e ventoinhas à esquerda.

Visão geral do switch

Ao abrir o interruptor, a primeira coisa que chama a atenção é o grande dissipador de calor.

o grande dissipador de calor

Este dissipador de calor, mostrado com um passaporte vencido para fins de escala, é bastante substancial.

Este dissipador de calor, mostrado com um passaporte vencido para escala

Aqui está uma vista inferior do dissipador de calor.

Aqui está uma vista inferior do dissipador de calor.

O chip em si é um componente de 500 W e 5 nm.

O chip em si é um componente de 500 W e 5 nm.

A Marvell nos permitiu limpar o chip para tirar algumas fotos sem o dissipador de calor.

sem o dissipador de calor

Isso nos dá uma visão clara das gaiolas OSFP sem o dissipador de calor.

uma visão clara das gaiolas OSFP sem o dissipador de calor

Dessa perspectiva, há apenas 32 gaiolas OSFP porque o PCB do switch está situado entre dois blocos.

apenas 32 gaiolas OSFP

Atrás das gaiolas OSFP, temos o chip Teralynx 10.

apenas 32 gaiolas OSFP

Para os interessados, informações mais detalhadas sobre o Teralynx 10 podem ser encontradas em nosso diagrama de recursos anterior.

diagrama de características

Uma diferença notável é que muitos componentes do switch são angulados, em vez de horizontais ou paralelos às bordas do chip do switch.

muitos componentes no switch são angulados

Aqui está uma foto de cima para baixo do switch, mostrando o chip switch de 64 portas 800GbE. Para aqueles familiarizados com a tecnologia de servidores, estamos olhando para NICs de porta única 800GbE na era PCIe Gen6, enquanto hoje temos NICs PCIe Gen400 x5 16GbE. Este chip tem capacidade para lidar com as NICs 128 PCIe Gen5 400GbE mais rápidas disponíveis hoje.

as 128 NICs PCIe Gen5 400GbE mais rápidas

Como muitos switches, o switch Teralynx 10 tem um controlador de gerenciamento dedicado, baseado na placa de gerenciamento Marvell Octeon. Fomos informados de que outros switches podem usar x86.

Conselho de administração da Marvell Octeon

Um SSD M.2 está localizado na placa de distribuição de energia principal.

Um SSD M.2 está localizado na placa de distribuição de energia principal.

Um recurso interessante é o slot PCIe integrado para diagnóstico.

Um recurso interessante é o slot PCIe integrado para diagnóstico.

Logo abaixo disso, há uma porta 10Gbase-T exposta internamente como uma interface de gerenciamento.

Logo abaixo disso, há uma porta 10Gbase-T exposta internamente como uma interface de gerenciamento.

Outro aspecto a considerar é a espessura do PCB do switch. Se as placas-mãe dos servidores fossem tão grossas, muitos designs de servidores 1U enfrentariam desafios significativos de resfriamento. Em termos de resfriamento, o switch tem uma configuração de ventoinha relativamente simples, com quatro módulos de ventoinha na parte traseira do chassi.

quatro módulos de ventoinha na parte traseira do chassi

A Marvell tem um laboratório em outro prédio onde esses switches são testados. A empresa liberou temporariamente o laboratório para nos permitir fotografar o switch em operação.

essas chaves são testadas

Aqui está a vista traseira.

a vista traseira

Ao lado do switch Teralynx 10 está a caixa de teste Keysight Ixia AresONE 800GbE.

Caixa de teste Keysight Ixia AresONE 800GbE.

Gerar tráfego de 800 GbE em uma única porta não é tarefa fácil, pois é mais rápido do que PCIe Gen5 x16 em servidores. Foi fascinante ver esse dispositivo em operação no laboratório. Tínhamos comprado anteriormente uma caixa Spirent de segunda mão para testes de 10 GbE, mas a Spirent se recusou a fornecer uma licença de mídia/analista. Dispositivos como essa caixa de 800 GbE são incrivelmente caros.

Caixa 800GbE

A empresa também tem um chassi maior no laboratório para testes de 100GbE. Como fornecedora de switches, a Marvell precisa desse equipamento para validar o desempenho sob várias condições.

execução dupla de 400 GbE

Aqui está um exemplo de 400GbE duplo operando através do switch Teralynx a uma taxa de linha de aproximadamente 99.3%.

o switch Teralynx com taxa de linha de aproximadamente 99.3%

Por que escolher um switch de 51.2 Tbps?

Há duas forças principais impulsionando a adoção de switches 51.2T no mercado. A primeira é o tópico sempre popular de IA, e a segunda é o impacto do consumo de energia e radix.

Por que escolher um switch de 51.2 Tbps

O Teralynx 10 da Marvell oferece uma latência de aproximadamente 500 nanossegundos, ao mesmo tempo em que fornece uma largura de banda imensa. Essa latência previsível, combinada com os recursos de controle de congestionamento, programabilidade e telemetria do chip switch, ajuda a garantir que grandes clusters mantenham o desempenho ideal. Permitir que os aceleradores de IA fiquem ociosos enquanto aguardam a rede é uma proposta muito custosa.

O Teralynx 10 oferece uma latência de aproximadamente 500 nanossegundos

Outro exemplo é o radix. Switches maiores podem reduzir o número de camadas de comutação, o que, por sua vez, reduz o número de switches, fibras, cabos e outros componentes necessários para conectar o cluster.

Switches maiores podem reduzir o número de camadas de comutação

Como o Teralynx 10 pode lidar com um radix de 512, conectando-se por meio de links de até 512x 100GbE, algumas redes podem reduzir a necessidade de três níveis de comutação para apenas dois. Em grandes clusters de treinamento de IA, isso não apenas economiza em equipamento de capital, mas também reduz significativamente o consumo de energia. A Marvell forneceu um exemplo em que um radix maior poderia reduzir o consumo de energia em mais de 1MW.

o Teralynx 10 pode lidar com uma raiz de 512

A Marvell também compartilhou um slide mostrando um switch com um cooler interessante se estendendo do chassi. Este parece ser um protótipo de desktop, o que achamos bem intrigante.

um cooler interessante que se estende do chassi.

Por fim, embora frequentemente vejamos a frente e até mesmo a parte de trás dos switches em fotos on-line e de data center, raramente conseguimos ver como esses switches operam internamente. Graças à Marvell, conseguimos ver o switch em operação e até mesmo desmontá-lo até o silício.

o interruptor em operação

A Innovium, agora uma subsidiária da Marvell, é uma das poucas equipes na indústria que competiu com sucesso com a Broadcom e obteve vitórias em hiperescala. Vimos outros grandes fornecedores de silício fracassarem nesse processo. Dada a demanda do mercado por comutação de alta raiz, alta largura de banda e baixa latência em clusters de IA, o Teralynx 10 provavelmente se tornará a maior linha de produtos da empresa desde o Teralynx 7. A competição nesse campo é intensa.

o Teralynx 10 provavelmente se tornará a maior linha de produtos da empresa

Claro, há muitas camadas em todas as redes. Poderíamos até mesmo conduzir um estudo abrangente de módulos ópticos, sem mencionar software, desempenho e mais. No entanto, mostrar o que acontece dentro desses switches ainda é bastante fascinante.

Voltar ao Topo