Arquitetura de produto de data center de IA 800G/400G

IA impulsiona a ascensão do mercado de módulos ópticos 400G/800G

Em 30 de novembro de 2022, a OpenAI, uma empresa norte-americana de pesquisa de inteligência artificial (IA), lançou o ChatGPT, um modelo de chatbot, que atraiu mais de um milhão de usuários em cinco dias e mais de 100 milhões de usuários em dois meses, tornando-se o que mais cresce. aplicação ao consumidor na história. Em 28 de abril de 2023, a OpenAI concluiu um financiamento de US$ 10.3 bilhões, com uma avaliação pós-investimento de US$ 27 bilhões a US$ 29 bilhões, tornando-se o unicórnio de crescimento mais rápido do mundo.

Com o desenvolvimento da tecnologia de IA, grandes modelos, big data e grande poder computacional estão se tornando cada vez mais as principais restrições para aplicações AIGC. Grandes modelos e conjuntos de dados são a base do software para o desenvolvimento do AIGC, enquanto o poder computacional é a infraestrutura mais importante. A IA é baseada principalmente em computação paralela e o processador principal é principalmente GPU. Mas, além do desempenho da GPU, o fator comunicação também se tornará um gargalo para a supercomputação. Enquanto houver congestionamento de rede em um link, ocorrerá latência de dados. Portanto, o servidor de IA para a taxa de transmissão de dados subjacente e os requisitos de latência são muito exigentes, com a necessidade de módulos ópticos de alta velocidade correspondentes, de modo que o servidor de IA tem uma grande demanda por módulos ópticos de 800G.

Para resolver o gargalo da largura de banda da rede de IA, a arquitetura da rede do data center precisa ser alterada.

arquitetura de rede do centro de dados

À medida que o treinamento de grandes modelos de IA é gradualmente aplicado em vários campos, as redes tradicionais adequadas para HPC não podem mais atender aos requisitos de largura de banda e latência do treinamento de grandes modelos de cluster. O treinamento distribuído de grandes modelos requer comunicação entre GPUs, o que aumenta o tráfego leste-oeste nos data centers de IA/ML, e o padrão de tráfego é diferente da computação em nuvem tradicional. Os dados de IA são de curto prazo e de alto volume, o que causa latência de rede e redução da velocidade de treinamento na arquitetura tradicional de rede de computação em nuvem. Na topologia de rede em árvore tradicional, a largura de banda converge camada por camada, e a largura de banda da rede na raiz da árvore é muito menor que a soma de todas as larguras de banda em cada folha. A árvore gorda é mais parecida com uma árvore real, quanto mais próxima da raiz, mais grossos são os galhos, ou seja, da folha à raiz, a largura de banda da rede não converge, o que pode melhorar a eficiência da rede e acelerar o treinamento. Esta é a base para a arquitetura fat tree suportar redes sem bloqueio. Como não há convergência, são necessárias mais portas ópticas para garantir a consistência das taxas de uplink e downlink, o que aumenta o número de módulos ópticos.

Quando o chip do switch for atualizado para a interface elétrica 112G, ele abrirá as aplicações correspondentes do módulo 400G/800G. Devido às grandes diferenças na arquitetura de topologia dos diferentes data centers de IA, estima-se que a demanda por módulos ópticos impulsionados por IA seja baseada em uma situação típica. Quando a aplicação do tipo GPT atingir 1 bilhão de usuários ativos mensais, estima-se que sejam necessários 69.4 A100. Supondo que um A100 corresponda a três demandas de módulos ópticos, ele corresponde a cerca de 2 milhões de demandas de módulos ópticos 800G. Em aplicações reais, do switch ao servidor, muitas vezes 800G é dividido em dois, e a camada inferior é 400G. Atualizando para 800G inevitavelmente impulsionará a demanda por 400G.

Do ponto de vista do mercado norte-americano de módulos ópticos, os próximos anos serão basicamente divididos em duas partes, uma parte é a demanda tradicional de data centers e a outra parte é a nova demanda devido ao aumento da IA. Espera-se que a nova procura por IA possa exceder a procura tradicional de centros de dados entre 2024 e 2025.

Do ponto de vista do mercado doméstico de módulos ópticos, 200GA implantação do /400G ainda será a base e durará um período de tempo. Actualmente, a procura interna de 400G e 800G não aumentou rapidamente. Por um lado, a procura de centros de dados tradicionais é relativamente estável, pelo que a taxa de crescimento não é particularmente óbvia; por outro lado, a procura no domínio das telecomunicações ainda apresenta uma tendência de desenvolvimento lento e não há altos e baixos. Portanto, o crescimento de 400G e 800G em 2024 virá de um aumento de demanda impulsionado pela supercomputação, e o CPO e os módulos conectáveis ​​coexistirão por um longo tempo no futuro.

embarque portuário

Fonte: Dell'oro 2022.10

embarque

Fonte: contagem de luz 2022.5

Evolução da atualização da taxa de Internet do data center

As rotas evolutivas estão divididas e coexistem uma variedade de opções. Os usuários podem escolher de acordo com os requisitos de negócios/arquitetura de rede/tempo de implantação.

evolução
Taxa de Internet do data center

Aplicações típicas para produtos 400G/800G

400G/800G DAC/ACC

Caso 1: Conexão do switch Quantum-2 Infiniband ou switch Quantum-2 IB conectado ao DGX-H100

Conexão do switch Quantum-2 IB ou switch Quantum-2 IB conectado ao DGX-H100

Caso 2: Mudança Infiniband Quantum-2 para aplicação de filial

Caso 2: Mudança do Quantum-2 IB para aplicação de filial

Transceptor óptico 400G SR4/800G SR8

Caso 3: Switch Quantum-2 Infiniband para 2 NICs ConnectX-7 400G

Caso 3: Switch Quantum-2 IB para 2 NICs ConnectX-7 400G

O módulo transceptor óptico 800G OSFP SR8 foi projetado para links 400G InfiniBand NDR em fibra multimodo usando comprimento de onda de 850 nm. O módulo possui duas portas de modulação óptica 4G-PAM100 de 4 canais, cada uma usando um conector MTP/MPO-12. No vídeo abaixo, você verá como conectá-lo a outro dispositivo usando cabos de fibra breakout e como configurar o protocolo de switch baseado em InfiniBand ou Ethernet. Você também aprenderá sobre os principais recursos e benefícios do módulo 800G OSFP SR8, como alta largura de banda, baixo consumo de energia e hot pluggability.

Lançamento de novo produto FiberMall 400G/800G

Lançado FiberMall 800G QSFP-DD SR8, transceptores ópticos 800G OSFP SR8, 400G QSFP112 SR4 e 400G OSFP-RHS SR4 e cabos AOC. A linha de produtos apresenta lasers VCSEL de 112 Gbps de alto desempenho e DSPs de 7 nm, com uma interface de host elétrica de sinais PAM112 de 4 Gbps por canal e suporte para CMIS 4.0.

Diagrama ocular e métricas de sensibilidade

TDECQ inferior a 3dB por canal; A sensibilidade do OMA RXsen atende a -5.2dBm @ 2.4E-4 Pré-FEC 53.125GBd.

Diagrama ocular e métricas de sensibilidade

Distância de transmissão

400G OSFP SR4 suporta 30 metros (OM3 MMF) e 50 metros (OM4 MMF).

800G OSFP SR8 suporta 60 metros (OM3 MMF) e 100 metros (OM4 MMF).

Tipo de embalagem

Os módulos ópticos 400G/800G suportam QSFP-DD e OSFP.

Projeto de consumo de energia

O consumo de energia do módulo óptico/AOC 800G é inferior a 14W no teste de três temperaturas, e o consumo de energia do módulo óptico/AOC 400G é inferior a 8W.

O portfólio completo de produtos desta série é o seguinte:

Linha de produtos multimodo 800G (8×112G)

  • 800GOSFP SR8 (MPO12/APC duplo ou MPO16/APC)
  • 800G QSFP-DD AOC
  • 800G QSFP-DD SR8 (MPO16/APC)

Linhas de produtos multimodo 400G (4×112G)

O primeiro cabo de cobre ativo 800G da FiberMall, OSFP ACC 800G, alimentando data centers de alta velocidade e aplicações de alta computação de IA.

FiberMall's 800G OSFP-DAC/ACC está em conformidade com as especificações OSFP MSA e IEEE802.3ck e usa 16 pares de cabos de cobre para suportar transmissão bidirecional de 8 canais a 112 GB/s e obter compatibilidade com taxas anteriores. Comparado com o suporte máximo de 800G OSFP DAC de 2m, a distância de transmissão ACC suporta 4m a 5m e pode atender às necessidades gerais de cabeamento de interconexão de curta distância, os recursos do produto são os seguintes:

800G OSFP AC

Excelente desempenho SI e boa consistência em 44 GHz.

Excelente desempenho SI e boa consistência em 44 GHz.
  • No testador de rede 800G e ligue o KP4-FEC, o teste atende aos requisitos de autonegociação e treinamento de link do IEEE, BER pós-FEC <1E-15 e margem FEC é melhor que 27%, e a taxa de perda de quadro FEC é 0 para todo o processo.
  • O produto adota uma solução Re-Driver, com consumo de energia típico de cerca de 2.5W, atraso inferior a 20ns. A equalização e o equilíbrio da relação sinal-ruído são cruciais e são muito melhores do que a solução Re-Timer em termos de consumo de energia e atraso.
  • Adotando um processo de produção inovador, a confiabilidade é favorável, 800G OSFP ACC 26AWG 4m pesa apenas cerca de 600g.

FiberMall lançou uma variedade de módulos transceptores 400G/800G DAC/ACC/AOC/ópticos, fique à vontade para perguntar!

Deixe um comentário

Voltar ao Topo