No artigo anterior, discutimos as diferenças entre Scale-Out e Scale-Up. Scale-Up refere-se ao escalonamento vertical, que consiste em aumentar o número de placas de GPU/NPU em um único nó para melhorar o desempenho individual do nó. Scale-Out, por outro lado, envolve o escalonamento horizontal, adicionando mais nós para expandir a escala geral da rede, permitindo o suporte a tarefas de treinamento de modelos complexos que um único nó não consegue processar sozinho. Este artigo se concentra em apresentar arquiteturas de rede Scale-Out e suas tendências de desenvolvimento em centros de computação de IA.
Conteúdo
AlterneArquiteturas comuns para redes de centros de computação de IA
As redes de centros de computação de IA podem assumir diversas formas, como CLOS, Dragonfly, Slim Fly, Torus e outras. Além disso, vários modos de rede variantes evoluíram, incluindo Rail-only, Rail-optimized, MPFT, ZCube e mais. Dentre esses, a arquitetura Fat-Tree CLOS é amplamente adotada em cenários de treinamento de modelos de grande porte devido ao seu design de roteamento eficiente, excelente escalabilidade e facilidade de gerenciamento. Normalmente, utiliza-se uma arquitetura CLOS de duas camadas, Spine-Leaf. Quando a estrutura de duas camadas não atende às necessidades de escalabilidade, uma camada Super-Spine adicional pode ser adicionada para expansão.
Arquitetura CLOS de duas camadas

Arquitetura CLOS de três camadas

Arquitetura exclusiva para trilhosProposta pelo MIT em 2023, a arquitetura de rede somente Rail mantém o domínio HB e os switches Rail, enquanto remove os switches Spine, reduzindo significativamente os custos de rede e o consumo de energia.

Por exemplo, usando switches 51.2T, apenas 8 switches (128 portas 400G) podem formar um cluster de treinamento com mil placas.
Arquitetura Fat-Tree otimizada para trilhos (ROFT)Conforme ilustrado na figura abaixo, em uma arquitetura de rede multi-trilho, as demandas de comunicação para treinamento de IA podem ser aceleradas por meio da transmissão paralela em múltiplos trilhos. A maior parte do tráfego é agregada e transmitida dentro do mesmo trilho (passando por apenas um nível de chaveamento), enquanto uma pequena parcela envolve transmissão entre trilhos (exigindo dois ou mais níveis), aliviando assim a pressão sobre a comunicação da rede.

Arquitetura de rede de plano duplo
Em 2024, a Alibaba Cloud propôs a arquitetura de rede dual-port dual-plane, que foi aplicada no HPN-7.0. Os principais objetivos dessa arquitetura são melhorar o desempenho, aumentar a confiabilidade e evitar a polarização de hash. Esse design multi-rail dual-plane se baseia na arquitetura ROFT, dividindo a porta 400G de cada NIC em duas portas 2x200G, conectadas a dois switches Leaf (ToR) diferentes. As portas downlink 400G nos switches Leaf são divididas em dois links 200G que se conectam a portas NIC diferentes.

O design de plano duplo HPN apresenta as seguintes vantagens principais:
- Eliminação da polarização de hashEm redes tradicionais, o tráfego de baixa entropia e intermitente proveniente do treinamento de modelos grandes pode facilmente causar polarização de hash, levando a uma distribuição desigual do tráfego. O projeto de plano duplo divide os switches ToR em dois grupos independentes, fixando os caminhos para o tráfego que entra nos links de uplink, evitando a polarização de hash na camada de agregação, garantindo uma distribuição uniforme do tráfego, reduzindo significativamente o comprimento das filas e melhorando o desempenho da rede.
- Escalabilidade e controle de custos aprimoradosUma rede de duas camadas pode acomodar mais de 15 mil GPUs, reduzindo uma camada em comparação com as arquiteturas CLOS tradicionais de três camadas e diminuindo os custos de implantação.
- Maior confiabilidade e tolerância a falhas.Cada GPU conecta o uplink a dois switches ToR independentes, eliminando pontos únicos de falha. Durante falhas, apenas os grupos ECMP locais precisam ser atualizados, sem intervenção do controlador global, melhorando a eficiência da recuperação. Esses recursos aprimoram a tolerância a falhas da rede e garantem a estabilidade para o treinamento de modelos de grande porte.
Arquitetura de rede multiplano
Em maio de 2025, a equipe do DeepSeek publicou um artigo intitulado Análises do DeepSeek-V3: Desafios de escalabilidade e reflexões sobre hardware para arquiteturas de IAApresentando o conceito de rede multiplano. À medida que a escala dos parâmetros do LLM (Large Language Model) cresce exponencialmente, as topologias tradicionais de CLOS de três camadas (Fat-Tree) revelam cada vez mais limitações em termos de custo, escalabilidade e robustez.
O DeepSeek-V3 adota uma rede Multi-Plane Fat-Tree (MPFT) baseada em InfiniBand para substituir a arquitetura tradicional Fat-Tree de três camadas. Nessa configuração, cada nó é equipado com 8 GPUs e 8 placas de rede IB de 400 Gbps, com cada GPU correspondendo a uma placa de rede IB independente pertencente a um "plano de rede" diferente. As 8 GPUs por nó se conectam a 8 planos diferentes (ou seja, 8 planos Fat-Tree de duas camadas). Utilizando 64 switches IB de 400G, uma rede Fat-Tree de duas camadas pode suportar até 16,384 GPUs (um plano inclui 32 switches Spine e 64 switches Leaf, acomodando 64 x 32 GPUs; com 8 planos, totalizando 16,384 GPUs). A troca de tráfego entre planos requer encaminhamento intra-nó.

Este modo de rede multiplano oferece vantagens semelhantes à rede de plano duplo, com a principal diferença sendo que cada GPU possui um único uplink para um plano independente, não havendo tolerância a falhas de uplink duplo por placa:
- Custo mais baixoEm comparação com a arquitetura Fat-Tree de três camadas, o MPFT pode gerar uma economia de até 40% nos custos de rede.
- Maior escalabilidadeTeoricamente, suporta até 16,384 GPUs.
- Isolamento de tráfegoCada avião opera de forma independente, evitando congestionamentos entre aviões.
O artigo compara vários modos de rede (FT2: Fat-Tree de duas camadas, MPFT: Fat-Tree multiplano, FT3: Fat-Tree de três camadas, SF: Slim Fly, DF: Dragonfly):

Conforme demonstrado, o MPFT apresenta vantagens claras em termos de custo por nó, escalabilidade e outros aspectos.
No entanto, o MPFT descrito acima não é a implementação ideal. Um modo de rede multiplano mais adequado é ilustrado abaixo:

Cada NIC está equipada com múltiplas portas físicas (neste caso, 4 interfaces de 200G), com cada porta conectando-se a um plano de rede independente (similar ao modo de plano duplo HPN 7.0 da Alibaba Cloud, mas com 4 interfaces por NIC em vez de 2). Um único QP (Par de Filas) pode utilizar todas as portas disponíveis para transmissão e recepção de pacotes.
Ampliando a imagem para detalhes em uma seção dessa implantação multiplanar:

Usando switches 102.4T como exemplo, fornecendo 128 portas de 800G ou 512 portas de 200G via Shuffle (o Shuffle será abordado em detalhes em um tópico futuro; os switches podem fornecer diretamente links de 512 x 200G com Shuffle integrado ou usar um Shuffle Box externo ou Breakout Shuffle para alocação e mapeamento de links de fibra óptica). Cada GPU se conecta a 4 planos diferentes por meio de 4 portas de 200G, controladas por um QP para roteamento balanceado por pacote entre as portas. Esse modo é particularmente adequado para tráfego MoE all-to-all.
Diagrama de rede detalhado:

Em uma configuração de duas camadas e quatro planos, também pode acomodar 16,384 GPUs (nota: como cada NIC se conecta a 4 portas de 200G, o número de switches aumenta — exigindo 1,024 switches Spine e 2,048 switches Leaf, 4 vezes os 768 switches em um MPFT de porta única).

Além disso, para habilitar esses recursos, novos requisitos são impostos às placas de rede: suporte para comunicação multiplano, alcançando balanceamento de carga de pacotes QP em vários planos. Devido à chegada de pacotes fora de ordem por meio de diferentes planos, as placas de rede devem oferecer suporte nativo ao tratamento de pacotes fora de ordem.
A mais recente placa CX-8 da NVIDIA já suporta 4 planos de rede (4-Plane), permitindo o envio de pacotes por múltiplos caminhos em um único QP com processamento de pacotes fora de ordem em nível de hardware para garantir a consistência dos dados.
Em resumo, para a expansão de redes Scale-Out em centros de computação de IA, as tendências para o futuro próximo provavelmente incluem a transição de redes de três camadas para redes de duas camadas, a criação de clusters de dez mil a cem mil placas com duas camadas e a adoção de redes multiplano com múltiplas portas.
Esta visão geral abrangente das arquiteturas de rede de plano duplo e multiplano destaca seu papel crucial na otimização de redes de data centers de IA, clustering de GPUs e computação de alto desempenho para treinamento de IA em larga escala. Essas inovações abordam desafios importantes em escalabilidade, custo-benefício e confiabilidade para centros de computação de inteligência de próxima geração.
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module
$550.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico
$700.00
-
Módulo transceptor óptico compatível com NVIDIA MMA1Z00-NS400 400G QSFP112 VR4 PAM4 850nm 50m MTP/MPO-12 OM4 FEC
$550.00
-
NVIDIA MMS1Z00-NS400 Compatível 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 com Módulo Transceptor Óptico FEC
$850.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$900.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$1199.00
-
Módulo transceptor óptico compatível com NVIDIA MMS4X50-NM OSFP 2x400G FR4 PAM4 1310nm 2km DOM Dual Duplex LC SMF
$1200.00
-
Módulo transceptor óptico duplo MPO-4 SMF compatível com NVIDIA MMS00A980 (9-1IAH00-00XM1.6) OSFP DR8D PAM4 1311T 500nm 12m IHS/Finned Top
$2600.00
-
Módulo transceptor óptico LC SMF dual duplex LC 1.6T 2xFR4/FR8 OSFP224 PAM4 1310 nm 2 km IHS/Finned Top compatível com NVIDIA
$3100.00
-
Módulo transceptor óptico NVIDIA MMS4A00 (980-9IAH0-00XM00) compatível com 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/Flat Top Dual MPO-12/APC InfiniBand XDR SMF
$3600.00
