Redes de plano duplo e multiplano em centros de computação de IA

No artigo anterior, discutimos as diferenças entre Scale-Out e Scale-Up. Scale-Up refere-se ao escalonamento vertical, que consiste em aumentar o número de placas de GPU/NPU em um único nó para melhorar o desempenho individual do nó. Scale-Out, por outro lado, envolve o escalonamento horizontal, adicionando mais nós para expandir a escala geral da rede, permitindo o suporte a tarefas de treinamento de modelos complexos que um único nó não consegue processar sozinho. Este artigo se concentra em apresentar arquiteturas de rede Scale-Out e suas tendências de desenvolvimento em centros de computação de IA.

Arquiteturas comuns para redes de centros de computação de IA

As redes de centros de computação de IA podem assumir diversas formas, como CLOS, Dragonfly, Slim Fly, Torus e outras. Além disso, vários modos de rede variantes evoluíram, incluindo Rail-only, Rail-optimized, MPFT, ZCube e mais. Dentre esses, a arquitetura Fat-Tree CLOS é amplamente adotada em cenários de treinamento de modelos de grande porte devido ao seu design de roteamento eficiente, excelente escalabilidade e facilidade de gerenciamento. Normalmente, utiliza-se uma arquitetura CLOS de duas camadas, Spine-Leaf. Quando a estrutura de duas camadas não atende às necessidades de escalabilidade, uma camada Super-Spine adicional pode ser adicionada para expansão.

Arquitetura CLOS de duas camadas

Arquitetura CLOS de duas camadas

Arquitetura CLOS de três camadas

Arquitetura CLOS de três camadas

Arquitetura exclusiva para trilhosProposta pelo MIT em 2023, a arquitetura de rede somente Rail mantém o domínio HB e os switches Rail, enquanto remove os switches Spine, reduzindo significativamente os custos de rede e o consumo de energia.

Arquitetura exclusiva para trilhos

Por exemplo, usando switches 51.2T, apenas 8 switches (128 portas 400G) podem formar um cluster de treinamento com mil placas.

Arquitetura Fat-Tree otimizada para trilhos (ROFT)Conforme ilustrado na figura abaixo, em uma arquitetura de rede multi-trilho, as demandas de comunicação para treinamento de IA podem ser aceleradas por meio da transmissão paralela em múltiplos trilhos. A maior parte do tráfego é agregada e transmitida dentro do mesmo trilho (passando por apenas um nível de chaveamento), enquanto uma pequena parcela envolve transmissão entre trilhos (exigindo dois ou mais níveis), aliviando assim a pressão sobre a comunicação da rede.

Arquitetura Fat-Tree otimizada para trilhos

Arquitetura de rede de plano duplo

Em 2024, a Alibaba Cloud propôs a arquitetura de rede dual-port dual-plane, que foi aplicada no HPN-7.0. Os principais objetivos dessa arquitetura são melhorar o desempenho, aumentar a confiabilidade e evitar a polarização de hash. Esse design multi-rail dual-plane se baseia na arquitetura ROFT, dividindo a porta 400G de cada NIC em duas portas 2x200G, conectadas a dois switches Leaf (ToR) diferentes. As portas downlink 400G nos switches Leaf são divididas em dois links 200G que se conectam a portas NIC diferentes.

Projeto de plano duplo HPN

O design de plano duplo HPN apresenta as seguintes vantagens principais:

  • Eliminação da polarização de hashEm redes tradicionais, o tráfego de baixa entropia e intermitente proveniente do treinamento de modelos grandes pode facilmente causar polarização de hash, levando a uma distribuição desigual do tráfego. O projeto de plano duplo divide os switches ToR em dois grupos independentes, fixando os caminhos para o tráfego que entra nos links de uplink, evitando a polarização de hash na camada de agregação, garantindo uma distribuição uniforme do tráfego, reduzindo significativamente o comprimento das filas e melhorando o desempenho da rede.
  • Escalabilidade e controle de custos aprimoradosUma rede de duas camadas pode acomodar mais de 15 mil GPUs, reduzindo uma camada em comparação com as arquiteturas CLOS tradicionais de três camadas e diminuindo os custos de implantação.
  • Maior confiabilidade e tolerância a falhas.Cada GPU conecta o uplink a dois switches ToR independentes, eliminando pontos únicos de falha. Durante falhas, apenas os grupos ECMP locais precisam ser atualizados, sem intervenção do controlador global, melhorando a eficiência da recuperação. Esses recursos aprimoram a tolerância a falhas da rede e garantem a estabilidade para o treinamento de modelos de grande porte.

Arquitetura de rede multiplano

Em maio de 2025, a equipe do DeepSeek publicou um artigo intitulado Análises do DeepSeek-V3: Desafios de escalabilidade e reflexões sobre hardware para arquiteturas de IAApresentando o conceito de rede multiplano. À medida que a escala dos parâmetros do LLM (Large Language Model) cresce exponencialmente, as topologias tradicionais de CLOS de três camadas (Fat-Tree) revelam cada vez mais limitações em termos de custo, escalabilidade e robustez.

O DeepSeek-V3 adota uma rede Multi-Plane Fat-Tree (MPFT) baseada em InfiniBand para substituir a arquitetura tradicional Fat-Tree de três camadas. Nessa configuração, cada nó é equipado com 8 GPUs e 8 placas de rede IB de 400 Gbps, com cada GPU correspondendo a uma placa de rede IB independente pertencente a um "plano de rede" diferente. As 8 GPUs por nó se conectam a 8 planos diferentes (ou seja, 8 planos Fat-Tree de duas camadas). Utilizando 64 switches IB de 400G, uma rede Fat-Tree de duas camadas pode suportar até 16,384 GPUs (um plano inclui 32 switches Spine e 64 switches Leaf, acomodando 64 x 32 GPUs; com 8 planos, totalizando 16,384 GPUs). A troca de tráfego entre planos requer encaminhamento intra-nó.

encaminhamento intra-nó

Este modo de rede multiplano oferece vantagens semelhantes à rede de plano duplo, com a principal diferença sendo que cada GPU possui um único uplink para um plano independente, não havendo tolerância a falhas de uplink duplo por placa:

  • Custo mais baixoEm comparação com a arquitetura Fat-Tree de três camadas, o MPFT pode gerar uma economia de até 40% nos custos de rede.
  • Maior escalabilidadeTeoricamente, suporta até 16,384 GPUs.
  • Isolamento de tráfegoCada avião opera de forma independente, evitando congestionamentos entre aviões.

O artigo compara vários modos de rede (FT2: Fat-Tree de duas camadas, MPFT: Fat-Tree multiplano, FT3: Fat-Tree de três camadas, SF: Slim Fly, DF: Dragonfly):

Tabela comparativa de modos de rede

Conforme demonstrado, o MPFT apresenta vantagens claras em termos de custo por nó, escalabilidade e outros aspectos.

No entanto, o MPFT descrito acima não é a implementação ideal. Um modo de rede multiplano mais adequado é ilustrado abaixo:

Diagrama ideal de implantação em múltiplos planos

Cada NIC está equipada com múltiplas portas físicas (neste caso, 4 interfaces de 200G), com cada porta conectando-se a um plano de rede independente (similar ao modo de plano duplo HPN 7.0 da Alibaba Cloud, mas com 4 interfaces por NIC em vez de 2). Um único QP (Par de Filas) pode utilizar todas as portas disponíveis para transmissão e recepção de pacotes.

Ampliando a imagem para detalhes em uma seção dessa implantação multiplanar:

Ampliação detalhada da configuração multiplanar

Usando switches 102.4T como exemplo, fornecendo 128 portas de 800G ou 512 portas de 200G via Shuffle (o Shuffle será abordado em detalhes em um tópico futuro; os switches podem fornecer diretamente links de 512 x 200G com Shuffle integrado ou usar um Shuffle Box externo ou Breakout Shuffle para alocação e mapeamento de links de fibra óptica). Cada GPU se conecta a 4 planos diferentes por meio de 4 portas de 200G, controladas por um QP para roteamento balanceado por pacote entre as portas. Esse modo é particularmente adequado para tráfego MoE all-to-all.

Diagrama de rede detalhado:

Diagrama detalhado de rede multiplano

Em uma configuração de duas camadas e quatro planos, também pode acomodar 16,384 GPUs (nota: como cada NIC se conecta a 4 portas de 200G, o número de switches aumenta — exigindo 1,024 switches Spine e 2,048 switches Leaf, 4 vezes os 768 switches em um MPFT de porta única).

configuração de 4 planos em duas camadas

Além disso, para habilitar esses recursos, novos requisitos são impostos às placas de rede: suporte para comunicação multiplano, alcançando balanceamento de carga de pacotes QP em vários planos. Devido à chegada de pacotes fora de ordem por meio de diferentes planos, as placas de rede devem oferecer suporte nativo ao tratamento de pacotes fora de ordem.

A mais recente placa CX-8 da NVIDIA já suporta 4 planos de rede (4-Plane), permitindo o envio de pacotes por múltiplos caminhos em um único QP com processamento de pacotes fora de ordem em nível de hardware para garantir a consistência dos dados.

Em resumo, para a expansão de redes Scale-Out em centros de computação de IA, as tendências para o futuro próximo provavelmente incluem a transição de redes de três camadas para redes de duas camadas, a criação de clusters de dez mil a cem mil placas com duas camadas e a adoção de redes multiplano com múltiplas portas.

Esta visão geral abrangente das arquiteturas de rede de plano duplo e multiplano destaca seu papel crucial na otimização de redes de data centers de IA, clustering de GPUs e computação de alto desempenho para treinamento de IA em larga escala. Essas inovações abordam desafios importantes em escalabilidade, custo-benefício e confiabilidade para centros de computação de inteligência de próxima geração.

Voltar ao Topo