Princípios-chave de design para clusters de IA: escala, eficiência e flexibilidade.

Na era dos modelos de IA com trilhões de parâmetros, a construção de clusters de IA de alto desempenho tornou-se uma vantagem competitiva essencial para provedores de nuvem e empresas de IA. Este artigo analisa em profundidade os requisitos de rede exclusivos das cargas de trabalho de IA, compara as diferenças arquitetônicas entre clusters de IA e data centers tradicionais e apresenta dois paradigmas de design de rede principais propostos pela Arista — Endpoint-Scheduled (NSF) e Comutação agendada (DSF) — ao mesmo tempo que oferece orientações práticas sobre a seleção de topologia e Interconexão 800G Tecnologia para diferentes escalas.

Requisitos de rede e características de tráfego de clusters de IA

Requisitos Essenciais: Escalabilidade, Eficiência e Flexibilidade Extremas

Requisitos de rede e características de tráfego de clusters de IA

À medida que os modelos de IA escalam rapidamente para trilhões de parâmetros, os clusters de treinamento e inferência impõem demandas sem precedentes à rede subjacente:

  • Expansão em escala ultragrandeDeve suportar computação colaborativa em centenas de milhares a milhões de XPUs (GPUs/NPUs), abrangendo desde cenários de rack único até múltiplos data centers.
  • Alta eficiência e latência ultrabaixaOperações frequentes de comunicação coletiva (por exemplo, AllReduce, AllGather) entre XPUs exigem latência na ordem de microssegundos e utilização de largura de banda ≥90%.
  • Adaptação HeterogêneaDeve suportar perfeitamente XPUs de diferentes fornecedores, orçamentos de energia variáveis ​​nos racks e cargas de trabalho mistas (treinamento + inferência), evitando a degradação de desempenho devido ao "efeito barril de madeira" (desempenho geral limitado pelo nó mais lento).

Quatro características únicas do tráfego de IA

Em comparação com o tráfego tradicional de data centers, o tráfego de IA exibe padrões distintos que influenciam diretamente as decisões de projeto de rede:

  • Alta Sincronização: Os trabalhos de treinamento trocam gradientes e parâmetros em ciclos fixos, resultando em tráfego "de longa duração e altamente sincronizado" que facilmente causa congestionamento no Incast.
  • Dependência acentuada de RDMARequer uma rede sem perdas**: RDMA sobre Ethernet Convergida (RoCEv2) é o padrão de facto; qualquer perda de pacote desencadeia retransmissão e picos drásticos de latência.
  • Características de fluxo estávelOs fluxos individuais têm longos tempos de vida (do início ao fim da tarefa), taxas extremamente altas e baixa entropia (caminhos relativamente fixos), tornando o balanceamento de carga ECMP tradicional ineficiente.
  • A confiabilidade foi transferida para a rede.Aplicações de IA transferem toda a responsabilidade pela confiabilidade para a rede — mesmo a perda de um único pacote pode corromper toda uma iteração de treinamento.

Diferenças arquitetônicas entre clusters de IA e clusters de data centers tradicionais

Os clusters tradicionais são "centrados em servidores de CPU", com a rede servindo principalmente ao tráfego horizontal entre ingestão de dados, armazenamento e computação. Em contraste, os clusters de IA modernos são "centrados em XPU" e claramente separados:

  • Rede Frontend – Tráfego de CPU para CPU e de CPU para armazenamento (semelhante a um data center tradicional).
  • Rede de back-end (Ferrovia) – Interconexão XPU-para-XPU de alta largura de banda e baixa latência, que se torna o gargalo de desempenho e o principal foco do projeto.

Essa arquitetura de rede dupla aumenta significativamente a complexidade geral.

Dois paradigmas principais de design de rede para clusters de IA

A Arista classifica as redes de back-end de clusters de IA atuais em dois paradigmas principais, com base em onde reside a responsabilidade pelo agendamento:

Arquitetura com agendamento de endpoints (NSF – Network Scheduled Fabric)

Conceito Central

Toda a inteligência de agendamento reside nos pontos de extremidade (NIC/DPU/IPU). A estrutura de rede realiza apenas o encaminhamento básico de pacotes — essencialmente uma extensão otimizada do Ethernet tradicional.

Principais Características Técnicas

  • Topologia: Spine-Leaf achatado clássico ou Super-Spine Clos; os switches precisam apenas de alta radix e portas de 800G.
  • Requisitos do ponto de extremidade: as placas de rede devem suportar balanceamento de carga dinâmico (DLB), roteamento adaptativo, distribuição de pacotes e controle de congestionamento de ponta a ponta (ECN/WRED).
  • Vantagens: Arquitetura simples, cabeamento flexível, totalmente compatível com o ecossistema Ethernet existente, ideal para clusters de pequeno a médio porte (≤10 mil XPUs).
  • Limitações: Forte dependência de fornecedor na camada de NIC; a complexidade do agendamento aumenta exponencialmente em grande escala, sendo suscetível a desequilíbrios de carga e pontos de acesso intenso.

Arquitetura com comutação agendada (DSF – Direct Switch Fabric)

Conceito Central

A responsabilidade pelo agendamento é totalmente transferida para os switches de rede. Os endpoints utilizam placas de rede comuns, enquanto a estrutura garante entrega de dados sem perdas e de alto desempenho por meio de comutação baseada em células e controle de fluxo baseado em créditos.

Principais Características Técnicas

  • Topologia: Os switches Leaf lidam com segmentação de células, VOQ (Virtual Output Queuing), agendamento e gerenciamento de crédito; os switches Spine/Super-Spine são encaminhadores simples de baixo consumo de energia.
  • Mecanismo sem perdas: O protocolo de solicitação/concessão de crédito + PFC + ECN garante zero estouro de buffer de ponta a ponta.
  • Capacidade de escalabilidade: Um único sistema suporta 4.6 mil × 800G ou 9.2 mil × 400G XPUs; a expansão em dois níveis permite alcançar mais de 32 mil GPUs.
  • Vantagens: Independente do fornecedor de placas de rede, desempenho extremamente estável em escala ultragrande, controle preciso de congestionamento.
  • Limitações: Maior complexidade e custo do hardware de comutação; o cabeamento deve estar alinhado com os requisitos de comutação de células.

Seleção de topologia e tecnologia de interconexão 800G

Topologia Multiplanar — A Base para XPUs em Escala de Milhões

Para alcançar escalabilidade linear para centenas de milhares ou milhões de XPUs, a Arista recomenda fortemente o seguinte: Multiplano arquitetura:

  • Cada plano é um tecido independente de espinha-folha (tipicamente 4K–10K XPUs).
  • Vários planos operam em paralelo e são interconectados por meio de uma camada de agregação.
  • Dez planos podem facilmente ultrapassar 100 mil XPUs, mantendo o isolamento de falhas e o escalonamento linear da largura de banda.

Seleção da tecnologia de interconexão 800G por cenário

Seleção da tecnologia de interconexão 800G por cenário
CenárioTecnologia RecomendadaDistânciaConsumo de energiaCustoNotas
Intra-Rack (<2 m)DAC / ACC≤2 mExtremamente baixoMenorCabo de cobre de conexão direta / cabo de cobre ativo
Intra-fila / Alcance curtoLPO / LRO≤50 mMuito baixoBaixaÓptica plugável com acionamento linear — economia de energia significativa em comparação com DSP.
Alcance médio (≤500 m)DSP Coerente≤500 mModeradoMédioÓptica DSP tradicional, ecossistema maduro
Longo alcance (2–100 km)DSP + DWDM≤100 km+Mais altoMais altoRequerido para conjuntos de edifícios ou campus universitários.

Conclusão e Tendências Futuras

Principais conclusões para a seleção de arquitetura

  • ≤10 mil XPUs → Preferir Endpoint-Scheduled (NSF) para flexibilidade em termos de custos e implantação.
  • ≥32 mil XPUs → Adotar obrigatoriamente Comutação agendada (DSF) para garantir um desempenho estável e eliminar gargalos nos pontos finais.
  • Escala de milhões → Multiplano + DSF Atualmente, é a única solução comprovada em nível de produção.

Tendências futuras

  • Otimização mais profunda das primitivas de comunicação coletiva (AllReduce, AllGather, etc.) na camada de rede.
  • Avaliação comparativa padronizada para MPI/NCCL/RCCL em redes de IA reais.
  • Integração de padrões emergentes como o Ultra Ethernet Consortium (UEC) e o UALink para impulsionar a indústria de "silos personalizados" em direção a interconexões abertas, padronizadas e de latência ultrabaixa.

Construir o supercomputador de IA da próxima geração não se resume mais a comprar mais GPUs — a rede se tornou o campo de batalha decisivo para desempenho, escalabilidade e custo total de propriedade.

Voltar ao Topo