Na preparação para a conferência Hot Chips de 2025, a NVIDIA revelou oficialmente a tecnologia Ethernet Spectrum-XGS. Esta solução inovadora, baseada em algoritmos de otimização de rede, introduz recursos de "escala transversal", superando as limitações físicas de energia e espaço de data centers individuais. Ela conecta múltiplos data centers distribuídos em diferentes cidades e países em uma "superfábrica de IA" unificada, fornecendo suporte de infraestrutura subjacente para cargas de trabalho de IA em larga escala, especialmente IA com agentes.
Conteúdo
AlterneDa escala vertical/extensível à escala horizontal: a escolha inevitável para o Spectrum-XGS
Os atuais data centers de IA enfrentam dois gargalos principais em termos de escala, e os modelos tradicionais de expansão vertical e horizontal estão tendo dificuldades para atender às demandas de IA em gigaescala:
- Limitações de ampliação: Alcançado pela atualização de sistemas ou racks individuais (por exemplo, aumentando a quantidade de GPUs ou aprimorando o desempenho de um único dispositivo), mas limitado por limites de energia de infraestrutura, como resfriamento a água. Os data centers existentes têm limites físicos para entrada de energia e dissipação de calor, evitando aumentos infinitos na densidade computacional por rack ou data center.
- Limitações de escalabilidade: Expandido pela adição de racks e servidores para dimensionar clusters, mas limitado pelo espaço físico em um único local, impondo limites rígidos à capacidade do equipamento.
Para superar esse dilema, a NVIDIA propõe a nova dimensão de "escala transversal", otimizando a comunicação de rede entre data centers geograficamente dispersos para que clusters de IA distribuídos colaborem como um só. O fundador e CEO da NVIDIA, Jensen Huang, descreve essa superfábrica de IA inter-regional como uma infraestrutura essencial para a revolução industrial da IA, com o Spectrum-XGS como o principal facilitador tecnológico.

Tecnologias principais do Spectrum-XGS
O Spectrum-XGS não é uma plataforma de hardware inteiramente nova, mas uma evolução do ecossistema Ethernet Spectrum-X existente da NVIDIA. Desde o seu lançamento em 2024, o Spectrum-X tem proporcionado um desempenho de rede de IA generativa 1.6x superior ao da Ethernet tradicional, por meio dos switches SN4 e das DPUs BlueField-5600 da arquitetura Spectrum-3, tornando-se a principal escolha para data centers de IA que utilizam GPUs NVIDIA. O avanço do Spectrum-XGS reside em três inovações algorítmicas e sinergias de hardware que abordam os desafios de latência de comunicação, congestionamento e sincronização em clusters de GPU inter-regionais.
1. Algoritmos Principais: Adaptação Dinâmica às Características de Redes de Longa Distância
O núcleo do Spectrum-XGS é um conjunto de “algoritmos de otimização de rede com reconhecimento de distância” que analisam parâmetros-chave da comunicação entre data centers em tempo real (distância, padrões de tráfego, níveis de congestionamento, métricas de desempenho) e ajustam dinamicamente as políticas de rede:
Controle de congestionamento adaptável à distância: Diferentemente do tratamento uniforme de todas as conexões da Ethernet tradicional, os algoritmos do Spectrum-XGS ajustam automaticamente os limites de congestionamento com base nas distâncias reais entre os data centers (atualmente suportando implantações de até centenas de quilômetros), evitando perda ou acúmulo de pacotes em transmissões de longa distância.
Gerenciamento preciso de latência: Por meio do roteamento adaptativo granular por pacote, elimina-se a latência causada pela jitter nas retransmissões de pacotes em redes tradicionais. A jitter é um risco crítico em clusters de IA: se uma única GPU apresentar atraso, todas as GPUs colaboradoras precisarão aguardar, impactando diretamente o desempenho geral.
Telemetria de ponta a ponta: A coleta em tempo real de dados de desempenho de link completo de GPUs para switches e links entre data centers fornece feedback em nível de milissegundos para ajustes algorítmicos, garantindo a correspondência dinâmica do status da rede com as demandas da carga de trabalho de IA.
2. Sinergias de hardware: aproveitando a base de alta largura de banda do ecossistema Spectrum-X
O Spectrum-XGS atinge desempenho ideal quando combinado com hardware NVIDIA específico:
Switches Spectrum-X: Como a espinha dorsal da rede subjacente, fornecendo alta densidade de portas e encaminhamento de baixa latência.
Placa de rede ConnectX-8 SuperNIC: Adaptador de rede dedicado à IA de 800 Gb/s para transferência de dados em alta velocidade entre GPUs e switches.
Hardware de arquitetura Blackwell: Como GPUs B200 e superchips GB10, profundamente integrados ao Spectrum-XGS para reduzir a latência de ponta a ponta. Validado pela NVIDIA por meio de benchmarks NCCL (biblioteca de comunicações coletivas): o Spectrum-XGS aumenta o desempenho da comunicação entre GPUs entre data centers em 1.9x, enquanto controla a latência de ponta a ponta em cerca de 200 milissegundos — um nível que proporciona responsividade e sem atrasos nas interações do usuário, atendendo aos requisitos em tempo real para inferência de IA.
Otimização de pilha completa para treinamento de IA e eficiência de inferência com Spectrum-XGS
O Spectrum-XGS não é uma tecnologia isolada, mas uma adição fundamental ao ecossistema de IA full-stack da NVIDIA. Nesta versão, a NVIDIA também revelou melhorias de desempenho em nível de software que se integram ao Spectrum-XGS para colaboração entre hardware, algoritmo e software:
- Atualização do software Dynamo: Otimizado para arquitetura Blackwell (por exemplo, sistemas B200) para aumentar o desempenho de inferência de modelos de IA em até 4x, reduzindo significativamente o consumo de computação para inferência de modelos grandes.
- Tecnologia de decodificação especulativa: Utiliza um pequeno modelo de rascunho para prever o próximo token de saída do modelo principal de IA com antecedência, reduzindo a computação do modelo principal e aprimorando o desempenho da inferência em mais 35%. Isso é especialmente adequado para cenários de inferência conversacional em modelos de linguagem de grande porte (LLMs).
Dave Salvator, diretor do departamento de computação acelerada da NVIDIA, afirmou que o objetivo principal dessas otimizações é escalar aplicações ambiciosas de IA agêntica. Seja treinando modelos grandes com trilhões de parâmetros ou suportando serviços de inferência de IA para milhões de usuários simultâneos, a combinação do Spectrum-XGS com o ecossistema de software proporciona um desempenho previsível.
Primeiras aplicações e impacto industrial do Spectrum-XGS
Primeiros usuários: CoreWeave é pioneiro em superfábrica de IA entre domínios A CoreWeave, provedora de serviços de nuvem para GPU, está entre as primeiras a adotar o Spectrum-XGS. O cofundador e CTO da empresa, Peter Salanki, observou que essa tecnologia permitirá que seus clientes acessem recursos de IA em gigaescala, acelerando avanços em todos os setores. Por exemplo, apoiando projetos de IA de ultragrande escala, como a iniciativa Stargate da Oracle, SoftBank e OpenAI.
Tendências do setor: Ethernet substituindo InfiniBand como rede de IA convencional Embora a InfiniBand detivesse cerca de 80% do mercado de redes backend de IA em 2023, o setor está migrando rapidamente para Ethernet. A decisão da NVIDIA de desenvolver o Spectrum-XGS em Ethernet está alinhada a esta tendência:
Vantagens de compatibilidade e custo: Ethernet é o padrão universal para data centers globais, mais familiar para engenheiros de rede e mais barato de implantar do que o InfiniBand.
Projeções em escala de mercado: Dados do Dell'Oro Group mostram que o mercado de switches Ethernet para data centers atingirá quase US$ 80 bilhões nos próximos cinco anos.
Crescimento próprio da NVIDIA: Relatórios do 650 Group indicam a NVIDIA como o "fornecedor de crescimento mais rápido" no mercado de switches de data center em 2024, com sua receita de negócios de rede atingindo US$ 5 bilhões no segundo trimestre de 2 (encerrado em 2024 de abril), um aumento de 27% em relação ao ano anterior.
O lançamento do Spectrum-XGS amplia a estratégia de monopólio full-stack da NVIDIA em infraestrutura de IA, ao mesmo tempo em que gera novas dinâmicas competitivas:
- Layout de pilha completa da NVIDIADe GPUs (Blackwell), interconexões (NVLink/NVLink Switch), redes (Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand) a software (CUDA, TensorRT-LLM, microsserviços NIM), a NVIDIA formou um ciclo fechado que abrange "computação-conexão-software" para infraestrutura de IA. O Spectrum-XGS sinergiza com o NVLink para escalonamento em três níveis: intra-rack (NVLink), intra-datacenter (Spectrum-X) e entre datacenters (Spectrum-XGS).
- Respostas dos concorrentes: A tecnologia SUE anterior da Broadcom compartilha objetivos semelhantes com o Spectrum-XGS, visando otimizar o desempenho Ethernet para diminuir a diferença com o InfiniBand. Além disso, fornecedores como Arista, Cisco e Marvell estão acelerando switches Ethernet dedicados à IA, com a concorrência se concentrando na compatibilidade entre desempenho, custo e ecossistema.
O valor central do Spectrum-XGS está em impulsionar a escalabilidade de data centers de IA de "restrições de local único" para "colaboração inter-regional". À medida que energia e terra se tornam limites rígidos para data centers individuais, superfábricas de IA entre cidades e países se tornarão a forma central de suporte a aplicações de IA de próxima geração (por exemplo, inteligência artificial geral, clusters de agentes em larga escala).
Como o vice-presidente sênior do departamento de rede da NVIDIA, Gilad Shainer, previu na conferência Hot Chips: “Redes físicas de fibra óptica entre data centers existem há muito tempo, mas algoritmos de software como o Spectrum-XGS são a chave para revelar o verdadeiro desempenho dessas infraestruturas físicas”.
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$900.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$1199.00
-
Módulo transceptor óptico compatível com NVIDIA MMS4X50-NM OSFP 2x400G FR4 PAM4 1310nm 2km DOM Dual Duplex LC SMF
$1200.00
-
Módulo transceptor óptico duplo MPO-4 SMF compatível com NVIDIA MMS00A980 (9-1IAH00-00XM1.6) OSFP DR8D PAM4 1311T 500nm 12m IHS/Finned Top
$2600.00
-
Módulo transceptor óptico LC SMF dual duplex LC 1.6T 2xFR4/FR8 OSFP224 PAM4 1310 nm 2 km IHS/Finned Top compatível com NVIDIA
$3100.00
-
Módulo transceptor óptico NVIDIA MMS4A00 (980-9IAH0-00XM00) compatível com 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/Flat Top Dual MPO-12/APC InfiniBand XDR SMF
$3600.00
