Dos chips de IA à batalha final pelo posicionamento de CPO: o confronto entre os roteiros tecnológicos da NVIDIA e da Broadcom

Na era impulsionada pela inteligência artificial (IA) e pelo aprendizado de máquina, o tráfego global de dados está se multiplicando exponencialmente. Servidores e switches de data centers estão passando por uma rápida transição de conexões de 200G e 400G para velocidades de 800G, 1.6T e, potencialmente, até mesmo 3.2T.

A empresa de pesquisa de mercado TrendForce prevê que as remessas globais de módulos transceptores ópticos acima de 400G atingirão 6.4 milhões de unidades em 2023, aproximadamente 20.4 milhões em 2024 e ultrapassarão 31.9 milhões em 2025, refletindo um crescimento anual de 56.5%. A demanda por servidores de IA continua impulsionando a expansão dos módulos de 800G e 1.6T, enquanto as atualizações de servidores tradicionais também contribuem para esse crescimento. Transceptor óptico 400G .

Pesquisas adicionais indicam que a demanda por módulos ópticos de 1.6T em 2026 superará significativamente as expectativas, com projeções de remessas totais atingindo 11 milhões de unidades. Os principais fatores para esse crescimento incluem fortes aquisições da NVIDIA e do Google, complementadas por contribuições da Meta, Microsoft e AWS.

A comunicação óptica, com sua alta largura de banda, baixa perda e capacidade de longo alcance, está se tornando cada vez mais a principal solução para interconexões intra e inter-rack, posicionando os módulos transceptores ópticos como componentes críticos na conectividade de data centers. A TrendForce enfatiza que a futura transmissão de dados de servidores de IA exigirá grandes quantidades de módulos transceptores ópticos de alta velocidade. Esses módulos convertem sinais elétricos em sinais ópticos para transmissão por fibra e reconvertem os sinais ópticos recebidos de volta para sinais elétricos.

01 Qual é a relação entre módulos transceptores ópticos, comunicação óptica e fotônica de silício?

Com base nos dois primeiros diagramas da figura original, os transceptores ópticos plugáveis ​​atualmente disponíveis no mercado atingem velocidades de até 800GA próxima fase envolve motores ópticos (Optical Engine, OE) instalados em torno de encapsulamentos de chips ASIC, conhecidos como On-Board Optics (OBO), que suportam transmissão de até 1.6T.

A indústria almeja avançar em direção à óptica co-embalada (CPO), onde os componentes ópticos são integrados juntamente com os ASICs. Essa tecnologia possibilita velocidades superiores a 3.2T, chegando a 12.8T. O objetivo final é a "E/S óptica", alcançando recursos completos de rede óptica com velocidades de transmissão acima de 12.8T.

Uma análise detalhada da figura revela que o módulo de comunicação óptica (anteriormente removível, representado por um bloco amarelo) está posicionado cada vez mais próximo do ASIC. Essa proximidade encurta os percursos dos sinais elétricos, permitindo maior largura de banda. A tecnologia de processo de fotônica de silício integra componentes ópticos diretamente nos chips.

Os transceptores ópticos plugáveis ​​atualmente disponíveis no mercado atingem velocidades de até 800G.

02 Crescimento explosivo na demanda por comunicação óptica: a indústria se concentra em três extensões de arquitetura de servidor

O crescimento exponencial das aplicações de IA aumentou drasticamente a demanda por comunicação óptica de alta velocidade. Os servidores priorizam principalmente a escalabilidade vertical (Scale-Up) e a escalabilidade horizontal (Scale-Out), cada uma atendendo a necessidades de transmissão e desafios técnicos distintos. Recentemente, a NVIDIA introduziu o conceito de "Scale-Across", adicionando uma nova dimensão às considerações do setor.

Aumentar a escala

A estratégia de escalonamento (Scale-Up) concentra-se em interconexões intra-rack de alta velocidade (seção amarela na figura), com distâncias de transmissão normalmente inferiores a 10 metros. Os requisitos de latência ultrabaixa favorecem as interconexões de cobre para evitar atrasos e consumo de energia decorrentes de conversões óptico-elétricas. As soluções atuais incluem o NVLink da NVIDIA (arquitetura proprietária) e o padrão aberto UALink, liderado pela AMD e outras empresas.

Notavelmente, a NVIDIA lançou o NVLink Fusion este ano, abrindo a tecnologia NVLink para fornecedores externos de chips pela primeira vez. Isso estende o NVLink de nós de servidor único para arquiteturas em escala de rack, possivelmente em resposta à concorrência do UALink.

A Broadcom, tradicionalmente focada em Scale-Out, está entrando no mercado de Scale-Up por meio do Ethernet. A empresa lançou recentemente vários chips compatíveis com os padrões Scale-Up Ethernet (SUE). Esse desenvolvimento prepara o terreno para a futura competição entre NVIDIA e Broadcom, que será discutida mais adiante.

Dimensionar

A tecnologia Scale-Out permite computação paralela em larga escala entre servidores (seção azul na figura), atendendo a dados de alto volume e escalabilidade infinita. A comunicação óptica domina esse cenário, com tecnologias de interconexão importantes, como InfiniBand e Ethernet, impulsionando o mercado de módulos ópticos.

InfiniBand e Ethernet formam dois grandes grupos: o primeiro é favorecido pela NVIDIA e pela Microsoft, enquanto o segundo é defendido pela Broadcom, pelo Google e pela AWS.

A liderança da NVIDIA no mercado de InfiniBand vem da Mellanox, adquirida pela empresa em 2019 como fornecedora de soluções completas de interconexão inteligente para Ethernet e InfiniBand. Recentemente, a China decidiu que a NVIDIA violou as leis antitruste nessa aquisição. A NVIDIA oferece diversos produtos InfiniBand, além de soluções Ethernet como o NVIDIA Spectrum-X, abrangendo ambos os mercados.

O grupo opositor — Intel, AMD, Broadcom e outros — formou o Ultra Ethernet Consortium (UEC) em julho de 2023 para desenvolver pilhas de transmissão Ethernet aprimoradas, desafiando o InfiniBand.

O analista da TrendForce, Chu Yu-chao, afirma que o mercado de módulos de comunicação óptica, impulsionado pela expansão horizontal (scale-out), representa o principal campo de batalha para a transmissão de dados do futuro.

Escala transversal

Como solução emergente, a NVIDIA propôs o "Scale-Across" para conexões de longa distância entre data centers, superiores a vários quilômetros. Para isso, lançou o Spectrum-XGS Ethernet, baseado em Ethernet, para interligar múltiplos data centers.

O Spectrum-XGS serve como um terceiro pilar além do Scale-Up e Scale-Out para computação de IA. Ele amplia o desempenho e a escalabilidade do Spectrum-X Ethernet, interconectando data centers distribuídos, transmitindo grandes conjuntos de dados para modelos de IA e coordenando a comunicação GPU-para-GPU dentro dos data centers.

Essa solução combina o Scale-Out com a extensão entre domínios, ajustando de forma flexível o balanceamento de carga e os algoritmos com base na distância — alinhando-se ao Scale-Across.

O fundador e CEO da NVIDIA, Jensen Huang, afirmou: "Com base nos recursos de escalonamento vertical (Scale-Up) e horizontal (Scale-Out), adicionamos o escalonamento transversal (Scale-Across) para conectar data centers em cidades, países e continentes, criando fábricas de IA gigantescas e robustas."

As tendências do setor mostram que a escalabilidade vertical (scale-up) e horizontal (scale-out) são territórios disputados, com a NVIDIA e a Broadcom competindo pela participação de mercado. A tecnologia Scale-Across da NVIDIA visa a transmissão entre data centers em distâncias de vários quilômetros a milhares de quilômetros. A Broadcom oferece soluções comparáveis.

03 Transmissão de chips de IA para a guerra de posicionamento de CPO: exatamente pelo que a NVIDIA e a Broadcom estão competindo?

NVIDIA vs. Broadcom

Compreender a comunicação óptica e as três arquiteturas de extensão de data center deixa claro que o mercado observa não apenas a AMD, mas também a rivalidade entre a líder em chips de IA, NVIDIA, e a gigante de chips de comunicação, Broadcom.

A competição na indústria de IA agora se estende além dos chips, abrangendo soluções em nível de sistema.

A primeira intersecção entre a Broadcom e a NVIDIA está nos "chips de IA personalizados" (ASICs). Como as GPUs da NVIDIA são caras, provedores de serviços em nuvem (CSPs) como Google, Meta, Amazon e Microsoft desenvolvem chips de IA internamente, em parceria principalmente com a Broadcom para obter conhecimento especializado em ASICs.

Principais chips desenvolvidos internamente por provedores de serviços de computação

CSPGoogleAWSMetaMicrosoft
ProdutoTPU v6 TrilliumTrainium v2, Trainium v3MTIA, MTIA v2Maia, Maia v2
Parceiro de Co-embalagemBroadcom, United Developers (TPU v7e)Marvell (Trainium v2) 、 ChipCore-KY (Trainium v3)BroadcomCreative Intent (Maia v2) 、 Marvell (Maia v2 Advanced Edition)

A segunda intersecção, ainda mais crítica, é a da “tecnologia de conectividade de rede”.

Em um cenário de escalabilidade ampliada, protegida pelas vantagens competitivas do NVLink e do CUDA, a Broadcom lança este ano o chip de switch de rede Tomahawk Ultra para entrar no mercado e desafiar o domínio do NVLink.

O Tomahawk Ultra faz parte da iniciativa Scale-Up Ethernet (SUE) da Broadcom, posicionado como uma alternativa ao NVSwitch. Ele conecta quatro vezes mais chips do que o NVLink Switch, fabricado no processo de 5nm da TSMC.

A Broadcom participa do consórcio UALink, mas promove o SUE baseado em Ethernet, o que levanta questões sobre sua dinâmica de competição e cooperação com o UALink em relação ao NVLink.

Para competir com a Broadcom, a NVIDIA lançou o NVFusion, abrindo espaço para colaboração com parceiros como MediaTek, Marvell e Astera Labs para chips de IA personalizados por meio do ecossistema NVLink. Essa abordagem semiaberta fortalece o ecossistema e, ao mesmo tempo, oferece opções de personalização.

NVIDIA NVLINK

Em termos de escalabilidade horizontal (scale-out), a veterana do Ethernet, Broadcom, domina com produtos como o Tomahawk 6 e o ​​Jericho4, voltados para escalabilidade horizontal e distâncias maiores.

A NVIDIA responde com switches Quantum InfiniBand e plataformas Spectrum Ethernet para uma cobertura de escalabilidade horizontal mais ampla. Embora o InfiniBand seja aberto, seu ecossistema é amplamente controlado pela Mellanox, adquirida pela NVIDIA, o que limita a flexibilidade para o cliente.

Broadcom-Tomahawk-Ultra-e-Tomahawk-6-escalado

De acordo com a imagem da Broadcom, os três produtos abrangem duas arquiteturas de extensão de servidor.

Para Scale-Across de longa distância, a liderança é incerta, mas a NVIDIA está na frente com o Spectrum-XGS. Ele usa novos algoritmos de rede para movimentação eficiente de dados a longa distância, complementando o Ampliação e expansão.

O Jericho4 da Broadcom está alinhado com o Scale-Across, suportando conexões entre sites com mais de 100 km de distância e transmissão RoCE sem perdas — quatro vezes a capacidade da geração anterior. A série Tomahawk suporta conexões dentro de racks de data center com menos de 1 km (cerca de 0.6 milhas).

Arquitetura de ExpansãoNVIDIABroadcomAMD
Aumentar a escalaSolução de ObstáculosNVLink (arquitetura fechada), NVFusion (arquitetura semi-fechada)UALink (arquitetura aberta), SUEUALink (arquitetura aberta)
 Esquema de soluçãoPlataforma NVLink, plataforma NVSwitch, esquema de solução NVFusionTomahawk Ultra, Tomahawk 6 (TH6)Infinity Fabric (já integrado ao UALink)
DimensionarSolução de ObstáculosObstáculo ao InfiniBand, produtos Ethernet existentesUEC (Obstáculo Ethernet)UEC
 Esquema de soluçãoPlataforma Quantum InfiniBand, Spectrum-X/ Spectrum Z, plataforma de comutação Too-networkTomahawk 6, Jericho4 
Escala transversalEsquema de soluçãoSpectrum-XGSJericó4 

04 Soluções de CPO da NVIDIA e da Broadcom?

Com a intensificação das disputas na transmissão de redes, a competição em redes ópticas também aumentará. A NVIDIA e a Broadcom buscam inovações em comunicação óptica CPO, enquanto a TSMC e a GlobalFoundries desenvolvem processos relacionados.

A estratégia da NVIDIA considera as interconexões ópticas como parte integrante do SoC, e não como módulos adicionais. Na GTC deste ano, a empresa apresentou os switches InfiniBand Quantum-X Photonics (com lançamento previsto para o final do ano) e os switches Ethernet Spectrum-X Photonics (2026).

Ambas as plataformas utilizam a tecnologia COUPE da TSMC com encapsulamento SoIC-X, integrando circuitos integrados fotônicos (PIC) e circuitos integrados eletrônicos (EIC) de 65 nm. Isso prioriza a integração da plataforma para maior eficiência e escalabilidade.

A Broadcom concentra-se em soluções abrangentes e escaláveis ​​para a cadeia de suprimentos de clientes terceirizados. Seu sucesso em CPO (Computer-Optative Products) deriva de sua profunda experiência em integração de semicondutores e componentes ópticos.

A Broadcom lançou a terceira geração do CPO de 200G/lane. Ele utiliza empilhamento de chips 3D: PIC de 65nm e EIC de 7nm.

Conforme ilustrado na figura, os módulos transceptores ópticos são compostos por componentes principais: diodos laser (fontes de luz), moduladores (conversão eletro-óptica) e fotodetectores. Os moduladores determinam a velocidade por faixa.

Componentes internos dos módulos do motor fotônico

Nome do Componentefunção
Fotodetector (PD, Fotodetector)Recebe sinais ópticos.
Guia de ondas (Waveguide)Fornece caminhos para a propagação da luz.
Modulador Óptico (Modulador Óptico)Sob condições de entrada de sinal elétrico, converte sinais elétricos em sinais ópticos.
Amplificador de Transimpedância (TIA, Amplificador de Transimpedância)Amplifica sinais de corrente e, simultaneamente, converte esses sinais em tensão.
Driver IC (Driver IC)Fornece os sinais elétricos necessários ao modulador óptico.
Interruptor (Interruptor)Gerencia o roteamento, a comutação de sinais elétricos e aloca a partir de qual trilha a saída será feita.

A NVIDIA seleciona moduladores de microanel (MRM) — compactos, mas sensíveis a erros e à temperatura, o que apresenta desafios de integração.

A Broadcom utiliza moduladores Mach-Zehnder (MZM) consolidados no desenvolvimento de MRM, alcançando testes de processo de 3nm e liderando a otimização de processos de chip (CPO) por meio do empilhamento de chips.

No coração da fotônica está o modulador.

Em meio à crescente inferência de IA, o foco muda da "corrida pelo poder computacional" para a "velocidade de transmissão de dados". Se a ênfase da Broadcom em redes/switches ou as soluções de ponta a ponta da NVIDIA prevalecerem na superação das barreiras de eficiência e latência, isso determinará o próximo líder na competição de IA.

Voltar ao Topo