O que diferencia os clusters TPU do Google na corrida da supercomputação para IA? Como a combinação da topologia 3D Torus com a tecnologia OCS (Optical Circuit Switching) possibilitou a escalabilidade massiva, mantendo baixa latência e um custo total de propriedade (TCO) otimizado?
Neste artigo detalhado, exploramos a fundo a evolução dos clusters de computação inteligente TPU do Google, com foco nos mecanismos sinérgicos das topologias 3D Torus e da tecnologia OCS. Partindo da menor unidade topológica — o Cubo 4x4x4 — reconstruímos o 3D Torus padrão no TPUv4 4096 Pod e o Twisted 3D Torus no TPUv7 9216 Pod. Compararemos isso com a malha 2D Torus, de baixo custo, presente no TPUv5e/v6e, exploraremos como o Google alcança baixa latência determinística em escala de dezenas de milhares de chips, contrastaremos com as abordagens da AWS e da NVIDIA e analisaremos tendências futuras como o CPO (Co-Packaged Optics), que possibilita “emissão de luz em nível de chip e conexão direta totalmente óptica”.
Conteúdo
Alterne01 Prelúdio: Recapitulação da Evolução do Supernó TPU
Anteriormente, exploramos a jornada do TPUv1 (por trás do AlphaGo) até o TPUv7 (supernó Ironwood de 9216 chips) com tecnologia OCS + ICI + 3D Torus, comparável ao GB200/GB300 da NVIDIA. Também fizemos uma comparação com a Alibaba e a NVIDIA, discutindo quem realmente se beneficia na era da IA, tanto vendendo ferramentas quanto minerando ouro.
Agora, com base nos artigos publicados pelo Google sobre como 48 unidades OCS suportam um Pod TPUv4 de 4096 chips, vamos analisar os detalhes passo a passo: do cluster TPUv4 de 4096 chips ao mais recente cluster TPUv7 de 9216 chips, destacando a evolução das redes 2D/3D Torus + OCS com comutação óptica + ICI e como cadeias de suprimentos upstream/downstream maduras complementam isso perfeitamente.
02 Fundamentos: Implementação de TPUv4 e Torus 3D/OCS
O TPUv4 Pod de 4096 chips é um produto marcante que demonstra a aplicação consolidada da rede de comutação óptica OCS do Google — um dos poucos casos clássicos visíveis em canais públicos. Vamos construir desde o menor módulo até a arquitetura completa do cluster.
2.1 Menor unidade topológica: cubo 4×4×4
A unidade topológica mínima na rede Google TPUv4 Pod é o TPU Cube (ou cubo 4×4×4). Fisicamente, geralmente é um gabinete de servidor, mas logicamente é um todo altamente integrado:
- Composição: 4 (X) × 4 (Y) × 4 (Z) = 64 chips de TPU, assemelhando-se a um cubo de Rubik sólido de quarta ordem.
- Conexões: Cada chip TPU possui 6 conexões ICI (Inter-Chip Interconnect) de alta velocidade nas direções ±X, ±Y e ±Z, formando a base da grade do toroide 3D.
2.2 Camadas de ligação e limites óptico-elétricos em um único cubo
Em um cubo padrão 4×4×4, os links ICI são divididos em duas categorias com base na posição e no meio, criando a rede híbrida óptico-elétrica exclusiva da TPU:
- Interconexões internas (núcleo cúbico): As ligações internas (núcleo e faces não expostas) utilizam placas de circuito impresso curtas e cabos de cobre para sinalização totalmente elétrica — sem OCS, sem conversão óptica.
- Interconexões externas (superfície do cubo): Apenas os links nas seis superfícies externas estão expostos, totalizando 96 links ópticos por cubo conectados ao OCS para roteamento dinâmico e escalabilidade massiva.


2.3 Derivando 48 Unidades OCS em um Cluster de Pods TPUv4
Visto de cima, cada Cube possui 64 chips. Para um Pod de 4096 chips: 4096 / 64 = 64 Cubes.
Total de ligações ópticas: 64 cubos × 96 ligações/cubo = 6144 ligações.
O OCS Palomar do Google normalmente possui 136×136 portas, mas foi projetado para 128 portas efetivas (alinhamento binário + 8 de redundância). Portanto: 6144 links ÷ 128 portas/OCS = 48 unidades OCS.
Para se alinhar estritamente com o Torus 3D, os 48 OCS são organizados em três grupos ortogonais para o tráfego X/Y/Z. Por exemplo, o grupo do eixo X possui 16 OCS, cada um lidando apenas com links de faces ±X em todos os Cubos sob o princípio de “interconexão da mesma dimensão” — garantindo isolamento ortogonal, simplificando os algoritmos de roteamento e evitando impasses.
Em um toroide 3D, o OCS atua como um painel de conexões dinâmico e massivo, concretizando fisicamente a geometria do toroide. Os dados que saem da interface X+ de um nó entram na interface X- do nó adjacente (passo de 1 no TPUv4 padrão, variável N no TPUv7 torcido). Os nós de borda se repetem através do OCS.

2.4 Núcleo do Pod TPUv4: Microestrutura Palomar OCS
Ao contrário dos switches de pacotes sem perdas, o Palomar OCS não lê cabeçalhos nem realiza conversão O/E — trata-se puramente de "reflexão de luz" na camada física.
O caminho interno forma um clássico formato de "W" para minimizar a perda de inserção e permitir conectividade ponto a ponto.

Caminho W: Colimador > Espelho Dicróico > Matriz MEMS 2D I > Espelho Dicróico > Matriz MEMS 2D II > Espelho Dicróico > Colimador do Receptor.
Componentes principais: MEMS 2D duplo para direcionamento de feixe 3D; espelhos dicróicos transmitem tráfego de 1310 nm enquanto refletem a luz de monitoramento de 850 nm. Combinado com módulos de Injeção + Câmera para O&M em tempo real na banda e ajustes de MEMS em microssegundos — esse alinhamento em circuito fechado é uma barreira fundamental para a comercialização do Palomar OCS.
03 Evolução da Arquitetura: Toroide 3D Torcido e Toroide 2D
Com o TDP de chip único subindo para 600 W e clusters excedendo 9,216 chips, o TPUv7 (Ironwood) enfrenta desafios mais complexos de resfriamento e latência. O Google introduziu duas grandes atualizações: topologia torcida e expansão de escala extrema.
3.1 Topologia de toroide 3D torcido TPUv7 e derivação do chip 9216
O TPUv7 Pod é escalável para 9216 chips, em comparação com os 4096 do TPUv4. A unidade mínima permanece sendo um cubo 4x4x4 (64 chips): 9216 / 64 = 144 cubos.
Total de conexões: 144 cubos × 96 conexões/cubo = 13,824 portas.
O Google ainda utiliza, segundo informações, 48 unidades OCS. (A Figura 4 mostra o Cubo A distribuindo 96 links para 48 unidades OCS.)

Para lidar com isso, a OCS fez um upgrade para portas de 144×144 (correspondentes a 144 Cubes; provavelmente 320×320 na realidade), com links Twisted 3D Torus de 800G/1.6T para comunicação sem bloqueio.
Atualização de topologia: Introduz tamanho de passo variável N para o Twisted 3D Torus para reduzir o número de saltos. N ideal ≈ Dimension_Size / 2.
- À esquerda: Toroide 2D padrão (Passo=1, saltos sequenciais).
- À direita: Toroide 2D torcido (Passo=N, saltos "buraco de minhoca" via OCS).

Extensão para 3D: (A Figura 6 mostra 128 conexões de fatias TPU (4x4x8), por exemplo, salto no eixo Z do Cubo A para o Cubo B.)

3.2 TPUv5e/v6e e malha toroidal 2D
Para inferência sensível à latência e treinamento em escala média, as TPUv5e/v6e (Trillium) adotam um design otimizado em termos de custo: removem OCS dispendiosos e utilizam malha toroidal 2D estática.
Pod com capacidade máxima de 256 TPUs (4 gabinetes com refrigeração líquida em topologia 16×16). Eixo Y vertical via PCB/backplane; eixo X horizontal via cabos de cobre QSFP-DD DAC, fechando os circuitos com cabos longos.

04 Análise Detalhada do Cenário Industrial e Validação da Cadeia de Suprimentos
4.1 Google (ICI) vs. AWS (Trainium) vs. NVIDIA

4.2 Barreiras do setor: por que é tão difícil replicar o modelo do Google?
O diferencial do TPUv7 Pod reside na integração vertical, desde os átomos até o ecossistema:
- MEMS de alta precisão + controle em circuito fechado cruzam óptica, mecânica e semicondutores — um desafio para fornecedores em geral.
- A eficácia do 3D Torus depende da sinergia entre o Orion SDN e o compilador XLA para um posicionamento/roteamento preciso.
- Pilha completa: Chip + PyTorch XLA/JAX + TF/JAX + Gemini + aplicativos com bilhões de usuários — um ciclo virtuoso de dados irreplicável.
4.3 Cadeia de Suprimentos: Industrialização Completa do Ecossistema OCS
Relatórios recentes confirmam a implementação do OCS (Open Source Chain) do Google por meio de uma cadeia de suprimentos com validação cruzada:
- MEMS: A Silex Microsystems dominou a tecnologia MEMS 2D de alto rendimento.
- Integração: Accelink (192×192), Dekoli em parceria com Lumentum para 320×320.
- Óptica: Tengjing para espelhos dicróicos.
- Módulos: Coherent/Zhongji para 800G/1.6T.
Esse ecossistema possibilita o modelo "Hardware como Serviço" (HaaS): OCS de longa duração como infraestrutura, reduzindo o custo total de propriedade (TCO).
05 Evolução Futura: Rumo ao CPO e à Interconexão Totalmente Óptica na Era Pós-Moore
Com o avanço do TPUv8 e o SerDes de 224 Gbps ou mais, as ópticas plugáveis tradicionais atingem seus limites. O CPO romperá as barreiras de E/S.
O futuro do Google TPU poderá adotar a "emissão de luz em nível de chip, totalmente óptica e direta": motores de luz integrados ao substrato de TPU, com saída óptica direta para o backplane OCS de alta densidade (320×320+).
Na era pós-AGI de Moore: prevalecerá o Ethernet/InfiniBand universal ou o "jardim murado" verticalmente integrado do Google com fotônica?
Quais aspectos da evolução da rede TPU do Google mais te intrigam: o Twisted Torus reduzindo a latência, a maturidade da cadeia de suprimentos do OCS ou a possível transição para o CPO? Como você vê isso em comparação com concorrentes como o futuro óptico do NVLink da NVIDIA? Compartilhe sua opinião!
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$900.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$1199.00
-
Módulo transceptor óptico compatível com NVIDIA MMS4X50-NM OSFP 2x400G FR4 PAM4 1310nm 2km DOM Dual Duplex LC SMF
$1200.00
-
Módulo transceptor NVIDIA MMS4A20-XM800 compatível com 800G DR4 OSFP224 4x200G-PAM4 1311nm 500m RHS/Flat Top DOM MTP/MPO-12 APC InfiniBand XDR
$1996.00
-
Módulo transceptor óptico duplo MPO-4 SMF compatível com NVIDIA MMS00A980 (9-1IAH00-00XM1.6) OSFP DR8D PAM4 1311T 500nm 12m IHS/Finned Top
$2600.00
-
Módulo transceptor óptico LC SMF dual duplex LC 1.6T 2xFR4/FR8 OSFP224 PAM4 1310 nm 2 km IHS/Finned Top compatível com NVIDIA
$3100.00
-
Módulo transceptor óptico NVIDIA MMS4A00 (980-9IAH0-00XM00) compatível com 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/Flat Top Dual MPO-12/APC InfiniBand XDR SMF
$3600.00
-
OSFP-1.6T-4FR2 1.6T OSFP 4FR2 PAM4 1291/1311nm 2km SN SMF Módulo Transceptor Óptico
$22400.00
-
OSFP-1.6T-2FR4 1.6T OSFP 2xFR4 PAM4 2x CWDM4 2km Dual Duplex LC SMF Módulo Transceptor Óptico
$22400.00
-
OSFP-1.6T-DR8D+ 1.6T OSFP DR8D+ PAM4 1311nm 2km Dual MPO-12 SMF Módulo Transceptor Óptico
$18000.00
