Revelando a arquitetura TPU do Google: OCS (Optical Circuit Switching) – O motor de evolução do cubo 4x4x4 ao Ironwood de 9216 chips.

O que diferencia os clusters TPU do Google na corrida da supercomputação para IA? Como a combinação da topologia 3D Torus com a tecnologia OCS (Optical Circuit Switching) possibilitou a escalabilidade massiva, mantendo baixa latência e um custo total de propriedade (TCO) otimizado?

Neste artigo detalhado, exploramos a fundo a evolução dos clusters de computação inteligente TPU do Google, com foco nos mecanismos sinérgicos das topologias 3D Torus e da tecnologia OCS. Partindo da menor unidade topológica — o Cubo 4x4x4 — reconstruímos o 3D Torus padrão no TPUv4 4096 Pod e o Twisted 3D Torus no TPUv7 9216 Pod. Compararemos isso com a malha 2D Torus, de baixo custo, presente no TPUv5e/v6e, exploraremos como o Google alcança baixa latência determinística em escala de dezenas de milhares de chips, contrastaremos com as abordagens da AWS e da NVIDIA e analisaremos tendências futuras como o CPO (Co-Packaged Optics), que possibilita “emissão de luz em nível de chip e conexão direta totalmente óptica”.

01 Prelúdio: Recapitulação da Evolução do Supernó TPU

Anteriormente, exploramos a jornada do TPUv1 (por trás do AlphaGo) até o TPUv7 (supernó Ironwood de 9216 chips) com tecnologia OCS + ICI + 3D Torus, comparável ao GB200/GB300 da NVIDIA. Também fizemos uma comparação com a Alibaba e a NVIDIA, discutindo quem realmente se beneficia na era da IA, tanto vendendo ferramentas quanto minerando ouro.

Agora, com base nos artigos publicados pelo Google sobre como 48 unidades OCS suportam um Pod TPUv4 de 4096 chips, vamos analisar os detalhes passo a passo: do cluster TPUv4 de 4096 chips ao mais recente cluster TPUv7 de 9216 chips, destacando a evolução das redes 2D/3D Torus + OCS com comutação óptica + ICI e como cadeias de suprimentos upstream/downstream maduras complementam isso perfeitamente.

02 Fundamentos: Implementação de TPUv4 e Torus 3D/OCS

O TPUv4 Pod de 4096 chips é um produto marcante que demonstra a aplicação consolidada da rede de comutação óptica OCS do Google — um dos poucos casos clássicos visíveis em canais públicos. Vamos construir desde o menor módulo até a arquitetura completa do cluster.

2.1 Menor unidade topológica: cubo 4×4×4

A unidade topológica mínima na rede Google TPUv4 Pod é o TPU Cube (ou cubo 4×4×4). Fisicamente, geralmente é um gabinete de servidor, mas logicamente é um todo altamente integrado:

  • Composição: 4 (X) × 4 (Y) × 4 (Z) = 64 chips de TPU, assemelhando-se a um cubo de Rubik sólido de quarta ordem.
  • Conexões: Cada chip TPU possui 6 conexões ICI (Inter-Chip Interconnect) de alta velocidade nas direções ±X, ±Y e ±Z, formando a base da grade do toroide 3D.

2.2 Camadas de ligação e limites óptico-elétricos em um único cubo

Em um cubo padrão 4×4×4, os links ICI são divididos em duas categorias com base na posição e no meio, criando a rede híbrida óptico-elétrica exclusiva da TPU:

  • Interconexões internas (núcleo cúbico): As ligações internas (núcleo e faces não expostas) utilizam placas de circuito impresso curtas e cabos de cobre para sinalização totalmente elétrica — sem OCS, sem conversão óptica.
  • Interconexões externas (superfície do cubo): Apenas os links nas seis superfícies externas estão expostos, totalizando 96 links ópticos por cubo conectados ao OCS para roteamento dinâmico e escalabilidade massiva.
Distribuição de interfaces lógicas e ópticas de interconexão de cubos TPUv4 4x4x4
(Referência: Figura 1 – Distribuição da interface lógica e óptica de interconexão do cubo 4x4x4 TPUv4)
tabela 1
(Tabela 1: Cálculo de 96 enlaces ópticos em um cubo TPUv4 4x4x4)

2.3 Derivando 48 Unidades OCS em um Cluster de Pods TPUv4

Visto de cima, cada Cube possui 64 chips. Para um Pod de 4096 chips: 4096 / 64 = 64 Cubes.

Total de ligações ópticas: 64 cubos × 96 ligações/cubo = 6144 ligações.

O OCS Palomar do Google normalmente possui 136×136 portas, mas foi projetado para 128 portas efetivas (alinhamento binário + 8 de redundância). Portanto: 6144 links ÷ 128 portas/OCS = 48 unidades OCS.

Para se alinhar estritamente com o Torus 3D, os 48 OCS são organizados em três grupos ortogonais para o tráfego X/Y/Z. Por exemplo, o grupo do eixo X possui 16 OCS, cada um lidando apenas com links de faces ±X em todos os Cubos sob o princípio de “interconexão da mesma dimensão” — garantindo isolamento ortogonal, simplificando os algoritmos de roteamento e evitando impasses.

Em um toroide 3D, o OCS atua como um painel de conexões dinâmico e massivo, concretizando fisicamente a geometria do toroide. Os dados que saem da interface X+ de um nó entram na interface X- do nó adjacente (passo de 1 no TPUv4 padrão, variável N no TPUv7 torcido). Os nós de borda se repetem através do OCS.

Topologia ±X, ±Y, ±Z para 64 TPUs em TPUv7
(Referência: Figura 2 – Topologia ±X, ±Y, ±Z para 64 TPUs no TPUv7)

2.4 Núcleo do Pod TPUv4: Microestrutura Palomar OCS

Ao contrário dos switches de pacotes sem perdas, o Palomar OCS não lê cabeçalhos nem realiza conversão O/E — trata-se puramente de "reflexão de luz" na camada física.

O caminho interno forma um clássico formato de "W" para minimizar a perda de inserção e permitir conectividade ponto a ponto.

Princípio do Caminho Óptico OCS W
(Referência: Figura 3 – Princípio do Caminho Óptico “W” do OCS)

Caminho W: Colimador > Espelho Dicróico > Matriz MEMS 2D I > Espelho Dicróico > Matriz MEMS 2D II > Espelho Dicróico > Colimador do Receptor.

Componentes principais: MEMS 2D duplo para direcionamento de feixe 3D; espelhos dicróicos transmitem tráfego de 1310 nm enquanto refletem a luz de monitoramento de 850 nm. Combinado com módulos de Injeção + Câmera para O&M em tempo real na banda e ajustes de MEMS em microssegundos — esse alinhamento em circuito fechado é uma barreira fundamental para a comercialização do Palomar OCS.

03 Evolução da Arquitetura: Toroide 3D Torcido e Toroide 2D

Com o TDP de chip único subindo para 600 W e clusters excedendo 9,216 chips, o TPUv7 (Ironwood) enfrenta desafios mais complexos de resfriamento e latência. O Google introduziu duas grandes atualizações: topologia torcida e expansão de escala extrema.

3.1 Topologia de toroide 3D torcido TPUv7 e derivação do chip 9216

O TPUv7 Pod é escalável para 9216 chips, em comparação com os 4096 do TPUv4. A unidade mínima permanece sendo um cubo 4x4x4 (64 chips): 9216 / 64 = 144 cubos.

Total de conexões: 144 cubos × 96 conexões/cubo = 13,824 portas.

O Google ainda utiliza, segundo informações, 48 ​​unidades OCS. (A Figura 4 mostra o Cubo A distribuindo 96 links para 48 unidades OCS.)

O cubo A se ramifica em 96 links para 48 OCS.

Para lidar com isso, a OCS fez um upgrade para portas de 144×144 (correspondentes a 144 Cubes; provavelmente 320×320 na realidade), com links Twisted 3D Torus de 800G/1.6T para comunicação sem bloqueio.

Atualização de topologia: Introduz tamanho de passo variável N para o Twisted 3D Torus para reduzir o número de saltos. N ideal ≈ Dimension_Size / 2.

  • À esquerda: Toroide 2D padrão (Passo=1, saltos sequenciais).
  • À direita: Toroide 2D torcido (Passo=N, saltos "buraco de minhoca" via OCS).
Comparação entre toroide 2D padrão e torcido
(Referência: Figura 5 – Comparação entre toroide 2D padrão e torcido)

Extensão para 3D: (A Figura 6 mostra 128 conexões de fatias TPU (4x4x8), por exemplo, salto no eixo Z do Cubo A para o Cubo B.)

128 fatias de TPU

3.2 TPUv5e/v6e e malha toroidal 2D

Para inferência sensível à latência e treinamento em escala média, as TPUv5e/v6e (Trillium) adotam um design otimizado em termos de custo: removem OCS dispendiosos e utilizam malha toroidal 2D estática.

Pod com capacidade máxima de 256 TPUs (4 gabinetes com refrigeração líquida em topologia 16×16). Eixo Y vertical via PCB/backplane; eixo X horizontal via cabos de cobre QSFP-DD DAC, fechando os circuitos com cabos longos.

Layout da placa de resfriamento líquido e da interface TPUv5e
(Referência: Figura 7 – Placa de resfriamento líquido TPUv5e e layout da interface)

04 Análise Detalhada do Cenário Industrial e Validação da Cadeia de Suprimentos

4.1 Google (ICI) vs. AWS (Trainium) vs. NVIDIA

NVIDIA
(Tabela 2: Google TPU vs. AWS Trainium vs. NVIDIA H100/GB200)

4.2 Barreiras do setor: por que é tão difícil replicar o modelo do Google?

O diferencial do TPUv7 Pod reside na integração vertical, desde os átomos até o ecossistema:

  • MEMS de alta precisão + controle em circuito fechado cruzam óptica, mecânica e semicondutores — um desafio para fornecedores em geral.
  • A eficácia do 3D Torus depende da sinergia entre o Orion SDN e o compilador XLA para um posicionamento/roteamento preciso.
  • Pilha completa: Chip + PyTorch XLA/JAX + TF/JAX + Gemini + aplicativos com bilhões de usuários — um ciclo virtuoso de dados irreplicável.

4.3 Cadeia de Suprimentos: Industrialização Completa do Ecossistema OCS

Relatórios recentes confirmam a implementação do OCS (Open Source Chain) do Google por meio de uma cadeia de suprimentos com validação cruzada:

  • MEMS: A Silex Microsystems dominou a tecnologia MEMS 2D de alto rendimento.
  • Integração: Accelink (192×192), Dekoli em parceria com Lumentum para 320×320.
  • Óptica: Tengjing para espelhos dicróicos.
  • Módulos: Coherent/Zhongji para 800G/1.6T.

Esse ecossistema possibilita o modelo "Hardware como Serviço" (HaaS): OCS de longa duração como infraestrutura, reduzindo o custo total de propriedade (TCO).

05 Evolução Futura: Rumo ao CPO e à Interconexão Totalmente Óptica na Era Pós-Moore

Com o avanço do TPUv8 e o SerDes de 224 Gbps ou mais, as ópticas plugáveis ​​tradicionais atingem seus limites. O CPO romperá as barreiras de E/S.

O futuro do Google TPU poderá adotar a "emissão de luz em nível de chip, totalmente óptica e direta": motores de luz integrados ao substrato de TPU, com saída óptica direta para o backplane OCS de alta densidade (320×320+).

Na era pós-AGI de Moore: prevalecerá o Ethernet/InfiniBand universal ou o "jardim murado" verticalmente integrado do Google com fotônica?

Quais aspectos da evolução da rede TPU do Google mais te intrigam: o Twisted Torus reduzindo a latência, a maturidade da cadeia de suprimentos do OCS ou a possível transição para o CPO? Como você vê isso em comparação com concorrentes como o futuro óptico do NVLink da NVIDIA? Compartilhe sua opinião!

Voltar ao Topo