Presentación de la arquitectura TPU de Google: conmutación de circuitos ópticos OCS: el motor de evolución del cubo 4x4x4 al chip Ironwood de 9216

¿Qué distingue a los clústeres TPU de Google en la carrera de la supercomputación con IA? ¿Cómo ha permitido la combinación de la topología 3D Torus y la tecnología OCS (Conmutación de Circuitos Ópticos) un escalamiento masivo, manteniendo una baja latencia y un coste total de propiedad (TCO) óptimo?

En esta entrada de blog exhaustiva, profundizamos en la evolución de los clústeres de computación inteligente TPU de Google, centrándonos en los mecanismos sinérgicos de las topologías 3D Torus y la tecnología OCS. Partiendo de la unidad topológica más pequeña (el cubo 4x4x4), reconstruimos el Torus 3D estándar en el Pod TPUv4 4096 y el Torus 3D Twisted en el Pod TPUv7 9216. Lo compararemos con la rentable malla 2D Torus en TPUv5e/v6e, exploraremos cómo Google logra una baja latencia determinista a escala de decenas de miles de chips, contrastaremos los enfoques de AWS y NVIDIA, y analizaremos tendencias futuras como la CPO (óptica coempaquetada), que permite la emisión de luz a nivel de chip y la conexión directa totalmente óptica.

01 Preludio: Resumen de la evolución del supernodo TPU

Anteriormente, exploramos la evolución de TPUv1 (detrás de AlphaGo) a TPUv7 (supernodo Ironwood de 9216 chips) con tecnología OCS + ICI + 3D Torus, comparable al GB200/GB300 de NVIDIA. También realizamos comparaciones con Alibaba y NVIDIA, analizando quiénes se benefician realmente en la era de la IA, tanto vendiendo herramientas como extrayendo oro.

Ahora, basándonos en los artículos publicados de Google sobre cómo 48 unidades OCS respaldan un pod TPUv4 de 4096 chips, analizaremos las capas paso a paso: desde el clúster TPUv4 de 4096 chips hasta el último clúster TPUv7 de 9216 chips, destacando la evolución de las redes 2D/3D Torus + conmutación óptica OCS + ICI, y cómo las cadenas de suministro maduras ascendentes/descendentes complementan esto perfectamente.

02 Fundación: Implementación de TPUv4 y Torus/OCS 3D

El Pod TPUv4 de 4096 chips es un producto emblemático que muestra la aplicación madura de la red de conmutación óptica OCS de Google, uno de los pocos casos clásicos visibles en canales públicos. Construyamos desde el módulo más pequeño hasta la arquitectura de clúster completa.

2.1 Unidad topológica más pequeña: Cubo 4×4×4

La unidad topológica mínima en la red de pods TPUv4 de Google es el cubo TPU (o cubo 4x4x4). Físicamente, suele ser un gabinete de servidor, pero lógicamente es un todo perfectamente integrado:

  • Composición: 4 (X) × 4 (Y) × 4 (Z) = 64 chips de TPU, que se asemejan a un cubo de Rubik sólido de cuarto orden.
  • Enlaces: Cada chip TPU tiene 6 enlaces ICI (Inter-Chip Interconnect) de alta velocidad en direcciones ±X, ±Y, ±Z, que forman la base de la cuadrícula Torus 3D.

2.2 Capas de enlaces y límites óptico-eléctricos en un solo cubo

En un cubo estándar de 4×4×4, los enlaces ICI se dividen en dos categorías según la posición y el medio, creando la red óptica-eléctrica híbrida única de TPU:

  • Interconexiones internas (núcleo cúbico): los enlaces internos (núcleo y caras no expuestas) utilizan placas base de PCB cortas y cables de cobre para señalización totalmente eléctrica, sin OCS, sin conversión óptica.
  • Interconexiones externas (superficie del cubo): solo están expuestos los enlaces en las seis superficies externas, lo que suma un total de 96 enlaces ópticos por cubo conectado a OCS para enrutamiento dinámico y escalamiento masivo.
Distribución de interfaz óptica y lógica de interconexión de cubos 4x4x4 TPUv4
(Referencia: Figura 1 – Distribución de interfaz óptica y lógica de interconexión de cubos 4x4x4 de TPUv4)
tabla 1
(Tabla 1: Cálculo de 96 enlaces ópticos en un cubo TPUv4 4x4x4)

2.3 Obtención de 48 unidades OCS en un clúster de pods TPUv4

Desde arriba, cada cubo tiene 64 chips. Para un módulo de 4096 chips: 4096 / 64 = 64 cubos.

Enlaces ópticos totales: 64 cubos × 96 enlaces/cubo = 6144 enlaces.

El OCS Palomar de Google suele tener 136×136 puertos, pero está diseñado para 128 puertos efectivos (alineación binaria + 8 de redundancia). Por lo tanto: 6144 enlaces ÷ 128 puertos/OCS = 48 unidades OCS.

Para una alineación estricta con el Torus 3D, los 48 OCS se organizan en tres grupos ortogonales para el tráfico X/Y/Z. Por ejemplo, el grupo del eje X cuenta con 16 OCS, cada uno gestionando únicamente enlaces de caras ±X en todos los cubos según el principio de "interconexión de la misma dimensión", lo que garantiza el aislamiento ortogonal, simplifica los algoritmos de enrutamiento y evita bloqueos.

En Torus 3D, OCS actúa como un panel de conexiones dinámico masivo, que materializa físicamente la geometría del Torus. Los datos que salen de la interfaz X+ de un nodo entran en la interfaz X- del nodo adyacente (tamaño de paso 1 en TPUv4 estándar, variable N en TPUv7 trenzado). Los nodos de borde se envuelven mediante OCS.

Topología ±X, ±Y, ±Z para 64 TPU en TPUv7
(Referencia: Figura 2 – Topología ±X, ±Y, ±Z para 64 TPU en TPUv7)

2.4 Núcleo del pod TPUv4: Microestructura de Palomar OCS

A diferencia de los conmutadores de paquetes sin pérdida, Palomar OCS no lee encabezados ni realiza conversión O/E: es puramente “reflexión de luz” de capa física.

La ruta interna tiene una forma clásica de “W” para minimizar la pérdida de inserción y permitir la conectividad entre cualquiera.

Principio de trayectoria óptica OCS W
(Referencia: Figura 3 – Principio de trayectoria óptica OCS “W”)

Ruta W: Colimador > Espejo dicroico > Matriz MEMS 2D I > Espejo dicroico > Matriz MEMS 2D II > Espejo dicroico > Colimador receptor.

Componentes clave: Doble MEMS 2D para la dirección del haz 3D; los espejos dicroicos transmiten tráfico de 1310 nm y reflejan luz de monitoreo de 850 nm. En combinación con los módulos de inyección y cámara para operaciones y mantenimiento en banda en tiempo real y ajustes MEMS en microsegundos, esta alineación de bucle cerrado es un obstáculo fundamental para la comercialización de Palomar OCS.

03 Evolución de la arquitectura: Toro 3D retorcido y toro 2D

Con un TDP de un solo chip que alcanza los 600 W y clústeres que superan los 9,216 chips, TPUv7 (Ironwood) se enfrenta a mayores desafíos de refrigeración y latencia. Google introdujo dos mejoras importantes: topología trenzada y expansión de escala extrema.

3.1 Topología de toro tridimensional retorcido TPUv7 y derivación de 9216 chips

El pod TPUv7 escala a 9216 chips frente a los 4096 del TPUv4. La unidad mínima sigue siendo un cubo 4x4x4 (64 chips): 9216/64 = 144 cubos.

Enlaces totales: 144 cubos × 96 enlaces/cubo = 13,824 puertos.

Según se informa, Google todavía utiliza 48 unidades OCS. (La Figura 4 muestra el Cubo A distribuyendo 96 enlaces a 48 OCS).

Cubo A que despliega 96 enlaces a 48 OCS

Para manejar esto, OCS se actualizó a 144 × 144 puertos (que coinciden con 144 cubos; probablemente 320 × 320 en realidad), con enlaces Twisted 3D Torus a 800 G/1.6 T para comunicación sin bloqueos.

Actualización de topología: Se introduce un tamaño de paso variable N para el toroide 3D trenzado para reducir los saltos. N óptimo ≈ Tamaño de dimensión / 2.

  • Izquierda: Toro 2D estándar (Paso=1, saltos secuenciales).
  • Derecha: Toro 2D retorcido (Paso=N, el “agujero de gusano” salta mediante OCS).
Comparación entre toros 2D estándar y torcidos
(Referencia: Figura 5 – Comparación entre toro 2D estándar y torcido)

Extendiéndose a 3D: (La Figura 6 muestra 128 conexiones TPU Slice (4x4x8), por ejemplo, salto del eje Z del Cubo A al Cubo B).

128 rebanadas de TPU

3.2 TPUv5e/v6e y malla toroidal 2D

Para la inferencia sensible a la latencia y el entrenamiento a escala media, TPUv5e/v6e (Trillium) adopta un diseño optimizado en costos: elimina el costoso OCS y utiliza una malla Torus 2D estática.

Módulo con un máximo de 256 TPU (4 gabinetes refrigerados por líquido en topología 16x16). Eje Y vertical mediante PCB/placa base; eje X horizontal mediante cables de cobre DAC QSFP-DD, cerrando bucles con cables largos.

Placa de refrigeración líquida TPUv5e y diseño de interfaz
(Referencia: Figura 7 – Diseño de la placa de refrigeración líquida y la interfaz de TPUv5e)

04 Comparación profunda del panorama industrial y validación de la cadena de suministro

4.1 Google (ICI) frente a AWS (Trainium) frente a NVIDIA

NVIDIA
(Tabla 2: Google TPU frente a AWS Trainium frente a NVIDIA H100/GB200)

4.2 Barreras de la industria: ¿Por qué es difícil replicar el modelo de Google?

El foso de TPUv7 Pod es la integración vertical desde los átomos hasta el ecosistema:

  • Los MEMS de alta precisión + control de circuito cerrado cruzan la óptica, la mecánica y los semiconductores, algo difícil para los proveedores generales.
  • La eficacia de 3D Torus depende de la sinergia del compilador Orion SDN + XLA para una ubicación y enrutamiento precisos.
  • Pila completa: Chip + PyTorch XLA/JAX + TF/JAX + Gemini + aplicaciones para mil millones de usuarios: volante de datos irreplicable.

4.3 Cadena de suministro: industrialización completa del ecosistema OCS

Informes recientes confirman la implementación de OCS de Google a través de una cadena de suministro validada cruzada:

  • MEMS: Silex Microsystems dominó los MEMS 2D de alto rendimiento.
  • Integración: Accelink (192×192), Dekoli se asocia con Lumentum para 320×320.
  • Óptica: Tengjing para espejos dicroicos.
  • Módulos: Coherent/Zhongji para 800G/1.6T.

Este ecosistema permite “Hardware como servicio” (HaaS): OCS de larga duración como infraestructura, lo que reduce el TCO.

05 Evolución futura: Hacia CPO e interconexión totalmente óptica en la era posterior a Moore

A medida que TPUv8 avanza con SerDes de más de 224 Gbps, la óptica conectable tradicional alcanza sus límites. El CPO romperá los límites de E/S.

El futuro TPU de Google puede cambiar a “emisión de luz a nivel de chip, directa totalmente óptica”: motores de luz empaquetados en un sustrato de TPU, salida óptica directa a una placa base OCS de alta densidad (320×320+).

En la era de la IAG posterior a Moore: ¿Ganará la tecnología universal Ethernet/InfiniBand o el “jardín amurallado” integrado verticalmente de Google con fotónica?

¿Qué aspectos de la evolución de la red TPU de Google te intrigan más: el toro torcido que reduce la latencia, la madurez de la cadena de suministro OCS o la posible transición a CPO? ¿Cómo ves esto en comparación con competidores como el futuro óptico NVLink de NVIDIA? ¡Comparte tu opinión!

Ir al Inicio