¿Qué distingue a los clústeres TPU de Google en la carrera de la supercomputación con IA? ¿Cómo ha permitido la combinación de la topología 3D Torus y la tecnología OCS (Conmutación de Circuitos Ópticos) un escalamiento masivo, manteniendo una baja latencia y un coste total de propiedad (TCO) óptimo?
En esta entrada de blog exhaustiva, profundizamos en la evolución de los clústeres de computación inteligente TPU de Google, centrándonos en los mecanismos sinérgicos de las topologías 3D Torus y la tecnología OCS. Partiendo de la unidad topológica más pequeña (el cubo 4x4x4), reconstruimos el Torus 3D estándar en el Pod TPUv4 4096 y el Torus 3D Twisted en el Pod TPUv7 9216. Lo compararemos con la rentable malla 2D Torus en TPUv5e/v6e, exploraremos cómo Google logra una baja latencia determinista a escala de decenas de miles de chips, contrastaremos los enfoques de AWS y NVIDIA, y analizaremos tendencias futuras como la CPO (óptica coempaquetada), que permite la emisión de luz a nivel de chip y la conexión directa totalmente óptica.
Índice del Contenido
Activa01 Preludio: Resumen de la evolución del supernodo TPU
Anteriormente, exploramos la evolución de TPUv1 (detrás de AlphaGo) a TPUv7 (supernodo Ironwood de 9216 chips) con tecnología OCS + ICI + 3D Torus, comparable al GB200/GB300 de NVIDIA. También realizamos comparaciones con Alibaba y NVIDIA, analizando quiénes se benefician realmente en la era de la IA, tanto vendiendo herramientas como extrayendo oro.
Ahora, basándonos en los artículos publicados de Google sobre cómo 48 unidades OCS respaldan un pod TPUv4 de 4096 chips, analizaremos las capas paso a paso: desde el clúster TPUv4 de 4096 chips hasta el último clúster TPUv7 de 9216 chips, destacando la evolución de las redes 2D/3D Torus + conmutación óptica OCS + ICI, y cómo las cadenas de suministro maduras ascendentes/descendentes complementan esto perfectamente.
02 Fundación: Implementación de TPUv4 y Torus/OCS 3D
El Pod TPUv4 de 4096 chips es un producto emblemático que muestra la aplicación madura de la red de conmutación óptica OCS de Google, uno de los pocos casos clásicos visibles en canales públicos. Construyamos desde el módulo más pequeño hasta la arquitectura de clúster completa.
2.1 Unidad topológica más pequeña: Cubo 4×4×4
La unidad topológica mínima en la red de pods TPUv4 de Google es el cubo TPU (o cubo 4x4x4). Físicamente, suele ser un gabinete de servidor, pero lógicamente es un todo perfectamente integrado:
- Composición: 4 (X) × 4 (Y) × 4 (Z) = 64 chips de TPU, que se asemejan a un cubo de Rubik sólido de cuarto orden.
- Enlaces: Cada chip TPU tiene 6 enlaces ICI (Inter-Chip Interconnect) de alta velocidad en direcciones ±X, ±Y, ±Z, que forman la base de la cuadrícula Torus 3D.
2.2 Capas de enlaces y límites óptico-eléctricos en un solo cubo
En un cubo estándar de 4×4×4, los enlaces ICI se dividen en dos categorías según la posición y el medio, creando la red óptica-eléctrica híbrida única de TPU:
- Interconexiones internas (núcleo cúbico): los enlaces internos (núcleo y caras no expuestas) utilizan placas base de PCB cortas y cables de cobre para señalización totalmente eléctrica, sin OCS, sin conversión óptica.
- Interconexiones externas (superficie del cubo): solo están expuestos los enlaces en las seis superficies externas, lo que suma un total de 96 enlaces ópticos por cubo conectado a OCS para enrutamiento dinámico y escalamiento masivo.


2.3 Obtención de 48 unidades OCS en un clúster de pods TPUv4
Desde arriba, cada cubo tiene 64 chips. Para un módulo de 4096 chips: 4096 / 64 = 64 cubos.
Enlaces ópticos totales: 64 cubos × 96 enlaces/cubo = 6144 enlaces.
El OCS Palomar de Google suele tener 136×136 puertos, pero está diseñado para 128 puertos efectivos (alineación binaria + 8 de redundancia). Por lo tanto: 6144 enlaces ÷ 128 puertos/OCS = 48 unidades OCS.
Para una alineación estricta con el Torus 3D, los 48 OCS se organizan en tres grupos ortogonales para el tráfico X/Y/Z. Por ejemplo, el grupo del eje X cuenta con 16 OCS, cada uno gestionando únicamente enlaces de caras ±X en todos los cubos según el principio de "interconexión de la misma dimensión", lo que garantiza el aislamiento ortogonal, simplifica los algoritmos de enrutamiento y evita bloqueos.
En Torus 3D, OCS actúa como un panel de conexiones dinámico masivo, que materializa físicamente la geometría del Torus. Los datos que salen de la interfaz X+ de un nodo entran en la interfaz X- del nodo adyacente (tamaño de paso 1 en TPUv4 estándar, variable N en TPUv7 trenzado). Los nodos de borde se envuelven mediante OCS.

2.4 Núcleo del pod TPUv4: Microestructura de Palomar OCS
A diferencia de los conmutadores de paquetes sin pérdida, Palomar OCS no lee encabezados ni realiza conversión O/E: es puramente “reflexión de luz” de capa física.
La ruta interna tiene una forma clásica de “W” para minimizar la pérdida de inserción y permitir la conectividad entre cualquiera.

Ruta W: Colimador > Espejo dicroico > Matriz MEMS 2D I > Espejo dicroico > Matriz MEMS 2D II > Espejo dicroico > Colimador receptor.
Componentes clave: Doble MEMS 2D para la dirección del haz 3D; los espejos dicroicos transmiten tráfico de 1310 nm y reflejan luz de monitoreo de 850 nm. En combinación con los módulos de inyección y cámara para operaciones y mantenimiento en banda en tiempo real y ajustes MEMS en microsegundos, esta alineación de bucle cerrado es un obstáculo fundamental para la comercialización de Palomar OCS.
03 Evolución de la arquitectura: Toro 3D retorcido y toro 2D
Con un TDP de un solo chip que alcanza los 600 W y clústeres que superan los 9,216 chips, TPUv7 (Ironwood) se enfrenta a mayores desafíos de refrigeración y latencia. Google introdujo dos mejoras importantes: topología trenzada y expansión de escala extrema.
3.1 Topología de toro tridimensional retorcido TPUv7 y derivación de 9216 chips
El pod TPUv7 escala a 9216 chips frente a los 4096 del TPUv4. La unidad mínima sigue siendo un cubo 4x4x4 (64 chips): 9216/64 = 144 cubos.
Enlaces totales: 144 cubos × 96 enlaces/cubo = 13,824 puertos.
Según se informa, Google todavía utiliza 48 unidades OCS. (La Figura 4 muestra el Cubo A distribuyendo 96 enlaces a 48 OCS).

Para manejar esto, OCS se actualizó a 144 × 144 puertos (que coinciden con 144 cubos; probablemente 320 × 320 en realidad), con enlaces Twisted 3D Torus a 800 G/1.6 T para comunicación sin bloqueos.
Actualización de topología: Se introduce un tamaño de paso variable N para el toroide 3D trenzado para reducir los saltos. N óptimo ≈ Tamaño de dimensión / 2.
- Izquierda: Toro 2D estándar (Paso=1, saltos secuenciales).
- Derecha: Toro 2D retorcido (Paso=N, el “agujero de gusano” salta mediante OCS).

Extendiéndose a 3D: (La Figura 6 muestra 128 conexiones TPU Slice (4x4x8), por ejemplo, salto del eje Z del Cubo A al Cubo B).

3.2 TPUv5e/v6e y malla toroidal 2D
Para la inferencia sensible a la latencia y el entrenamiento a escala media, TPUv5e/v6e (Trillium) adopta un diseño optimizado en costos: elimina el costoso OCS y utiliza una malla Torus 2D estática.
Módulo con un máximo de 256 TPU (4 gabinetes refrigerados por líquido en topología 16x16). Eje Y vertical mediante PCB/placa base; eje X horizontal mediante cables de cobre DAC QSFP-DD, cerrando bucles con cables largos.

04 Comparación profunda del panorama industrial y validación de la cadena de suministro
4.1 Google (ICI) frente a AWS (Trainium) frente a NVIDIA

4.2 Barreras de la industria: ¿Por qué es difícil replicar el modelo de Google?
El foso de TPUv7 Pod es la integración vertical desde los átomos hasta el ecosistema:
- Los MEMS de alta precisión + control de circuito cerrado cruzan la óptica, la mecánica y los semiconductores, algo difícil para los proveedores generales.
- La eficacia de 3D Torus depende de la sinergia del compilador Orion SDN + XLA para una ubicación y enrutamiento precisos.
- Pila completa: Chip + PyTorch XLA/JAX + TF/JAX + Gemini + aplicaciones para mil millones de usuarios: volante de datos irreplicable.
4.3 Cadena de suministro: industrialización completa del ecosistema OCS
Informes recientes confirman la implementación de OCS de Google a través de una cadena de suministro validada cruzada:
- MEMS: Silex Microsystems dominó los MEMS 2D de alto rendimiento.
- Integración: Accelink (192×192), Dekoli se asocia con Lumentum para 320×320.
- Óptica: Tengjing para espejos dicroicos.
- Módulos: Coherent/Zhongji para 800G/1.6T.
Este ecosistema permite “Hardware como servicio” (HaaS): OCS de larga duración como infraestructura, lo que reduce el TCO.
05 Evolución futura: Hacia CPO e interconexión totalmente óptica en la era posterior a Moore
A medida que TPUv8 avanza con SerDes de más de 224 Gbps, la óptica conectable tradicional alcanza sus límites. El CPO romperá los límites de E/S.
El futuro TPU de Google puede cambiar a “emisión de luz a nivel de chip, directa totalmente óptica”: motores de luz empaquetados en un sustrato de TPU, salida óptica directa a una placa base OCS de alta densidad (320×320+).
En la era de la IAG posterior a Moore: ¿Ganará la tecnología universal Ethernet/InfiniBand o el “jardín amurallado” integrado verticalmente de Google con fotónica?
¿Qué aspectos de la evolución de la red TPU de Google te intrigan más: el toro torcido que reduce la latencia, la madurez de la cadena de suministro OCS o la posible transición a CPO? ¿Cómo ves esto en comparación con competidores como el futuro óptico NVLink de NVIDIA? ¡Comparte tu opinión!
Productos relacionados:
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico
$650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico
$650.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF
$900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico
$1199.00
-
Módulo transceptor óptico OSFP 4x50G FR2 PAM400 4nm 4km DOM Dual Duplex LC SMF compatible con NVIDIA MMS1310X2-NM
$1200.00
-
Módulo transceptor APC InfiniBand XDR MTP/MPO-4, compatible con NVIDIA MMS20A800-XM800, 4G DR224 OSFP4, 200 x 4G-PAM1311, 500 nm, 12 m, RHS/Flat Top DOM
$1996.00
-
Módulo transceptor óptico MPO-4 SMF dual con aletas, compatible con NVIDIA MMS00A980 (9-1IAH00-00XM1.6), 8T OSFP DR4D PAM1311, 500 nm, 12 m, IHS
$2600.00
-
Módulo transceptor óptico LC SMF dúplex doble con aletas, compatible con NVIDIA, 1.6T, 2xFR4/FR8, OSFP224, PAM4, 1310 nm, 2 km, IHS
$3100.00
-
Módulo transceptor óptico InfiniBand XDR SMF, compatible con NVIDIA MMS4A00 (980-9IAH0-00XM00), 1.6T, 2xDR4/DR8, OSFP224, PAM4, 1311 nm, 500 m, RHS/Flat Top, MPO-12/APC dual, XDR
$3600.00
-
Módulo transceptor óptico SN SMF OSFP-1.6T-4FR2 1.6T OSFP 4FR2 PAM4 1291/1311 nm 2 km
$22400.00
-
Módulo transceptor óptico LC SMF dúplex dual de 1.6 km OSFP-2T-4FR1.6 2T OSFP 4xFR4 PAM2 4x CWDM2
$22400.00
-
Módulo transceptor óptico SMF MPO-1.6 dual PAM8 de 1.6 nm y 8 km OSFP-4T-DR1311D+ 2T OSFP DR12D+
$18000.00
Artículos Relacionados:
- ¿Cuáles son las diferencias entre el conmutador central y el conmutador normal?
- Qué es el adaptador de red: función, construcción y clasificación de las NIC
- ¿Cuál es la diferencia entre el conmutador Gigabit y el conmutador de 10 Gigabit?
- El último progreso de los estándares de transmisión óptica coherente de 400G y 800G
