Dévoilement de l'architecture TPU de Google : commutation de circuits optiques OCS – Le moteur d'évolution du Cube 4x4x4 à l'Ironwood à 9216 puces

Qu'est-ce qui distingue les clusters TPU de Google dans la course au supercalcul IA ? Comment la combinaison de la topologie en tore 3D et de la technologie OCS (commutation de circuits optiques) a-t-elle permis une mise à l'échelle massive tout en maintenant une faible latence et un coût total de possession (TCO) optimal ?

Dans cet article de blog approfondi, nous explorons en détail l'évolution des clusters de calcul intelligent TPU de Google, en nous concentrant sur les mécanismes synergiques des topologies 3D Torus et de la technologie OCS. En partant de la plus petite unité topologique – le cube 4x4x4 – nous reconstruisons le Torus 3D standard du TPUv4 4096 Pod et le Torus 3D Twisted du TPUv7 9216 Pod. Nous comparerons ces architectures avec le Torus Mesh 2D économique des TPUv5e/v6e, examinerons comment Google parvient à une faible latence déterministe à l'échelle de dizaines de milliers de puces, comparerons les approches avec celles d'AWS et de NVIDIA, et anticiperons les tendances futures telles que le CPO (Co-Packaged Optics) permettant « l'émission de lumière au niveau de la puce et une connexion directe tout optique ».

01 Prélude : Récapitulatif de l’évolution de TPU SuperNode

Nous avons précédemment exploré l'évolution du TPUv1 (à l'origine d'AlphaGo) jusqu'au TPUv7 (super nœud Ironwood à 9216 puces) basé sur OCS, ICI et 3D Torus, comparable aux GB200/GB300 de NVIDIA. Nous avons également établi une comparaison avec Alibaba et NVIDIA, en analysant qui tire réellement profit de l'ère de l'IA, tant en vendant des outils qu'en exploitant les opportunités offertes par l'IA.

À présent, en nous appuyant sur les documents publiés par Google concernant la manière dont 48 unités OCS prennent en charge un pod TPUv4 de 4096 puces, nous allons examiner les différentes étapes : du cluster TPUv4 de 4096 puces au tout dernier cluster TPUv7 de 9216 puces, en soulignant l’évolution des réseaux Torus 2D/3D + commutation optique OCS + ICI, et comment les chaînes d’approvisionnement amont/aval matures complètent parfaitement ce système.

02 Fondation : Implémentation TPUv4 et Torus 3D/OCS

Le module TPUv4 à 4 096 puces est un produit phare illustrant la pleine maturité de l'application du réseau de commutation optique OCS de Google — l'un des rares exemples concrets visibles sur les canaux publics. Voyons comment il évolue, du plus petit module à l'architecture complète du cluster.

2.1 Plus petite unité topologique : cube 4×4×4

L'unité topologique minimale du réseau Google TPUv4 Pod est le TPU Cube (ou cube 4×4×4). Physiquement, il s'agit souvent d'une baie serveur, mais logiquement, c'est un ensemble étroitement intégré :

  • Composition : 4 (X) × 4 (Y) × 4 (Z) = 64 puces TPU, ressemblant à un Rubik's Cube solide du quatrième ordre.
  • Liens : Chaque puce TPU possède 6 liaisons haute vitesse ICI (Inter-Chip Interconnect) dans les directions ±X, ±Y, ±Z, formant la base de la grille Torus 3D.

2.2 Superposition des liaisons et frontières optoélectroniques dans un seul cube

Dans un cube standard 4×4×4, les liaisons ICI sont divisées en deux catégories en fonction de la position et du support, créant ainsi le réseau optique-électrique hybride unique de TPU :

  • Interconnexions internes (Cube Core) : Les liaisons internes (cœur et faces non exposées) utilisent des fonds de panier PCB courts et des câbles en cuivre pour la signalisation entièrement électrique — pas d'OCS, pas de conversion optique.
  • Interconnexions externes (surface du cube) : seules les liaisons sur les six surfaces extérieures sont exposées, totalisant 96 liaisons optiques par cube connectées à OCS pour le routage dynamique et une mise à l’échelle massive.
Distribution de la logique d'interconnexion et de l'interface optique du cube TPUv4 4x4x4
(Référence : Figure 1 – Distribution de la logique d'interconnexion et de l'interface optique du cube TPUv4 4x4x4)
table 1
(Tableau 1 : Calcul de 96 liaisons optiques dans un cube TPUv4 4x4x4)

2.3 Dérivation de 48 unités OCS dans un cluster de pods TPUv4

Vue de dessus, chaque Cube contient 64 puces. Pour un Pod de 4096 puces : 4096 / 64 = 64 Cubes.

Nombre total de liaisons optiques : 64 Cubes × 96 Liaisons/Cube = 6144 liaisons.

L'infrastructure OCS Palomar de Google comprend généralement 136 × 136 ports, mais est conçue pour 128 ports effectifs (alignement binaire + 8 ports de redondance). Ainsi : 6 144 liens ÷ 128 ports/OCS = 48 unités OCS.

Pour une parfaite adéquation avec le tore 3D, les 48 OCS sont organisés en trois groupes orthogonaux pour le trafic X/Y/Z. Par exemple, le groupe de l'axe X comprend 16 OCS, chacun gérant uniquement les liaisons de face ±X à travers tous les cubes selon le principe d'« interconnexion de même dimension », garantissant ainsi une isolation orthogonale, simplifiant les algorithmes de routage et évitant les blocages.

Dans le Torus 3D, l'OCS fait office de panneau de brassage dynamique massif, concrétisant physiquement la géométrie du Torus. Les données quittant l'interface X+ d'un nœud entrent dans l'interface X- du nœud adjacent (pas de 1 en TPUv4 standard, N variable en TPUv7 torsadé). Les nœuds périphériques s'enroulent autour du Torus via l'OCS.

Topologie ±X, ±Y, ±Z pour 64 TPU dans TPUv7
(Référence : Figure 2 – Topologie ±X, ±Y, ±Z pour 64 TPU dans TPUv7)

2.4 Noyau du module TPUv4 : Microstructure Palomar OCS

Contrairement aux commutateurs de paquets sans perte, Palomar OCS ne lit pas les en-têtes et n'effectue pas de conversion O/E ; il s'agit d'une simple « réflexion de la lumière » au niveau de la couche physique.

Le chemin interne forme une forme classique en « W » afin de minimiser les pertes d'insertion et de permettre une connectivité n'importe laquelle à n'importe quel appareil.

Principe du chemin optique OCS W
(Référence : Figure 3 – Principe du chemin optique « W » de l’OCS)

Chemin en W : Collimateur > Miroir dichroïque > Réseau MEMS 2D I > Miroir dichroïque > Réseau MEMS 2D II > Miroir dichroïque > Collimateur récepteur.

Composants clés : deux MEMS 2D pour le pilotage de faisceau 3D ; des miroirs dichroïques transmettent le signal à 1 310 nm tout en réfléchissant la lumière de surveillance à 850 nm. Associé à des modules d’injection et de caméra pour l’exploitation et la maintenance en temps réel dans la bande passante et des ajustements MEMS à la microseconde, cet alignement en boucle fermée constitue un obstacle majeur à la commercialisation du Palomar OCS.

03 Évolution architecturale : tore 3D torsadé et tore 2D

Avec une consommation énergétique (TDP) par puce atteignant 600 W et des clusters dépassant 9 216 puces, la TPUv7 (Ironwood) doit relever des défis plus importants en matière de refroidissement et de latence. Google a introduit deux améliorations majeures : une topologie torsadée et une capacité d’exécution extrêmement étendue.

3.1 Topologie de tore 3D torsadé TPUv7 et dérivation à 9216 puces

Le pod TPUv7 passe à 9216 puces contre 4096 pour le TPUv4. L'unité minimale reste un cube 4x4x4 (64 puces) : 9216 / 64 = 144 cubes.

Nombre total de liens : 144 Cubes × 96 Liens/Cube = 13 824 ports.

Google utiliserait encore 48 unités OCS. (La figure 4 montre le Cube A distribuant 96 liens vers 48 unités OCS.)

Cube A déployant 96 liens vers 48 OCS

Pour gérer cela, OCS a été mis à niveau vers des ports 144×144 (correspondant à 144 Cubes ; probablement 320×320 en réalité), avec des liaisons Twisted 3D Torus à 800G/1.6T pour une communication non bloquante.

Amélioration de la topologie : introduit une taille de pas variable N pour le tore 3D torsadé afin de réduire le nombre de sauts. N optimal ≈ Dimension_Size / 2.

  • À gauche : tore 2D standard (étape = 1, sauts séquentiels).
  • À droite : Torus 2D torsadé (Étape=N, sauts « trou de ver » via OCS).
Comparaison entre un tore 2D standard et un tore 2D torsadé
(Référence : Figure 5 – Comparaison entre un tore 2D standard et un tore 2D torsadé)

Extension à la 3D : (La figure 6 montre 128 connexions de tranches TPU (4x4x8), par exemple, saut sur l'axe Z du cube A au cube B.)

Tranche de 128 TPU

3.2 TPUv5e/v6e et maillage torique 2D

Pour l'inférence sensible à la latence et l'entraînement à moyenne échelle, TPUv5e/v6e (Trillium) adoptent une conception optimisée en termes de coûts : suppression de l'OCS coûteux, utilisation d'un maillage torique 2D statique.

Capacité maximale du module : 256 TPU (4 armoires à refroidissement liquide en topologie 16×16). Axe Y vertical via circuit imprimé/fond de panier ; axe X horizontal via câbles en cuivre QSFP-DD DAC, boucles de fermeture réalisées avec de longs câbles.

Disposition de la plaque de refroidissement liquide et de l'interface TPUv5e
(Référence : Figure 7 – Disposition de la plaque de refroidissement liquide et de l'interface TPUv5e)

04 Analyse comparative approfondie du paysage industriel et validation de la chaîne d'approvisionnement

4.1 Google (ICI) contre AWS (Trainium) contre NVIDIA

NVIDIA
(Tableau 2 : Google TPU vs. AWS Trainium vs. NVIDIA H100/GB200)

4.2 Obstacles du secteur : Pourquoi est-il difficile de reproduire le modèle de Google ?

Le principal atout de TPUv7 Pod réside dans son intégration verticale, des atomes à l'écosystème :

  • Les MEMS de haute précision associés à une commande en boucle fermée font appel à l'optique, à la mécanique et aux semi-conducteurs – un défi de taille pour les fournisseurs généralistes.
  • L'efficacité de 3D Torus repose sur la synergie entre Orion SDN et le compilateur XLA pour un placement/routage précis.
  • Pile logicielle complète : Puce + PyTorch XLA/JAX + TF/JAX + Gemini + applications à un milliard d'utilisateurs — un cercle vertueux de données impossible à reproduire.

4.3 Chaîne d'approvisionnement : Industrialisation complète de l'écosystème OCS

Des rapports récents confirment le déploiement d'OCS par Google via une chaîne d'approvisionnement validée par recoupement :

  • MEMS : Silex Microsystems a maîtrisé les MEMS 2D à haut rendement.
  • Intégration : Accelink (192×192), Dekoli en partenariat avec Lumentum pour 320×320.
  • Optique : Tengjing pour les miroirs dichroïques.
  • Modules : Coherent/Zhongji pour 800G/1.6T.

Cet écosystème permet le « matériel en tant que service » (HaaS) : OCS à longue durée de vie comme infrastructure, réduisant le TCO.

05 Évolution future : vers l’interconnexion CPO et tout optique à l’ère post-Moore

Avec l'avènement de TPUv8 et ses SerDes à plus de 224 Gbit/s, les solutions optiques enfichables traditionnelles atteignent leurs limites. CPO repoussera les frontières des E/S.

Les futurs TPU de Google pourraient évoluer vers une « émission de lumière au niveau de la puce, entièrement optique directe » : des moteurs lumineux co-emballés sur un substrat TPU, une sortie optique directe vers un fond de panier OCS haute densité (320×320+).

À l'ère post-Moore de l'intelligence artificielle générale : l'Ethernet universel/InfiniBand l'emportera-t-il, ou le « jardin clos » verticalement intégré de Google avec la photonique ?

Quels aspects de l'évolution du réseau TPU de Google vous intriguent le plus ? Le tore torsadé réduisant la latence, la maturité de la chaîne d'approvisionnement OCS ou le passage potentiel au CPO ? Comment voyez-vous cette évolution par rapport à l'avenir de la technologie optique NVLink de NVIDIA ? Partagez vos réflexions !

Remonter en haut