Qu'est-ce qui distingue les clusters TPU de Google dans la course au supercalcul IA ? Comment la combinaison de la topologie en tore 3D et de la technologie OCS (commutation de circuits optiques) a-t-elle permis une mise à l'échelle massive tout en maintenant une faible latence et un coût total de possession (TCO) optimal ?
Dans cet article de blog approfondi, nous explorons en détail l'évolution des clusters de calcul intelligent TPU de Google, en nous concentrant sur les mécanismes synergiques des topologies 3D Torus et de la technologie OCS. En partant de la plus petite unité topologique – le cube 4x4x4 – nous reconstruisons le Torus 3D standard du TPUv4 4096 Pod et le Torus 3D Twisted du TPUv7 9216 Pod. Nous comparerons ces architectures avec le Torus Mesh 2D économique des TPUv5e/v6e, examinerons comment Google parvient à une faible latence déterministe à l'échelle de dizaines de milliers de puces, comparerons les approches avec celles d'AWS et de NVIDIA, et anticiperons les tendances futures telles que le CPO (Co-Packaged Optics) permettant « l'émission de lumière au niveau de la puce et une connexion directe tout optique ».
Table des Matières
cabillot01 Prélude : Récapitulatif de l’évolution de TPU SuperNode
Nous avons précédemment exploré l'évolution du TPUv1 (à l'origine d'AlphaGo) jusqu'au TPUv7 (super nœud Ironwood à 9216 puces) basé sur OCS, ICI et 3D Torus, comparable aux GB200/GB300 de NVIDIA. Nous avons également établi une comparaison avec Alibaba et NVIDIA, en analysant qui tire réellement profit de l'ère de l'IA, tant en vendant des outils qu'en exploitant les opportunités offertes par l'IA.
À présent, en nous appuyant sur les documents publiés par Google concernant la manière dont 48 unités OCS prennent en charge un pod TPUv4 de 4096 puces, nous allons examiner les différentes étapes : du cluster TPUv4 de 4096 puces au tout dernier cluster TPUv7 de 9216 puces, en soulignant l’évolution des réseaux Torus 2D/3D + commutation optique OCS + ICI, et comment les chaînes d’approvisionnement amont/aval matures complètent parfaitement ce système.
02 Fondation : Implémentation TPUv4 et Torus 3D/OCS
Le module TPUv4 à 4 096 puces est un produit phare illustrant la pleine maturité de l'application du réseau de commutation optique OCS de Google — l'un des rares exemples concrets visibles sur les canaux publics. Voyons comment il évolue, du plus petit module à l'architecture complète du cluster.
2.1 Plus petite unité topologique : cube 4×4×4
L'unité topologique minimale du réseau Google TPUv4 Pod est le TPU Cube (ou cube 4×4×4). Physiquement, il s'agit souvent d'une baie serveur, mais logiquement, c'est un ensemble étroitement intégré :
- Composition : 4 (X) × 4 (Y) × 4 (Z) = 64 puces TPU, ressemblant à un Rubik's Cube solide du quatrième ordre.
- Liens : Chaque puce TPU possède 6 liaisons haute vitesse ICI (Inter-Chip Interconnect) dans les directions ±X, ±Y, ±Z, formant la base de la grille Torus 3D.
2.2 Superposition des liaisons et frontières optoélectroniques dans un seul cube
Dans un cube standard 4×4×4, les liaisons ICI sont divisées en deux catégories en fonction de la position et du support, créant ainsi le réseau optique-électrique hybride unique de TPU :
- Interconnexions internes (Cube Core) : Les liaisons internes (cœur et faces non exposées) utilisent des fonds de panier PCB courts et des câbles en cuivre pour la signalisation entièrement électrique — pas d'OCS, pas de conversion optique.
- Interconnexions externes (surface du cube) : seules les liaisons sur les six surfaces extérieures sont exposées, totalisant 96 liaisons optiques par cube connectées à OCS pour le routage dynamique et une mise à l’échelle massive.


2.3 Dérivation de 48 unités OCS dans un cluster de pods TPUv4
Vue de dessus, chaque Cube contient 64 puces. Pour un Pod de 4096 puces : 4096 / 64 = 64 Cubes.
Nombre total de liaisons optiques : 64 Cubes × 96 Liaisons/Cube = 6144 liaisons.
L'infrastructure OCS Palomar de Google comprend généralement 136 × 136 ports, mais est conçue pour 128 ports effectifs (alignement binaire + 8 ports de redondance). Ainsi : 6 144 liens ÷ 128 ports/OCS = 48 unités OCS.
Pour une parfaite adéquation avec le tore 3D, les 48 OCS sont organisés en trois groupes orthogonaux pour le trafic X/Y/Z. Par exemple, le groupe de l'axe X comprend 16 OCS, chacun gérant uniquement les liaisons de face ±X à travers tous les cubes selon le principe d'« interconnexion de même dimension », garantissant ainsi une isolation orthogonale, simplifiant les algorithmes de routage et évitant les blocages.
Dans le Torus 3D, l'OCS fait office de panneau de brassage dynamique massif, concrétisant physiquement la géométrie du Torus. Les données quittant l'interface X+ d'un nœud entrent dans l'interface X- du nœud adjacent (pas de 1 en TPUv4 standard, N variable en TPUv7 torsadé). Les nœuds périphériques s'enroulent autour du Torus via l'OCS.

2.4 Noyau du module TPUv4 : Microstructure Palomar OCS
Contrairement aux commutateurs de paquets sans perte, Palomar OCS ne lit pas les en-têtes et n'effectue pas de conversion O/E ; il s'agit d'une simple « réflexion de la lumière » au niveau de la couche physique.
Le chemin interne forme une forme classique en « W » afin de minimiser les pertes d'insertion et de permettre une connectivité n'importe laquelle à n'importe quel appareil.

Chemin en W : Collimateur > Miroir dichroïque > Réseau MEMS 2D I > Miroir dichroïque > Réseau MEMS 2D II > Miroir dichroïque > Collimateur récepteur.
Composants clés : deux MEMS 2D pour le pilotage de faisceau 3D ; des miroirs dichroïques transmettent le signal à 1 310 nm tout en réfléchissant la lumière de surveillance à 850 nm. Associé à des modules d’injection et de caméra pour l’exploitation et la maintenance en temps réel dans la bande passante et des ajustements MEMS à la microseconde, cet alignement en boucle fermée constitue un obstacle majeur à la commercialisation du Palomar OCS.
03 Évolution architecturale : tore 3D torsadé et tore 2D
Avec une consommation énergétique (TDP) par puce atteignant 600 W et des clusters dépassant 9 216 puces, la TPUv7 (Ironwood) doit relever des défis plus importants en matière de refroidissement et de latence. Google a introduit deux améliorations majeures : une topologie torsadée et une capacité d’exécution extrêmement étendue.
3.1 Topologie de tore 3D torsadé TPUv7 et dérivation à 9216 puces
Le pod TPUv7 passe à 9216 puces contre 4096 pour le TPUv4. L'unité minimale reste un cube 4x4x4 (64 puces) : 9216 / 64 = 144 cubes.
Nombre total de liens : 144 Cubes × 96 Liens/Cube = 13 824 ports.
Google utiliserait encore 48 unités OCS. (La figure 4 montre le Cube A distribuant 96 liens vers 48 unités OCS.)

Pour gérer cela, OCS a été mis à niveau vers des ports 144×144 (correspondant à 144 Cubes ; probablement 320×320 en réalité), avec des liaisons Twisted 3D Torus à 800G/1.6T pour une communication non bloquante.
Amélioration de la topologie : introduit une taille de pas variable N pour le tore 3D torsadé afin de réduire le nombre de sauts. N optimal ≈ Dimension_Size / 2.
- À gauche : tore 2D standard (étape = 1, sauts séquentiels).
- À droite : Torus 2D torsadé (Étape=N, sauts « trou de ver » via OCS).

Extension à la 3D : (La figure 6 montre 128 connexions de tranches TPU (4x4x8), par exemple, saut sur l'axe Z du cube A au cube B.)

3.2 TPUv5e/v6e et maillage torique 2D
Pour l'inférence sensible à la latence et l'entraînement à moyenne échelle, TPUv5e/v6e (Trillium) adoptent une conception optimisée en termes de coûts : suppression de l'OCS coûteux, utilisation d'un maillage torique 2D statique.
Capacité maximale du module : 256 TPU (4 armoires à refroidissement liquide en topologie 16×16). Axe Y vertical via circuit imprimé/fond de panier ; axe X horizontal via câbles en cuivre QSFP-DD DAC, boucles de fermeture réalisées avec de longs câbles.

04 Analyse comparative approfondie du paysage industriel et validation de la chaîne d'approvisionnement
4.1 Google (ICI) contre AWS (Trainium) contre NVIDIA

4.2 Obstacles du secteur : Pourquoi est-il difficile de reproduire le modèle de Google ?
Le principal atout de TPUv7 Pod réside dans son intégration verticale, des atomes à l'écosystème :
- Les MEMS de haute précision associés à une commande en boucle fermée font appel à l'optique, à la mécanique et aux semi-conducteurs – un défi de taille pour les fournisseurs généralistes.
- L'efficacité de 3D Torus repose sur la synergie entre Orion SDN et le compilateur XLA pour un placement/routage précis.
- Pile logicielle complète : Puce + PyTorch XLA/JAX + TF/JAX + Gemini + applications à un milliard d'utilisateurs — un cercle vertueux de données impossible à reproduire.
4.3 Chaîne d'approvisionnement : Industrialisation complète de l'écosystème OCS
Des rapports récents confirment le déploiement d'OCS par Google via une chaîne d'approvisionnement validée par recoupement :
- MEMS : Silex Microsystems a maîtrisé les MEMS 2D à haut rendement.
- Intégration : Accelink (192×192), Dekoli en partenariat avec Lumentum pour 320×320.
- Optique : Tengjing pour les miroirs dichroïques.
- Modules : Coherent/Zhongji pour 800G/1.6T.
Cet écosystème permet le « matériel en tant que service » (HaaS) : OCS à longue durée de vie comme infrastructure, réduisant le TCO.
05 Évolution future : vers l’interconnexion CPO et tout optique à l’ère post-Moore
Avec l'avènement de TPUv8 et ses SerDes à plus de 224 Gbit/s, les solutions optiques enfichables traditionnelles atteignent leurs limites. CPO repoussera les frontières des E/S.
Les futurs TPU de Google pourraient évoluer vers une « émission de lumière au niveau de la puce, entièrement optique directe » : des moteurs lumineux co-emballés sur un substrat TPU, une sortie optique directe vers un fond de panier OCS haute densité (320×320+).
À l'ère post-Moore de l'intelligence artificielle générale : l'Ethernet universel/InfiniBand l'emportera-t-il, ou le « jardin clos » verticalement intégré de Google avec la photonique ?
Quels aspects de l'évolution du réseau TPU de Google vous intriguent le plus ? Le tore torsadé réduisant la latence, la maturité de la chaîne d'approvisionnement OCS ou le passage potentiel au CPO ? Comment voyez-vous cette évolution par rapport à l'avenir de la technologie optique NVLink de NVIDIA ? Partagez vos réflexions !
Produits associés:
-
NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF
$650.00
-
NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF
$900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF
$1199.00
-
Module émetteur-récepteur optique OSFP 4x50G FR2 PAM400 4nm 4km DOM double Duplex LC SMF Compatible NVIDIA MMS1310X2-NM
$1200.00
-
Module émetteur-récepteur APC InfiniBand XDR 4G compatible NVIDIA MMS20A800-XM800, 4G DR224 OSFP4 200x4G-PAM1311 500nm 12m RHS/Flat Top DOM MTP/MPO-XNUMX
$1996.00
-
Module émetteur-récepteur optique double MPO-4 SMF compatible NVIDIA MMS00A980 (9-1IAH00-00XM1.6) 8 T OSFP DR4D PAM1311 500 12 nm XNUMX m IHS/à ailettes
$2600.00
-
Module émetteur-récepteur optique double duplex LC SMF 1.6 T 2xFR4/FR8 OSFP224 PAM4 1310 2 nm XNUMX km IHS/à ailettes supérieures compatible NVIDIA
$3100.00
-
Module émetteur-récepteur optique double MPO-4/APC InfiniBand XDR SMF compatible NVIDIA MMS00A980 (9-0IAH00-00XM1.6) 2 T 4 x DR8/DR224 OSFP4 PAM1311 500 12 nm XNUMX m RHS/Flat Top
$3600.00
-
Module émetteur-récepteur optique OSFP-1.6T-4FR2 1.6T OSFP 4FR2 PAM4 1291/1311nm 2km SN SMF
$22400.00
-
Module émetteur-récepteur optique LC SMF double duplex OSFP-1.6T-2FR4 1.6T OSFP 2xFR4 PAM4 2x CWDM4 2 km
$22400.00
-
Module émetteur-récepteur optique OSFP DR1.6D+ PAM8 1.6 nm 8 km double MPO-4 SMF 1311T OSFP-2T-DR12D+
$18000.00
Articles connexes
- Quelles sont les différences entre le commutateur principal et le commutateur normal ?
- Qu'est-ce qu'un adaptateur réseau : fonction, construction et classification des cartes réseau
- Quelle est la différence entre le commutateur Gigabit et le commutateur 10 Gigabit
- Les dernières avancées des normes de transmission optique cohérentes 400G et 800G
