Des puces d'IA à la bataille ultime pour le positionnement des CPO : confrontation des feuilles de route technologiques NVIDIA et Broadcom

À l'ère de l'intelligence artificielle (IA) et de l'apprentissage automatique, le trafic de données mondial connaît une croissance exponentielle. Les serveurs et commutateurs des centres de données passent rapidement des connexions 200G et 400G à des débits de 800G, 1.6T et potentiellement même 3.2T.

Le cabinet d'études de marché TrendForce prévoit que les livraisons mondiales de modules émetteurs-récepteurs optiques supérieurs à 400 Gbit/s atteindront 6.4 millions d'unités en 2023, environ 20.4 millions en 2024 et dépasseront 31.9 millions d'ici 2025, soit une croissance annuelle de 56.5 %. La demande de serveurs d'IA continue d'alimenter le développement des modules 800 Gbit/s et 1.6 Tbit/s, tandis que les mises à niveau des serveurs traditionnels stimulent la demande. Émetteur-récepteur optique 400G exigences.

D'autres études indiquent que la demande de modules optiques 1.6T en 2026 dépassera largement les prévisions, avec des livraisons totales estimées à 11 millions d'unités. Cette croissance s'explique principalement par les commandes importantes passées auprès de NVIDIA et Google, complétées par les contributions de Meta, Microsoft et AWS.

La communication optique, grâce à sa large bande passante, ses faibles pertes et sa capacité à couvrir de longues distances, s'impose de plus en plus comme la solution privilégiée pour les interconnexions intra- et inter-racks, faisant des modules émetteurs-récepteurs optiques des composants essentiels de la connectivité des centres de données. TrendForce souligne que la transmission des données des futurs serveurs d'IA nécessitera d'importantes quantités de modules émetteurs-récepteurs optiques à haut débit. Ces modules convertissent les signaux électriques en signaux optiques pour la transmission par fibre optique et reconvertissent les signaux optiques reçus en signaux électriques.

01 Quelle est la relation entre les modules émetteurs-récepteurs optiques, la communication optique et la photonique sur silicium ?

D'après les deux premiers schémas de la figure originale, les émetteurs-récepteurs optiques enfichables actuellement disponibles sur le marché atteignent des vitesses allant jusqu'à 800GLa phase suivante implique des moteurs optiques (Optical Engine, OE) installés autour des boîtiers de puces ASIC, connus sous le nom d'optique embarquée (OBO), prenant en charge une transmission jusqu'à 1.6T.

L'industrie vise à évoluer vers l'optique co-intégrée (CPO), où les composants optiques sont intégrés aux circuits intégrés spécifiques (ASIC). Cette technologie permet d'atteindre des débits supérieurs à 3.2 Tbit/s, jusqu'à 12.8 Tbit/s. L'objectif ultime est l'« E/S optiques », permettant d'atteindre des capacités similaires à celles d'un réseau optique complet avec des vitesses de transmission supérieures à 12.8 Tbit/s.

L'examen attentif de la figure révèle que le module de communication optique (auparavant enfichable, représenté par un bloc jaune) est positionné de plus en plus près du circuit intégré spécifique (ASIC). Cette proximité raccourcit les trajets des signaux électriques, permettant ainsi une bande passante plus élevée. La technologie de photonique sur silicium intègre les composants optiques directement sur les puces.

Les émetteurs-récepteurs optiques enfichables actuellement disponibles sur le marché atteignent des vitesses allant jusqu'à 800 Gbit/s.

02 Croissance explosive de la demande en communications optiques : l’industrie se concentre sur trois extensions d’architecture serveur

L'essor des applications d'IA a considérablement accru la demande en communications optiques à haut débit. Les serveurs privilégient principalement l'extension verticale (Scale-Up) et horizontale (Scale-Out), chacune répondant à des besoins de transmission et à des défis techniques spécifiques. Récemment, NVIDIA a introduit le concept d'« extension horizontale » (Scale-Across), ajoutant une nouvelle dimension aux considérations du secteur.

Scale-up

Scale-Up se concentre sur les interconnexions intra-rack à haut débit (section jaune sur la figure), avec des distances de transmission généralement inférieures à 10 mètres. Les exigences de latence ultra-faible privilégient les interconnexions en cuivre afin d'éviter les délais et la consommation d'énergie liés aux conversions optoélectroniques. Parmi les solutions actuelles figurent NVLink de NVIDIA (architecture propriétaire) et UALink, un standard ouvert développé notamment par AMD.

Il convient de noter que NVIDIA a lancé cette année NVLink Fusion, ouvrant ainsi la technologie NVLink aux fournisseurs de puces externes pour la première fois. Cette initiative étend NVLink des nœuds de serveur unique aux architectures à l'échelle du rack, probablement en réponse à la concurrence d'UALink.

Broadcom, traditionnellement spécialisé dans les architectures à grande échelle horizontales, investit le marché des architectures à grande échelle verticales via Ethernet. L'entreprise a récemment lancé plusieurs puces compatibles avec les normes Scale-Up Ethernet (SUE). Cette évolution ouvre la voie à une future concurrence entre NVIDIA et Broadcom, que nous aborderons plus loin.

Évolutivité

L'architecture Scale-Out permet le calcul parallèle à grande échelle sur plusieurs serveurs (partie bleue de la figure), répondant ainsi aux besoins de traitement de données à haut débit et d'évolutivité infinie. La communication optique y est prédominante, les technologies d'interconnexion clés telles qu'InfiniBand et Ethernet étant les moteurs du marché des modules optiques.

InfiniBand et Ethernet forment deux grands camps : le premier est privilégié par NVIDIA et Microsoft, le second par Broadcom, Google et AWS.

Le leadership d'InfiniBand provient de Mellanox, racheté par NVIDIA en 2019 en tant que fournisseur de solutions d'interconnexion intelligentes Ethernet et InfiniBand de bout en bout. Récemment, la Chine a jugé que NVIDIA avait enfreint les lois antitrust lors de cette acquisition. NVIDIA propose de nombreux produits InfiniBand, mais aussi des solutions Ethernet comme NVIDIA Spectrum-X, s'implantant ainsi sur les deux marchés.

Le camp adverse – Intel, AMD, Broadcom et d’autres – a formé l’Ultra Ethernet Consortium (UEC) en juillet 2023 pour développer des piles de transmission Ethernet améliorées, défiant ainsi InfiniBand.

L'analyste Chu Yu-chao de TrendForce affirme que le marché des modules de communication optique, porté par l'architecture Scale-Out, représente le principal champ de bataille pour la transmission future des données.

Échelle à travers

Pour répondre aux besoins des connexions inter-centres de données longue distance (plusieurs kilomètres), NVIDIA a proposé « Scale-Across », une solution émergente. L'entreprise a lancé Spectrum-XGS Ethernet, une technologie basée sur Ethernet, permettant de relier plusieurs centres de données.

Spectrum-XGS constitue un troisième pilier, au-delà de la mise à l'échelle verticale et horizontale, pour le calcul IA. Il étend les performances et l'évolutivité d'Ethernet Spectrum-X, interconnectant des centres de données distribués, diffusant de grands ensembles de données vers les modèles d'IA et coordonnant la communication entre les GPU au sein des centres.

Cette solution combine le Scale-Out avec l'extension inter-domaines, ajustant de manière flexible l'équilibrage de charge et les algorithmes en fonction de la distance, s'alignant ainsi sur le Scale-Across.

Le fondateur et PDG de NVIDIA, Jensen Huang, a déclaré : « En nous appuyant sur les capacités Scale-Up et Scale-Out, nous ajoutons Scale-Across pour connecter les centres de données à travers les villes, les pays et les continents, créant ainsi d'immenses super usines d'IA. »

Les tendances du secteur montrent que le scale-up et le scale-out sont des domaines concurrentiels, NVIDIA et Broadcom se disputant les parts de marché. La solution Scale-Across de NVIDIA cible la transmission inter-centres de données sur des distances allant de plusieurs kilomètres à des milliers de kilomètres. Broadcom propose des solutions comparables.

03 Transmission de puces IA à la guerre de positionnement des CPO : pour quoi exactement NVIDIA et Broadcom sont-ils en compétition ?

NVIDIA contre Broadcom

La compréhension des communications optiques et des trois architectures d'extension des centres de données montre clairement que le marché ne surveille pas seulement AMD, mais aussi la rivalité entre le leader des puces d'IA, NVIDIA, et le géant des puces de communication, Broadcom.

La concurrence dans le secteur de l'IA s'étend désormais au-delà des puces pour englober les solutions système.

Le premier point de convergence entre Broadcom et NVIDIA concerne les puces d'IA personnalisées (ASIC). Les GPU NVIDIA étant onéreux, les fournisseurs de services cloud (CSP) tels que Google, Meta, Amazon et Microsoft développent leurs propres puces d'IA, en s'associant principalement à Broadcom pour son expertise en ASIC.

Puces majeures développées en interne par CSP

CSPGoogleAWSMetaMicrosoft
ProduitTPU v6 TrilliumTrainium v2, Trainium v3MTIA, MTIA v2Maia, Maia v2
Partenaire de co-emballageBroadcom, United Developers (TPU v7e)Marvell (Trainium v2) 、 ChipCore-KY (Trainium v3)BroadcomCreative Intent (Maia v2) 、 Marvell (Maia v2 Advanced Edition)

Le deuxième point d'intersection, plus crucial, est celui des « technologies de connectivité réseau ».

Dans le domaine de la montée en puissance, protégé par les technologies NVLink et CUDA, Broadcom lance cette année la puce de commutation réseau Tomahawk Ultra pour entrer sur le marché et contester la domination de NVLink.

Tomahawk Ultra fait partie de l'initiative Scale-Up Ethernet (SUE) de Broadcom et se positionne comme une alternative à NVSwitch. Il connecte quatre fois plus de puces que NVLink Switch et est fabriqué selon le procédé 5 nm de TSMC.

Broadcom participe au consortium UALink mais promeut SUE basé sur Ethernet, ce qui soulève des questions sur sa dynamique de concurrence-coopération avec UALink face à NVLink.

Pour contrer Broadcom, NVIDIA a lancé NVFusion, ouvrant la voie à une collaboration avec des partenaires tels que MediaTek, Marvell et Astera Labs pour la création de puces d'IA personnalisées via l'écosystème NVLink. Cette approche semi-ouverte renforce l'écosystème tout en offrant des possibilités de personnalisation.

NVIDIA NVLINK

Dans le domaine de l'extension horizontale, Broadcom, vétéran de l'Ethernet, domine avec des produits comme le Tomahawk 6 et le Jericho4, ciblant l'extension horizontale et les longues distances.

NVIDIA réplique avec les commutateurs Quantum InfiniBand et les plateformes Spectrum Ethernet pour une couverture Scale-Out plus étendue. Bien qu'InfiniBand soit ouvert, son écosystème est largement contrôlé par l'acquisition de Mellanox par NVIDIA, ce qui limite la flexibilité des clients.

Broadcom-Tomahawk-Ultra-et-Tomahawk-6-échelle

D'après l'image de Broadcom, trois produits couvrent deux architectures d'extension de serveur.

Pour les transferts de données longue distance, le leadership est incertain, mais NVIDIA est en tête avec Spectrum-XGS. Cette technologie utilise de nouveaux algorithmes réseau pour un transfert de données longue distance efficace, complétant ainsi… Extension verticale et horizontale.

Le Jericho4 de Broadcom s'aligne sur la technologie Scale-Across et gère des connexions intersites de plus de 100 km avec une transmission RoCE sans perte, soit quatre fois la capacité de la génération précédente. La série Tomahawk prend en charge les connexions intra-rack de centres de données inférieures à 1 km (environ 0.6 mile).

Architecture d'expansionNVIDIABroadcomAMD
Scale-upSolution d'obstacleNVLink (architecture fermée), NVFusion (semi-fermé)UALink (architecture ouverte) et SUEUALink (architecture ouverte)
 Schéma de solution: Plateforme NVLink, plateforme NVSwitch, solution NVFusionTomahawk Ultra, Tomahawk 6 (TH6)Infinity Fabric (déjà intégré à UALink)
ÉvolutivitéSolution d'obstacle: Obstacle InfiniBand, Produits Ethernet existantsUEC (obstacle Ethernet)UEC
 Schéma de solutionPlateforme Quantum InfiniBand, Spectrum-X/Spectrum-Z, Plateforme de commutation de réseau TooTomahawk 6, Jericho 4 
Échelle à traversSchéma de solution: Spectrum-XGSJéricho4 

04 Solutions CPO de NVIDIA et Broadcom ?

Face à l'intensification de la concurrence dans le domaine des réseaux de transmission, le marché des réseaux optiques va se renforcer. NVIDIA et Broadcom recherchent des innovations en matière de communication optique CPO, tandis que TSMC et GlobalFoundries développent les procédés associés.

La stratégie de NVIDIA considère les interconnexions optiques comme faisant partie intégrante du SoC, et non comme des modules complémentaires. Lors de la GTC de cette année, l'entreprise a dévoilé les commutateurs InfiniBand Quantum-X Photonics (lancement prévu fin d'année) et les commutateurs Ethernet Spectrum-X Photonics (2026).

Les deux plateformes utilisent la technologie COUPE de TSMC avec un boîtier SoIC-X, intégrant des circuits intégrés photoniques (PIC) et électroniques (EIC) de 65 nm. Ceci met l'accent sur l'intégration de la plateforme pour une efficacité et une évolutivité optimales.

Broadcom se spécialise dans les solutions de chaîne d'approvisionnement complètes et évolutives pour ses clients tiers. Son succès en tant que sous-traitant repose sur une expertise approfondie en intégration semi-conducteurs-optique.

Broadcom a lancé la troisième génération de CPO 200G/voie. Elle utilise un empilement de puces 3D : PIC 65 nm et EIC 7 nm.

Comme illustré sur la figure, les modules émetteurs-récepteurs optiques comprennent des composants clés : des diodes laser (sources lumineuses), des modulateurs (conversion électro-optique) et des photodétecteurs. Les modulateurs déterminent le débit par voie.

Composants internes des modules de moteur photonique

Nom du composantFonction
Photodétecteur (PD, Photodétecteur)Reçoit des signaux optiques.
Guide d'ondes (Guide d'ondes)Il assure la propagation de la lumière.
Modulateur optique (Modulateur optique)En présence d'un signal d'entrée électrique, il convertit les signaux électriques en signaux optiques.
Amplificateur de transimpédance (TIA, amplificateur de transimpédance)Amplifie les signaux de courant et les convertit simultanément en tension.
Circuit intégré de commande (circuit intégré de commande)Fournit les signaux électriques requis par le modulateur optique.
Interrupteur (Interrupteur)Gère le routage, la commutation des signaux électriques et détermine la piste à partir de laquelle effectuer la sortie.

NVIDIA choisit des modulateurs à micro-anneaux (MRM) — compacts mais sensibles aux erreurs et à la température, ce qui pose des défis d'intégration.

Broadcom utilise des modulateurs Mach-Zehnder (MZM) matures tout en développant MRM, réalisant des essais de processus 3 nm et menant CPO via l'empilement de puces.

Au cœur de la photonique se trouve le modulateur

Face à l'essor de l'inférence par l'IA, l'attention se déplace de la « course à la puissance de calcul » vers la « vitesse de transmission des données ». La question de savoir si l'approche de Broadcom, axée sur les réseaux et les commutateurs, ou les solutions de bout en bout de NVIDIA, l'emporteront sur la réduction des obstacles à l'efficacité et à la latence déterminera le prochain leader de la compétition en IA.

Remonter en haut