L'essor des puces ASIC

DeepSeek a entraîné une explosion de la demande en inférence, et une brèche a été creusée dans l'hégémonie de Nvidia en matière de puissance de calcul. La porte vers un nouveau monde s'est progressivement ouverte : la révolution de la puissance de calcul menée par les puces ASIC passe du silence au bruit.

Récemment, le groupe de réflexion Core Flow a cité une source bien informée selon laquelle DeepSeek se préparait à développer ses propres puces d'IA. Comparé à cette entreprise prometteuse, des géants nationaux comme Alibaba, Baidu et ByteDance ont déjà franchi le pas de l'auto-recherche.

De l'autre côté de l'océan, de nouvelles avancées concernant les puces développées par OpenAI ont également été annoncées en début d'année. Les médias étrangers ont révélé que la première puce personnalisée par Broadcom serait produite chez TSMC d'ici quelques mois. Il avait été précédemment rapporté que Sam Altman prévoyait de lever 7 XNUMX milliards de dollars pour bâtir un « empire des puces » couvrant à la fois la conception et la fabrication. Google, Amazon, Microsoft et Meta ont également rejoint cet engouement pour la recherche en interne.

Un signe évident est que, que ce soit DeepSeek, OpenAI, les entreprises chinoises ou les géants de la Silicon Valley, personne ne souhaite rester à la traîne à l'ère de la puissance de calcul. Et les puces ASIC pourraient bien devenir leur porte d'entrée dans ce nouveau monde.

Cela va-t-il « tuer » Nvidia ? Ou va-t-il « recréer » une nouvelle Nvidia ? La réponse est encore incertaine. Cependant, il est clair que les entreprises de la chaîne industrielle en amont ont déjà anticipé la vigueur de cette « vague auto-développée ». Par exemple, Broadcom, qui fournit des services de conception et de personnalisation aux principaux fabricants, a vu ses performances décoller : en 2024, le chiffre d'affaires de l'IA a augmenté de 240 % en glissement annuel pour atteindre 3.7 milliards de dollars ; au premier trimestre 1, le chiffre d'affaires de l'IA s'élève à 2025 milliards de dollars, en hausse de 4.1 % en glissement annuel ; 77 % de ce chiffre provient de la conception de puces ASIC. Aux yeux de Broadcom, le marché des puces ASIC représente plus de 80 milliards de dollars.

Du GPU à l'ASIC, l'économie de la puissance de calcul atteint un tournant

Le faible coût est une condition préalable à l'essor du raisonnement par l'IA. À l'inverse, les puces GPU polyvalentes sont devenues le principal moteur de l'essor de l'IA.

Les puces H100 et A100 de NVIDIA sont les reines incontestées de l'entraînement de modèles à grande échelle, et même les puces B200 et H200 sont très prisées par les géants de la technologie. Le Financial Times a précédemment cité des données d'Omdia indiquant qu'en 2024, les principaux clients des puces à architecture Hopper de Nvidia seront Microsoft, Meta, Tesla/xAI, etc., parmi lesquels les commandes de Microsoft atteindront 500,000 XNUMX.

Cependant, en tant que maître absolu des GPU à usage général, l'autre côté de la médaille des solutions de produits NVIDIA est progressivement devenu apparent : des coûts élevés et une consommation d'énergie redondante.

En termes de coût, un seul H100 coûte plus de 30,000 500 $. L'entraînement d'un modèle comportant des centaines de milliards de paramètres nécessite des dizaines de milliers de GPU, ainsi que des investissements ultérieurs en matériel réseau, stockage et sécurité, pour un total de plus de 200 millions de dollars. Selon les données HSBC, la dernière génération de la solution GB72 NVL3 coûte plus de 36 millions de dollars par armoire, et la NVL1.8 environ XNUMX million de dollars.

On peut dire que l'entraînement de modèles basé sur des GPU polyvalents est trop coûteux, mais la Silicon Valley, dotée d'une puissance de calcul illimitée, privilégie toujours le discours selon lequel « la puissance fait voler les briques », et les dépenses d'investissement n'ont pas ralenti. Tout récemment, xAI d'Elon Musk, qui a récemment annoncé Grok-3, dispose d'une capacité de serveur de 200,000 XNUMX GPU pour l'entraînement.

L'article « 20,000 2025 mots d'explication détaillée des principales perspectives de l'IA pour 200 » publié conjointement par Tencent Technology et Silicon Rabbit Racing mentionne que les opérateurs de centres de données hyperscale s'attendent à ce que les dépenses d'investissement (CapEx) dépassent 2024 milliards de dollars américains en 250, et ce chiffre devrait être proche de 2025 milliards de dollars américains d'ici XNUMX, et des ressources importantes seront allouées à l'intelligence artificielle.

En termes de consommation énergétique, selon les calculs de SemiAnalysis, un cluster H100,000 de 100 150 cartes consomme au total 1.59 MW et 0.078 TWh d'électricité par an. Calculée à 123.9 $ par kilowattheure, la facture annuelle d'électricité s'élève à 30 millions de dollars. Comparé aux données publiées par OpenAI, le taux d'utilisation de la puissance de calcul du GPU en phase d'inférence n'est que de 50 à XNUMX %, et le phénomène de « calcul en attente » est significatif. Une telle utilisation inefficace des performances constitue un grave gaspillage de ressources à l'ère de l'inférence.

Vitesses d'entraînement TPU V4 et A100 annoncées précédemment par Google pour différents modèles d'architecture

Performances de pointe, prix élevés, faible efficacité et barrières écologiques ont contraint l'industrie à déclarer l'année dernière que « le monde souffre depuis longtemps de Nvidia » : les fournisseurs de cloud perdent progressivement leur autonomie matérielle, ce qui s'ajoute aux risques liés à la chaîne d'approvisionnement, et AMD est temporairement « incapable de croître ». De nombreux facteurs ont contraint les géants à commencer à développer leurs propres puces ASIC dédiées.

Depuis lors, le champ de bataille des puces d'IA est passé d'une compétition technologique à un enjeu économique. Comme le conclut une étude de Southwest Securities : « Lorsque l'architecture du modèle entre en période de convergence, chaque dollar investi en puissance de calcul doit générer des bénéfices économiques quantifiables. » À en juger par les progrès récents rapportés par les fournisseurs de cloud nord-américains, les ASIC ont démontré certains avantages de substitution :

  • Google : La puce TPU v5 personnalisée par Broadcom pour Google a un coût de puissance de calcul unitaire 70 % inférieur à celui du H100 dans le scénario de raisonnement Llama-3.
  • Amazon : AWS Trainium 3, avec un processus de 3 nm, ne consomme qu'un tiers de l'énergie d'un GPU à usage général avec la même puissance de calcul, économisant ainsi plus de 1 millions de dollars américains en coûts d'électricité par an ; Il est entendu que les expéditions de puces Trainium d'Amazon en 3 ont dépassé les 10 2024 pièces.
  • Microsoft : Selon les données d'IDC, après que Microsoft Azure a développé son propre ASIC, la part des coûts d'approvisionnement en matériel est passée de 75 % à 58 %, rompant ainsi avec le dilemme de négociation passive à long terme.

En tant que plus grand bénéficiaire de la chaîne ASIC nord-américaine, la tendance de Broadcom devient de plus en plus évidente dans les données.

En 2024, le chiffre d'affaires de Broadcom dans le secteur de l'IA s'est élevé à 3.7 milliards de dollars, soit une hausse de 240 % par rapport à l'année précédente, dont 80 % provenant des services de conception ASIC. Au premier trimestre 1, son chiffre d'affaires dans le secteur de l'IA s'est élevé à 2025 milliards de dollars, soit une hausse de 4.1 % par rapport à l'année précédente. Parallèlement, Broadcom prévoit un chiffre d'affaires de 77 milliards de dollars au deuxième trimestre, soit une hausse de 4.4 % par rapport à l'année précédente.

Dès la période de son rapport annuel, Broadcom annonçait une explosion du chiffre d'affaires des ASIC en 2027, prédisant un marché de 90 milliards de dollars US pour les puces ASIC trois ans plus tard. L'entreprise a réitéré cette hypothèse lors de la conférence téléphonique du premier trimestre.

Grâce à cette tendance majeure du secteur, Broadcom est devenue la troisième entreprise mondiale de semi-conducteurs avec une capitalisation boursière de plus de 1 XNUMX milliards de dollars, après Nvidia et TSMC. Elle a également attiré l'attention internationale sur des entreprises telles que Marvell et AIchip.

Il faut cependant souligner un point : « L'ASIC est une bonne chose, mais il ne tuera pas le GPU. » Microsoft, Google et Meta développent tous leurs propres produits, mais rivalisent en même temps pour être les premiers à lancer le B200 de Nvidia, ce qui montre bien qu'il n'existe pas de relation de concurrence directe entre les deux parties.

Une conclusion plus objective serait que les GPU continueront de dominer le marché de l'entraînement haute performance et resteront la puce la plus importante dans les scénarios d'inférence grâce à leur polyvalence. Cependant, sur le futur marché des puces d'IA, qui approche les 400 milliards de dollars, la pénétration des ASIC est déjà clairement visible.

IDC prévoit que, dans les scénarios d'inférence de 2024 à 2026, la part des ASIC passera de 15 % à 40 %, soit un maximum de 160 milliards de dollars. Le résultat final de cette transformation pourrait être : les ASIC accaparent 80 % du marché de l'inférence, et les GPU se replient sur les domaines de la formation et du graphisme.

Les véritables gagnants seront les acteurs à double vocation, ceux qui maîtrisent à la fois les plaquettes de silicium et les scénarios. Nvidia en fait évidemment partie. Être optimiste concernant les ASIC ne signifie absolument pas dénigrer Nvidia. Le guide pour entrer dans le nouveau monde consiste à trouver d'autres acteurs à double vocation que Nvidia et à savoir comment rentabiliser la nouvelle ère des ASIC.

Le « scalpel » de l'ASIC coupe tous les modules non essentiels

On dit que l’ASIC est bon pour le raisonnement de l’IA, mais de quel type de puce s’agit-il ?

D'un point de vue architectural, la limitation des puces à usage général telles que les GPU est leur conception « un contre cent » : elles doivent prendre en compte de multiples exigences telles que le rendu graphique, le calcul scientifique et différentes architectures de modèles, ce qui entraîne le gaspillage d'une grande quantité de ressources de transistors sur des modules fonctionnels non essentiels.

La principale caractéristique du GPU NVIDIA est sa multitude de « petits cœurs », comparables aux multiples moteurs de la fusée Falcon. Les développeurs peuvent s'appuyer sur la bibliothèque d'opérateurs accumulée par CUDA au fil des ans pour appeler ces petits cœurs et ainsi réaliser des calculs parallèles de manière fluide, efficace et flexible.

Mais si le modèle en aval est relativement sûr, la tâche de calcul l'est aussi, et il n'est pas nécessaire d'avoir autant de petits cœurs pour maintenir la flexibilité. C'est le principe sous-jacent de l'ASIC, c'est pourquoi on le qualifie aussi de puce à haute puissance de calcul entièrement personnalisée.

Grâce à une découpe précise de type « scalpel », seules les unités matérielles fortement pertinentes pour le scénario cible sont conservées, libérant une efficacité étonnante, qui a été vérifiée dans les produits de Google et d'Amazon.

Prise de vue réelle de l'accélérateur d'IA Google TPU v5e

Pour les GPU, le meilleur outil pour les appeler est CUDA de NVIDIA, tandis que pour les puces ASIC, elles sont appelées par les algorithmes développés par les fournisseurs de cloud eux-mêmes. Ce n'est pas une tâche difficile pour les grandes entreprises qui ont débuté comme éditeurs de logiciels :

  • Dans Google TPU v4, 95 % des ressources du transistor sont utilisées pour les unités de multiplication matricielle et les unités de traitement vectoriel, qui sont optimisées pour les calculs de réseaux neuronaux, tandis que les unités similaires dans les GPU représentent moins de 60 %.
  • Contrairement au modèle de séparation « calcul-stockage » de l'architecture von Neumann traditionnelle, les ASIC permettent de personnaliser le flux de données en fonction des caractéristiques des algorithmes. Par exemple, dans la puce système recommandée et personnalisée par Broadcom pour Meta, l'unité de calcul est directement intégrée autour du contrôleur de stockage, ce qui réduit la distance de transfert des données de 70 % et la latence à 1/8 de celle du GPU.
  • En réponse aux caractéristiques de poids clairsemé de 50 à 90 % dans les modèles d'IA, la puce Amazon Trainium2 est intégrée à un moteur de calcul clairsemé qui peut ignorer le lien de calcul de valeur zéro, améliorant ainsi les performances théoriques de 300 %.

Lorsque les algorithmes sont généralement fixes, les ASIC présentent un avantage naturel pour les scénarios verticaux déterministes. L'objectif ultime de la conception des ASIC est de faire de la puce elle-même l'incarnation physique de l'algorithme.

Dans l’histoire passée et dans la réalité actuelle, nous pouvons trouver des exemples de succès ASIC, tels que les puces de machines minières.

À ses débuts, l'industrie utilisait les GPU Nvidia pour le minage. Plus tard, face à la difficulté croissante du minage, la consommation d'électricité a dépassé les revenus du minage (très similaire aux besoins actuels en inférence), et les puces ASIC dédiées au minage ont explosé. Bien que leur polyvalence soit bien inférieure à celle des GPU, les ASIC de minage optimisent le parallélisme.

Par exemple, l'ASIC de minage Bitcoin de Bitmain déploie simultanément des dizaines de milliers d'unités de calcul de hachage SHA-256, permettant une accélération ultra-linéaire avec un seul algorithme. La densité de puissance de calcul est plus de 1,000 XNUMX fois supérieure à celle d'un GPU. Non seulement la capacité dédiée a été considérablement améliorée, mais la consommation d'énergie a également été réduite au niveau du système.

De plus, l'utilisation d'ASIC peut rationaliser les circuits périphériques (par exemple, la pile de protocoles complexe de l'interface PCIe n'est plus nécessaire), réduire la surface de la carte mère de 40 % et réduire le coût de l'ensemble de la machine de 25 %.

Faible coût, haute efficacité et prise en charge d'une intégration approfondie du matériel et des scénarios, ces cœurs technologiques ASIC sont naturellement adaptés aux besoins de transformation de l'industrie de l'IA, du « forçage brut informatique » à la « révolution de l'efficacité raffinée ».

Avec l'avènement de l'ère de l'inférence, les avantages de coût des ASIC répéteront l'histoire des machines d'extraction et atteindront une « croix de la mort » sous l'effet de l'échelle - malgré les coûts initiaux élevés de R&D (le coût de conception d'une seule puce est d'environ 50 millions de dollars américains), sa courbe de déclin de coût marginal est beaucoup plus raide que celle des GPU à usage général.

Prenons l'exemple du Google TPU v4 : lorsque le volume des expéditions est passé de 100,000 1 à 3,800 million d'unités, le coût unitaire a fortement chuté, passant de 1,200 70 à 30 6 dollars américains, soit une baisse de près de 1.6 %. La baisse du coût des GPU ne dépasse généralement pas 2025 %. Selon les dernières informations du secteur, le Google TPU vXNUMX devrait être livré à XNUMX million d'unités en XNUMX, avec une puissance de calcul d'une seule puce trois fois supérieure à celle de la génération précédente. La rentabilité des ASIC continue de progresser rapidement.

Cela nous amène à une nouvelle question : tout le monde peut-il adhérer à la tendance des ASIC auto-développés ? Cela dépend du coût de la recherche et de la demande.

Selon les calculs effectués pour une carte accélératrice d'inférence ASIC avec un procédé de 7 nm, les coûts uniques de production, incluant les droits de licence de propriété intellectuelle, la main-d'œuvre, les outils de conception, les gabarits de masque, etc., pourraient s'élever à des centaines de millions de yuans, sans compter les coûts de production de masse ultérieurs. À cet égard, les grandes entreprises bénéficient d'avantages financiers plus importants.

À l’heure actuelle, les fournisseurs de cloud tels que Google et Amazon disposent d’un système client mature, peuvent former une boucle fermée de R&D et de ventes et disposent d’avantages inhérents en matière d’auto-recherche.

Pour des entreprises comme Meta, la logique derrière leur développement interne réside dans la forte demande de puissance de calcul interne. Plus tôt cette année, Zuckerberg a révélé son intention de lancer environ 1 GW de puissance de calcul en 2025 et de disposer de plus de 1.3 million de GPU d'ici la fin de l'année.

La « nouvelle carte » vaut bien plus de 100 milliards de dollars

La demande pour l'exploitation minière à elle seule a généré un marché de près de 10 milliards de dollars. Ainsi, lorsque Broadcom a annoncé que le marché des ASIC IA représenterait 70 à 90 milliards de dollars d'ici la fin de 2024, nous n'avons pas été surpris et avons même pensé que ce chiffre pourrait être conservateur.

Désormais, la tendance industrielle des puces ASIC ne doit plus être remise en question, et l'accent doit être mis sur la maîtrise des règles du jeu sur la « nouvelle carte ». Sur le marché des ASIC d'IA, évalué à près de 100 milliards de dollars, trois échelons distincts ont été définis : « Concepteurs et fabricants de puces ASIC qui fixent les règles », « Soutien à la chaîne industrielle » et « Sans usine dans les scénarios verticaux ».

Le premier niveau est celui des concepteurs et fabricants de puces ASIC, qui définissent les règles. Ils peuvent fabriquer des puces ASIC à un prix unitaire supérieur à 10,000 XNUMX dollars et coopérer avec des fournisseurs de cloud en aval pour une utilisation commerciale. Parmi les acteurs représentatifs figurent Broadcom, Marvell, AIchip et TSMC, le géant de la fonderie qui bénéficiera de toute puce avancée.

Le deuxième niveau est celui de la chaîne industrielle de soutien. La logique de soutien qui a retenu l'attention du marché comprend l'emballage avancé et la chaîne industrielle en aval.

  • Emballage avancé : 35 % de la capacité de production CoWoS de TSMC ont été transférés aux clients ASIC, y compris les homologues nationaux tels que SMIC, Changdian Technology et Tongfu Microelectronics.
  • Le découplage des fournisseurs de cloud et des solutions matérielles de NVIDIA ouvre de nouvelles opportunités matérielles, comme les câbles en cuivre AEC. L'ASIC unique développé par Amazon doit être équipé de trois AEC. Si 3 millions d'ASIC sont livrés en 7, le marché correspondant dépassera les 2027 milliards de dollars. D'autres opportunités, comme les serveurs et les circuits imprimés, bénéficieront d'une logique similaire.

Le troisième niveau correspond aux scénarios verticaux en développement, sans usine. L'essence même des ASIC est un marché axé sur la demande. Celui qui saura en premier cerner les points faibles du scénario aura le pouvoir de fixation des prix. L'ADN des ASIC est la personnalisation, naturellement adaptée aux scénarios verticaux. Prenons l'exemple des puces de conduite intelligente. En tant que puce ASIC classique, avec BYD et d'autres entreprises qui misent pleinement sur la conduite intelligente, ce type de produit entre dans une période de croissance explosive.

Les opportunités correspondant aux trois principaux échelons de la chaîne industrielle mondiale des ASIC peuvent être considérées comme les « trois clés secrètes » de la production nationale.

En raison des restrictions imposées par l'interdiction, l'écart entre les GPU nationaux et NVIDIA reste considérable, et la construction écologique est également un long chemin à parcourir. Cependant, pour les ASIC, nous sommes sur la même ligne de départ qu'à l'étranger. Grâce à des scénarios verticaux, de nombreuses entreprises chinoises sans usine peuvent fabriquer des produits plus économes en énergie, tels que les ASIC pour machines de minage mentionnés précédemment, les ASIC pour la conduite intelligente et le Kunlun Core de Baidu.

La fabrication de puces auxiliaires repose principalement sur SMIC, tandis que ZTE Microelectronics, une filiale de ZTE, est un nouvel entrant. Il n'est pas exclu qu'ils coopèrent à l'avenir avec des fabricants nationaux pour mettre en scène un drame intitulé « Qui sera le Broadcom chinois ? ».

Principaux fournisseurs en amont de produits pour centres de données de Nvidia

La partie support de la chaîne industrielle est relativement facile à produire. Pour les serveurs, émetteurs-récepteurs optiques, commutateurs, circuits imprimés et câbles en cuivre correspondants, les entreprises nationales sont intrinsèquement plus compétitives grâce à leur faible complexité technique. Parallèlement, ces entreprises de la chaîne industrielle entretiennent une relation symbiotique avec la puissance de calcul nationale, et la chaîne industrielle des puces ASIC ne sera pas absente.

En termes de scénarios d'application, en plus des puces de conduite intelligentes et des cartes d'accélération d'inférence d'IA mentionnées à plusieurs reprises, les opportunités pour d'autres sociétés de conception nationales dépendent des scénarios qui peuvent devenir populaires et des entreprises qui peuvent saisir ces opportunités.

Conclusion

Alors que l’IA passe du travail acharné de formation aux eaux profondes du raisonnement à la recherche d’une efficacité énergétique, la seconde moitié de la guerre de la puissance de calcul est destinée à appartenir aux entreprises capables de transformer les fantasmes technologiques en comptes économiques.

La contre-offensive des puces ASIC n'est pas seulement une révolution technologique, mais aussi une révélation commerciale en termes d'efficacité, de coût et de visibilité. Dans ce nouveau contexte, les puces des acteurs chinois augmentent discrètement : les opportunités sont toujours offertes à ceux qui sont préparés.

Laisser un commentaire

Remonter en haut