La loi d'échelle mal comprise, NVIDIA lance Blackwell & Rubin

Le « Super Bowl » de l’industrie de l’IA a commencé et la star du jour est Jensen Huang.

Des entrepreneurs technologiques, des développeurs, des scientifiques, des investisseurs, des clients NVIDIA, des partenaires et des médias du monde entier ont afflué dans la petite ville de San Jose pour l'homme à la veste en cuir noir.

Le discours d'ouverture de Huang au GTC 2025 a commencé à 10h00 heure locale le 18 mars, mais à 6h00, le fondateur de Doges AI, Abraham Gomez, avait déjà obtenu la deuxième place dans la file d'attente au SAP Center, espérant « obtenir une place au premier rang ». À 8h00, la file d'attente à l'extérieur s'étendait sur plus d'un kilomètre.

Bill, PDG de la start-up de création musicale Wondera, était assis au premier rang, vêtu de sa propre veste en cuir noir, « en hommage à Jensen ». Face à l'enthousiasme du public, Huang a adopté un ton plus mesuré que l'énergie rock star de l'année dernière. Cette fois, il a voulu réaffirmer la stratégie de NVIDIA, insistant à plusieurs reprises sur la « montée en puissance » tout au long de son discours.

L'année dernière, Huang déclarait que « l'avenir est génératif » ; cette année, il a affirmé que « l'IA est à un tournant ». Son discours d'ouverture s'est concentré sur trois annonces clés :

1. Le GPU Blackwell entre en pleine production

« La demande est incroyable, et pour cause : l'IA est à un tournant », a déclaré Huang. Il a souligné le besoin croissant de puissance de calcul alimentée par les systèmes d'inférence d'IA et les charges de travail d'entraînement agentique.

2. Blackwell NVLink 72 avec logiciel Dynamo AI

La nouvelle plateforme offre des performances d'IA 40 fois supérieures à celles de NVIDIA Hopper. « Avec l'évolution de l'IA, l'inférence dominera les charges de travail au cours de la prochaine décennie », a expliqué Huang. En présentant Blackwell Ultra, il a remis au goût du jour un classique : « Plus vous achetez, plus vous économisez. Mieux encore, plus vous achetez, plus vous gagnez. »

3. Feuille de route annuelle de NVIDIA pour l'infrastructure d'IA

L’entreprise a défini trois piliers de l’infrastructure de l’IA : le cloud, l’entreprise et la robotique.

L'IA pour tous les secteurs

Huang a également dévoilé deux nouveaux GPU : le Blackwell Ultra GB300 (un Blackwell amélioré) et l'architecture Vera Rubin de nouvelle génération avec Rubin Ultra.

NVIDIA a dévoilé deux nouveaux GPU : le Blackwell Ultra GB300, une version améliorée du Blackwell de l'année dernière, et une toute nouvelle architecture de puce appelée Vera Rubin, avec Rubin Ultra.

La croyance inébranlable de Jensen Huang dans la loi d’échelle est enracinée dans les progrès réalisés grâce à plusieurs générations d’architectures de puces.

Son discours d’ouverture portait principalement sur « Le calcul extrême pour l’inférence d’IA à grande échelle ».

En inférence IA, la mise à l'échelle, des utilisateurs individuels aux déploiements à grande échelle, nécessite de trouver l'équilibre optimal entre performance et rentabilité. Les systèmes doivent non seulement garantir des réponses rapides aux utilisateurs, mais aussi maximiser le débit global (jetons par seconde) en améliorant les capacités matérielles (par exemple, FLOPS, bande passante HBM) et en optimisant les logiciels (par exemple, architecture, algorithmes), libérant ainsi la valeur économique de l'inférence à grande échelle.

l'inférence à grande échelle est un calcul extrême

Répondant aux inquiétudes concernant le ralentissement de la loi d'échelle, Jensen Huang a exprimé un point de vue contrasté, affirmant que « les méthodes et technologies d'expansion émergentes accélèrent l'amélioration de l'IA à un rythme sans précédent ».

Confronté à une pression considérable, Huang est apparu visiblement tendu pendant la diffusion en direct, buvant fréquemment de l'eau pendant les pauses et semblant légèrement enroué à la fin de sa présentation.

Alors que le marché de l'IA évolue de l'apprentissage à l'inférence, des concurrents comme AMD, Intel, Google et Amazon lancent des puces d'inférence spécialisées pour réduire leur dépendance à NVIDIA. Parallèlement, des startups comme Cerebras, Groq et Tenstorrent accélèrent le développement d'accélérateurs d'IA, et des entreprises comme DeepSeek cherchent à minimiser leur dépendance aux GPU coûteux en optimisant leurs modèles. Ces dynamiques contribuent aux défis auxquels Huang est confronté. Alors que NVIDIA domine plus de 90 % du marché de l'apprentissage, Huang est déterminé à ne pas abandonner le marché de l'inférence face à une concurrence accrue. La bannière d'entrée de l'événement affirmait haut et fort : « What's Next in AI Starts Here ».

Ce qui va suivre dans l'IA commence ici

Les points clés du discours de Jensen Huang, résumés sur place par « FiberMall », comprennent :

Le monde a mal compris la loi d'échelle

L'IA a représenté une opportunité de transformation pour NVIDIA au cours de la dernière décennie, et Huang reste profondément confiant quant à son potentiel. Lors de cette conférence GTC, il a revisité deux diapositives de son discours d'ouverture au CES de janvier :

La première diapositive décrit les étapes du développement de l’IA : l’IA de perception, l’IA générative, l’IA agentique et l’IA physique.

les étapes du développement de l'IA

La deuxième diapositive décrit les trois phases de la loi de mise à l'échelle : mise à l'échelle avant la formation, mise à l'échelle après la formation et mise à l'échelle au moment du test (réflexion longue).

trois phases de la loi d'échelle

Huang a proposé un point de vue radicalement différent des opinions dominantes, affirmant que les inquiétudes concernant le ralentissement de la loi d'échelle sont injustifiées. Selon lui, les nouvelles méthodes et technologies d'expansion propulsent l'IA à un rythme sans précédent.

Fervent partisan de la loi de l'échelle, Huang est convaincu que les avancées mondiales en matière d'IA sont étroitement liées à l'activité GPU de NVIDIA. Il a ensuite décrit l'évolution de l'IA, capable de « raisonner étape par étape », en insistant sur le rôle de l'inférence et de l'apprentissage par renforcement dans la gestion des besoins de calcul. Alors que l'IA atteint un « point d'inflexion », les fournisseurs de services cloud sont de plus en plus demandeurs de GPU, et Huang estime que la valeur de la construction de centres de données atteindra 1 XNUMX milliards de dollars.

Huang a expliqué que les bibliothèques d'accélération GPU et les microservices NVIDIA CUDA-X sont désormais utilisés dans presque tous les secteurs. Selon lui, chaque entreprise exploitera à l'avenir deux usines : l'une pour la production de biens et l'autre pour la génération d'IA.

GPU CUDA-X

L'IA se développe dans divers domaines à travers le monde, notamment la robotique, les véhicules autonomes, les usines et les réseaux sans fil. Jensen Huang a souligné que l'une des premières applications de l'IA concernait les véhicules autonomes : « Les technologies que nous avons développées sont utilisées par presque tous les constructeurs de véhicules autonomes », tant dans les centres de données que dans l'industrie automobile.

Jensen a annoncé une étape importante dans la conduite autonome : General Motors, premier constructeur automobile américain, adopte l'IA, la simulation et le calcul accéléré de NVIDIA pour développer ses véhicules, usines et robots de nouvelle génération. Il a également présenté NVIDIA Halos, un système de sécurité intégré combinant les solutions matérielles et logicielles de sécurité automobile de NVIDIA avec la recherche de pointe en IA pour la sécurité des véhicules autonomes.

véhicule autonome

Concernant les centres de données et l'inférence, Huang a indiqué que NVIDIA Blackwell était entré en production à grande échelle, présentant des systèmes de nombreux partenaires industriels. Satisfait du potentiel de Blackwell, il a expliqué comment il permet une évolutivité extrême : « Nous souhaitons relever un défi crucial, et c'est ce que nous appelons l'inférence. »

Huang a souligné que l'inférence implique la génération de jetons, un processus essentiel pour les entreprises. Ces usines d'IA générant des jetons doivent être conçues avec une efficacité et des performances exceptionnelles. Grâce aux nouveaux modèles d'inférence capables de résoudre des problèmes de plus en plus complexes, la demande de jetons va continuer à augmenter.

Afin d'accélérer encore l'inférence à grande échelle, Huang a annoncé NVIDIA Dynamo, une plateforme logicielle open source conçue pour optimiser et dimensionner les modèles d'inférence dans les usines d'IA. La décrivant comme « essentiellement le système d'exploitation des usines d'IA », il a souligné son potentiel transformateur.

annonce de Nvidia Dynamo

« Achetez plus, économisez plus, gagnez plus »

NVIDIA a également dévoilé deux nouveaux GPU : le Blackwell Ultra GB300, une version améliorée du Blackwell de l'année dernière, et les architectures de puces Vera Rubin et Rubin Ultra de nouvelle génération.

Blackwell Ultra GB300 sera disponible au cours du second semestre de cette année.

La sortie de Vera Rubin est prévue pour le second semestre de l'année prochaine.

Rubin Ultra est attendu pour fin 2027.

Par ailleurs, Huang a dévoilé la feuille de route des prochaines puces. L'architecture de la génération suivante, baptisée Feynman, est prévue pour 2028. Ce nom rend probablement hommage au célèbre physicien théoricien Richard Feynman.

Poursuivant la tradition de NVIDIA, chaque architecture GPU porte le nom d'éminents scientifiques : Blackwell d'après le statisticien David Harold Blackwell et Rubin d'après Vera Rubin, l'astrophysicienne pionnière qui a confirmé l'existence de la matière noire.

Nvidi pave la route

Au cours des dix dernières années, NVIDIA a lancé 13 générations d'architectures GPU, soit en moyenne plus d'une nouvelle génération par an. Parmi elles, des noms emblématiques tels que Tesla, Fermi, Kepler, Maxwell, Pascal, Turing, Ampère, Hopper et, plus récemment, Rubin. L'engagement de Huang envers la loi d'échelle a été un moteur de ces innovations.

En termes de performances, Blackwell Ultra offre des améliorations substantielles par rapport à Blackwell, notamment une augmentation de la capacité mémoire HBM3e de 192 Go à 288 Go. NVIDIA a également comparé Blackwell Ultra à la puce H100 sortie en 2022, soulignant sa capacité à offrir des performances d'inférence 1.5 fois supérieures à celles du FP4. Cela se traduit par un avantage significatif : un cluster NVL72 exécutant le modèle DeepSeek-R1 671B peut fournir des réponses interactives en 10 secondes, contre 1.5 minute avec le H100. Blackwell Ultra traite 1,000 10 jetons par seconde, soit 100 fois plus que le HXNUMX.

Blackwell Ultra NVL72

NVIDIA proposera également le système mono-rack GB300 NVL72, comprenant :

1.1 exaflops de FP4,

20 To de mémoire HBM,

40 To de « mémoire rapide »,

130 To/s de bande passante NVLink, et

14.4 To/s de vitesse réseau.

Reconnaissant les performances exceptionnelles du Blackwell Ultra, Huang a plaisanté sur ses craintes que les clients renoncent à l'achat du H100. Il s'est décrit avec humour comme le « principal destructeur de revenus », admettant que, dans certains cas, les puces Hopper sont « correctes », mais que de tels scénarios sont rares. Concluant avec sa phrase classique, il a déclaré : « Achetez plus, économisez plus. C'est encore mieux. Maintenant, plus vous achetez, plus vous gagnez. »

L'architecture Rubin représente une avancée majeure pour NVIDIA. Jensen Huang a souligné : « En gros, tout est entièrement nouveau, à l'exception du rack. »

Performances FP4 améliorées : les GPU Rubin atteignent 50 pétaflops, surpassant les 20 pétaflops de Blackwell. Le Rubin Ultra est composé d'une seule puce avec deux GPU Rubin interconnectés, offrant 100 pétaflops de performances FP4, soit le double de celles du Rubin, et une mémoire presque quadruplée, atteignant 1 To.

NVL576 Rubin Ultra Rack : Offre 15 exaflops d'inférence FP4 et 5 exaflops d'entraînement FP8, offrant des performances 14 fois supérieures à celles des racks Blackwell Ultra.

système Nvidia Rubin

Huang a également expliqué l'intégration de la technologie photonique aux systèmes à grande échelle, notamment dans les commutateurs de réseau photonique en silicium Spectrum-X et Quantum-X de NVIDIA. Ces innovations associent communication électronique et optique, permettant aux usines d'IA d'interconnecter des millions de GPU sur plusieurs sites tout en réduisant la consommation d'énergie et les coûts.

commutateurs de réseau photonique

Les commutateurs sont exceptionnellement efficaces, atteignant une efficacité énergétique 3.5 fois supérieure, une intégrité du signal 63 fois supérieure, une résilience du réseau 10 fois supérieure et un déploiement plus rapide par rapport aux méthodes traditionnelles.

Des ordinateurs pour l'ère de l'IA

Au-delà des puces cloud et des centres de données, NVIDIA a lancé des supercalculateurs d'IA de bureau basés sur la plateforme NVIDIA Grace Blackwell. Conçus pour les développeurs, chercheurs, data scientists et étudiants en IA, ces appareils permettent le prototypage, le réglage fin et l'inférence de grands modèles à l'échelle du bureau.

supercalculateurs d'IA de bureau

Les produits clés comprennent :

Supercalculateurs DGX : dotés de la plate-forme NVIDIA Grace Blackwell pour des capacités de déploiement local ou cloud inégalées.

Station DGX : Une station de travail haute performance équipée de Blackwell Ultra.

Blackwell Ultra

Série d'inférences Llama Nemotron : une famille de modèles d'IA open source offrant un raisonnement multi-étapes, un codage et une prise de décision améliorés. Les améliorations de NVIDIA augmentent la précision de 20 %, la vitesse d'inférence de 5 fois et la rentabilité opérationnelle. Des entreprises leaders telles que Microsoft, SAP et Accenture s'associent à NVIDIA pour développer de nouveaux modèles d'inférence.

L'ère de la robotique polyvalente

Jensen Huang a déclaré que les robots seraient la prochaine industrie à 10 50 milliards de dollars, répondant ainsi à une pénurie mondiale de main-d'œuvre qui devrait atteindre 00 millions de travailleurs d'ici la fin du siècle. NVIDIA a dévoilé Isaac GR1T NXNUMX, le premier modèle d'inférence humanoïde et de fondation de compétences ouvert et entièrement personnalisable au monde, ainsi qu'un nouveau cadre de génération de données et d'apprentissage robotique. Cela ouvre la voie à la prochaine frontière de l'IA.

NVIDIA a également lancé le modèle Cosmos Foundation pour le développement de l'IA physique. Ce modèle ouvert et personnalisable offre aux développeurs un contrôle sans précédent sur la génération des mondes, créant ainsi des ensembles de données vastes et systématiquement infinis grâce à l'intégration avec Omniverse.

Huang a également présenté Newton, un moteur physique open source pour la simulation robotique, co-développé avec Google DeepMind et Disney Research. Moment mémorable : un robot miniature baptisé « Blue », déjà présenté au GTC l'année dernière, est réapparu sur scène, pour le plus grand plaisir du public.

Bleu

L'aventure continue de NVIDIA consiste à trouver des applications pour ses GPU, depuis les avancées en IA avec AlexNet il y a plus de dix ans jusqu'à l'accent actuel mis sur la robotique et l'IA physique. Les ambitions de NVIDIA pour la prochaine décennie porteront-elles leurs fruits ? L'avenir nous le dira.

Laisser un commentaire

Remonter en haut