Durant la Fête du Printemps chinoise, DeepSeek a rapidement gagné en popularité grâce à son prix ultra-bas, déclenchant une vague de modèles d'IA à grande échelle à l'échelle mondiale. Cela a bouleversé le concept traditionnel selon lequel le développement de l'IA nécessite une accumulation continue de puissance de calcul et de GPU.
Mais beaucoup de gens peuvent se demander : combien de GPU sont nécessaires pour entraîner DeepSeek ?
Les avis divergent sur Internet à ce sujet. Même Musk, l'« Iron Man américain », a remis en question DeepSeek : « Je ne crois pas que seul un très petit nombre de puces ait été utilisé. »
Combien de GPU DeepSeek utilise-t-il ? Le site web SemiAnalysis a récemment analysé ce sujet. Personnellement, je pense que c'est relativement vrai. Discutons-en ensemble aujourd'hui.
DeepSeek et High-Flyer
Pour ceux qui suivent de près le domaine des grands modèles d’IA, DeepSeek n’est pas à proprement parler une nouvelle entreprise.
Le fondateur de DeepSeek, Liang Wenfeng, est né dans la ville de Zhanjiang, province du Guangdong en 1985. En 2015, Liang Wenfeng et ses amis ont fondé High-Flyer, l'une des premières institutions à utiliser l'intelligence artificielle dans les algorithmes de trading.
Ils ont très tôt compris le potentiel de l'IA au-delà du secteur financier et l'importance de son expansion. Ils ont donc continué à accroître leur offre de GPU. Avant les restrictions à l'exportation de 2021, High-Flyer a investi dans 10,000 100 GPU AXNUMX, une opération qui s'est avérée très rentable.
Alors que High-Flyer poursuivait sa progression, l'entreprise a réalisé en mai 2023 qu'il était temps de scinder « DeepSeek » pour se concentrer davantage sur le développement de nouvelles capacités en IA. Les investisseurs externes s'intéressant peu à l'IA à l'époque et s'inquiétant de l'absence de modèle économique, High-Flyer a investi seul dans l'entreprise, ce qui semble aujourd'hui être un investissement judicieux.
Grâce à cela, High-Flyer et DeepSeek partagent désormais fréquemment leurs ressources humaines et informatiques. DeepSeek est désormais devenu une initiative sérieuse et organisée, et non plus une activité secondaire comme le prétendent de nombreux médias. SemiAnalysis estime que, même en tenant compte des contrôles à l'exportation, leur investissement dans les GPU a dépassé les 500 millions de dollars.
Répartition des ressources GPU de DeepSeek
SemiAnalysis estime que DeepSeek utilise environ 50,000 50,000 GPU Hopper pour l'entraînement, ce qui n'est évidemment pas équivalent aux 100 100 H800 comme certains le prétendent. Nvidia fabrique différentes versions du H20 (H20, HXNUMX) selon des réglementations différentes, et actuellement, seul le HXNUMX est disponible auprès des fournisseurs de modèles en Chine.
Il est important de noter que le H800 a la même puissance de calcul que le H100, mais avec une bande passante réseau inférieure.
SemiAnalysis estime que DeepSeek utilise environ 10,000 800 H10,000 et 100 20 H1. De plus, ils ont commandé davantage de H9, et Nvidia a produit plus d'un million de GPU spécialement conçus pour la Chine au cours des neuf derniers mois. Ces GPU sont partagés entre High-Flyer et DeepSeek et déployés dans une certaine zone géographique pour le trading, le raisonnement, la formation et la recherche.

Coût total de possession de Deepseek
L'analyse montre que les dépenses totales d'investissement en serveurs de DeepSeek s'élevaient à environ 1.6 milliard de dollars, dont les coûts associés à l'exploitation de ces clusters étaient considérables, atteignant 944 millions de dollars.
De même, tous les laboratoires d'IA et les fournisseurs de services cloud hyperscale disposent de davantage de GPU pour diverses tâches, notamment la recherche et la formation, plutôt que pour une seule phase de formation. Concentrer efficacement les ressources pour la formation d'une tâche spécifique est également l'un des défis de DeepSeek.
En matière de talents, DeepSeek se concentre sur le recrutement de talents chinois, quels que soient leurs qualifications, en privilégiant leurs compétences et leur curiosité. DeepSeek organise régulièrement des salons de l'emploi dans des universités prestigieuses comme l'Université de Pékin et l'Université du Zhejiang, où de nombreux employés sont diplômés. Les postes ne sont pas nécessairement prédéfinis et les recruteurs bénéficient d'une grande flexibilité. DeepSeek a même vanté dans ses annonces de recrutement la possibilité d'utiliser des dizaines de milliers de GPU sans restriction.
DeepSeek est extrêmement compétitif, offrant des salaires dépassant 1.3 million de dollars aux candidats prometteurs, soit bien plus que ceux de ses concurrents chinois comme Moonshot. DeepSeek compte actuellement environ 150 employés, mais connaît une croissance rapide.
L'histoire l'a prouvé, une petite startup bien financée et ciblée est souvent capable de repousser les limites du possible. DeepSeek n'a pas la même bureaucratie que Google et, grâce à son autofinancement, elle peut faire avancer les idées rapidement. Cependant, comme Google, DeepSeek exploite (dans la plupart des cas) ses propres centres de données et ne dépend pas de tiers ni de fournisseurs externes. Cela ouvre davantage de possibilités d'expérimentation et lui permet d'innover sur l'ensemble de la pile.
SemiAnalysis estime que DeepSeek est le meilleur laboratoire « ouvert et flexible » actuel, surpassant le projet Llama de Meta, Mistral, etc.
Coût de formation et performances de DeepSeek
Récemment, un article sur le prix et l'efficacité de DeepSeek a suscité un tollé mondial, affirmant que la formation de DeepSeek V3 ne coûtait que « 6 millions de dollars », ce qui est faux. C'est comme considérer un élément spécifique de la nomenclature d'un produit comme le coût total. Le coût de pré-formation ne représente qu'une infime partie du coût total.
Jetons un œil au coût global de la formation de DeepSeek :
Nous pensons que le coût de la préformation est loin du montant réel investi dans le modèle. SemiAnalysis estime que les dépenses matérielles de DeepSeek depuis sa création dépassent largement les 500 millions de dollars. Lors du développement du modèle, afin de développer de nouvelles innovations architecturales, des sommes considérables sont nécessaires pour tester de nouvelles idées, de nouvelles approches architecturales et des études d'ablation.
Par exemple, l'attention latente multi-têtes est une innovation clé de DeepSeek. Son développement a nécessité plusieurs mois de travail et a mobilisé d'importantes ressources humaines et GPU. Le coût de 6 millions de dollars mentionné dans l'article correspond uniquement aux coûts GPU pour les exécutions de pré-entraînement, qui ne représentent qu'une partie du coût total du modèle. D'autres éléments importants sont négligés, notamment la R&D et le coût total de possession (TCO) du matériel lui-même.
À titre de référence, le coût de formation de Claude 3.5 Sonnet s'élevait à des dizaines de millions de dollars. Si cela suffisait à Anthropic, ils n'auraient pas levé des milliards auprès de Google et des dizaines de milliards auprès d'Amazon. En effet, ils doivent mener des expériences, concevoir de nouvelles architectures, collecter et nettoyer des données, payer leurs employés, etc.
Comment DeepSeek a-t-il pu disposer d'un cluster aussi important ? Le retard dans le contrôle des exportations est la clé, et l'entreprise a également commandé un grand nombre de GPU H20, spécialement conçus pour répondre aux besoins du marché chinois.
Jetons un œil aux performances de la V3 :
V3 est sans aucun doute un modèle impressionnant, mais il convient de souligner ce qui le distingue. Nombreux sont ceux qui comparent V3 à GPT-4o et soulignent que V3 surpasse 4o. C'est vrai, mais GPT-4o est sorti en mai 2024. Dans le domaine de l'IA, cette période a apporté des progrès algorithmiques significatifs.

Analyse concurrentielle de Deepseek-V3
Au fil du temps, il est normal d'atteindre des capacités identiques, voire supérieures, avec moins de ressources de calcul. Par exemple, un petit modèle désormais exécutable sur un ordinateur portable offre des performances comparables à celles de GPT-3, qui nécessite un supercalculateur pour l'entraînement et plusieurs GPU pour l'inférence.
En d'autres termes, les améliorations algorithmiques ont permis de réduire les besoins en calcul pour entraîner et déduire des modèles de même capacité, une tendance récurrente. Cette fois, le monde entier l'a remarqué, car elle provenait d'un laboratoire chinois. Mais les gains de performance pour les petits modèles ne sont pas nouveaux.

LLM le moins cher au-dessus de 42 MMLU (coût/1 million de jetons)
La tendance observée jusqu'à présent suggère que les laboratoires d'IA dépensent davantage en termes absolus en échange d'une meilleure performance. Le rythme de progression des algorithmes est estimé à 4 fois par an, ce qui signifie qu'avec chaque année, la quantité de calcul nécessaire pour atteindre la même capacité diminue de 3/4.
Dario, PDG d'Anthropic, estime que les progrès algorithmiques sont encore plus rapides, avec une amélioration de 10 fois. En termes de prix d'inférence de niveau GPT-3, les coûts ont été divisés par 1,200 XNUMX.
En examinant le coût du GPT-4, nous observons une tendance à la baisse similaire, bien qu'en début de courbe. Si la réduction des écarts de coûts au fil du temps pourrait s'expliquer par le fait que la puissance n'a pas été maintenue constante, dans ce cas, nous constatons une réduction de 10 fois du coût et une multiplication par 10 de la puissance grâce aux améliorations et optimisations algorithmiques.

LLM le moins cher au-delà de certains coûts MMLU/1 million de jetons
Soyons clairs, DeepSeek est unique en ce sens qu'il est le premier à atteindre ce niveau de coût et de capacités. Il est également unique en ce qu'il publie des pondérations open source, contrairement aux précédents modèles Mistral et Llama. DeepSeek a atteint ce niveau de coût, mais ne soyez pas surpris de voir ses coûts diminuer encore de cinq fois d'ici la fin de l'année.
- Les performances de R1 sont-elles comparables à celles de o1 ?
En revanche, R1 est capable d'obtenir des résultats comparables à O1, annoncé seulement en septembre. Comment DeepSeek a-t-il pu rattraper son retard aussi rapidement ?
La réponse est que l'inférence est un nouveau paradigme offrant des itérations plus rapides et des barrières d'entrée plus faibles, et permettant de réaliser des gains significatifs avec moins de calcul, ce qui est plus avantageux que le paradigme précédent. Comme indiqué dans le rapport sur la loi d'échelle, le paradigme précédent reposait sur un pré-apprentissage, qui devient de plus en plus coûteux et difficile à réaliser.
Ce nouveau paradigme se concentre sur l'activation des capacités d'inférence grâce à la génération de données synthétiques et à l'apprentissage par renforcement (RL) post-entraîné sur des modèles existants, ce qui permet de progresser plus rapidement et à moindre coût. La faible barrière à l'entrée, combinée à la facilité d'optimisation, permet à DeepSeek de reproduire l'approche d'o1 plus rapidement que jamais. À mesure que les participants apprendront à atteindre une plus grande échelle dans ce nouveau paradigme, le délai d'adaptation des capacités devrait augmenter.
Il est important de noter que l'article sur R1 ne mentionne pas la quantité de calcul utilisée. Ce n'est pas un hasard : la génération de données synthétiques pour R1 après l'entraînement nécessite beaucoup de calcul, sans parler de l'apprentissage par renforcement. R1 est un excellent modèle, nous ne le nions pas, et atteindre si rapidement les premières capacités de raisonnement est admirable. DeepSeek est encore plus impressionnant en tant qu'entreprise chinoise qui a rattrapé son retard avec encore moins de ressources.
Cependant, certains des benchmarks mentionnés par R1 sont également trompeurs. Comparer R1 à o1 est délicat, car R1 omet intentionnellement de mentionner les benchmarks qu'il ne domine pas. Et si R1 est comparable à o1 en termes de performances d'inférence, il n'est souvent pas le grand gagnant sur tous les indicateurs, et il est souvent pire que o1.
Nous n'avons même pas encore mentionné O3. O3 est largement supérieur à R1 et O1. D'ailleurs, OpenAI a récemment partagé les résultats d'O3, et l'amélioration par rapport aux benchmarks est considérable. « L'apprentissage profond a atteint un seuil », mais celui-ci est d'un autre ordre.
- Le modèle d’inférence de Google est-il comparable à R1 ?
Alors que R1 a suscité un vif intérêt, une entreprise de 2.5 2.0 milliards de dollars a lancé un mois plus tôt un modèle d'inférence moins coûteux : Gemini Flash 1 Thinking de Google. Ce modèle est déjà disponible et est beaucoup moins cher que RXNUMX, bien que la longueur de son contexte de modèle soit beaucoup plus importante grâce à l'API.
Dans les benchmarks publiés, Flash 2.0 Thinking surpasse le R1, même si ces benchmarks ne sont pas exhaustifs. Google n'a publié que trois benchmarks, ce qui donne une image incomplète. Néanmoins, nous pensons que le modèle de Google est solide et tient tête au R3 à bien des égards, même s'il n'a pas bénéficié du battage médiatique. Cela pourrait s'expliquer par la mauvaise stratégie de commercialisation de Google et la mauvaise expérience utilisateur, mais aussi par le fait que le R1 a été une surprise en provenance de Chine.
Soyons clairs, rien de tout cela ne diminue l'exploit exceptionnel de DeepSeek. DeepSeek mérite d'être salué pour sa rapidité d'exécution, son financement solide, son intelligence et sa concentration, qui a su surpasser un géant comme Meta en lançant un modèle d'inférence.
Innovation technologique DeepSeek
DeepSeek a décrypté le code du grand modèle d'IA, débloquant des innovations que les laboratoires de pointe n'avaient pas encore réalisées. SemiAnalysis s'attend à ce que les améliorations apportées par DeepSeek soient reproduites presque immédiatement par les laboratoires occidentaux.
Quelles sont ces améliorations ? La plupart des avancées architecturales concernent la version 3, qui est le modèle de base de R1. Expliquons ces innovations en détail.
- Formation (pré-formation et perfectionnement)
DeepSeek V3 utilise la prédiction multi-étiquettes (MTP) à une échelle sans précédent et ajoute des modules d'attention qui prédisent les étiquettes suivantes au lieu d'une seule. Cela améliore les performances du modèle pendant l'apprentissage et peut être supprimé au moment de l'inférence. Il s'agit d'un exemple d'innovation algorithmique permettant d'améliorer les performances avec un effort de calcul réduit.
D'autres considérations sont à prendre en compte, comme l'utilisation de la précision FP8 pour l'entraînement, mais les principaux laboratoires américains pratiquent l'entraînement FP8 depuis longtemps. DeepSeek V3 est également un mélange de modèles experts, un grand modèle composé de nombreux autres experts plus petits, compétents dans différents domaines, ce qui constitue un comportement émergent. L'un des défis liés à la combinaison de modèles experts est de déterminer quelle étiquette attribuer à quel sous-modèle ou « expert ».

Mélange d'experts
DeepSeek implémente un « réseau de portes » pour répartir les étiquettes entre les experts appropriés de manière équilibrée, sans dégrader les performances du modèle. Cela signifie que la répartition est très efficace et que, lors de l'apprentissage, seul un petit nombre de paramètres sont modifiés pour chaque étiquette par rapport à la taille globale du modèle. Cela améliore l'efficacité de l'apprentissage et réduit le coût de l'inférence.
Alors que certains craignent que les gains d'efficacité du MoE réduisent les investissements, Dario souligne que les avantages économiques de modèles d'IA plus puissants sont si importants que toute économie est rapidement réinvestie dans la construction de modèles plus performants. Plutôt que de réduire l'investissement global, les gains d'efficacité du MoE accéléreront les efforts de mise à l'échelle de l'IA. Les entreprises se concentrent sur la mise à l'échelle des modèles pour accroître les ressources de calcul et leur efficacité algorithmique.
Dans le cas de R1, un modèle de base solide (V3) a grandement bénéficié de cette approche. Cela s'explique en partie par l'apprentissage par renforcement (RL). Ce dernier se concentre sur deux aspects : la mise en forme (pour garantir la cohérence des résultats) et l'utilité et l'innocuité (pour garantir l'utilité du modèle). Les capacités de raisonnement émergent lorsque le modèle est affiné sur un ensemble de données synthétiques.
Il est important de noter que l'article R1 ne mentionne pas la puissance de calcul, car mentionner la quantité de puissance de calcul utilisée suggérerait qu'ils disposent de plus de GPU qu'ils ne le prétendent. L'apprentissage par renforcement à cette échelle nécessite beaucoup de puissance de calcul, notamment pour générer des données synthétiques.
De plus, une partie des données utilisées par DeepSeek semble provenir du modèle d'OpenAI, ce qui, selon SemiAnalysis, aura un impact sur la politique d'extraction d'informations à partir des résultats. Cette pratique est déjà illégale dans les conditions d'utilisation, mais à l'avenir, une nouvelle tendance pourrait consister à adopter une forme de KYC (connaissance client) pour empêcher l'extraction d'informations.
En parlant d'extraction d'informations, l'aspect le plus intéressant de l'article R1 est peut-être la possibilité de transformer de petits modèles non inférentiels en modèles inférentiels en les affinant avec les résultats du modèle inférentiel. L'ensemble de données conservé comprend un total de 800,000 1 échantillons, et chacun peut désormais utiliser les résultats CoT de RXNUMX pour créer ses propres ensembles de données et exploiter ces résultats pour créer des modèles inférentiels. Nous pourrions voir davantage de petits modèles démontrer leurs capacités inférentielles, améliorant ainsi leurs performances.
- Attention multi-latente (MLA)
MLA est l'une des innovations clés de DeepSeek, réduisant considérablement le coût d'inférence. En effet, MLA réduit d'environ 93.3 % le cache KV requis pour chaque requête par rapport à une attention standard. Le cache KV est un mécanisme de mémoire du modèle Transformer qui permet de stocker des données représentant le contexte de la conversation et de réduire les calculs inutiles.

MLA
À mesure que le contexte de conversation s'élargit, le cache KV s'agrandit également, ce qui peut engendrer des contraintes de mémoire importantes. Réduire drastiquement le cache KV requis pour chaque requête permet de réduire la quantité de matériel nécessaire, et donc les coûts.
Cependant, SemiAnalysis estime que DeepSeek propose des services d'inférence à prix coûtant pour gagner des parts de marché plutôt que pour générer des profits. Gemini Flash 2.0 Thinking de Google reste moins cher, et il est peu probable que Google le propose à prix coûtant. MLA a particulièrement attiré l'attention de nombreux laboratoires américains de premier plan. MLA a été introduit dans DeepSeek V2, sorti en mai 2024. Grâce à la bande passante mémoire et à la capacité supérieures de H20 par rapport à H100, DeepSeek bénéficie également d'une plus grande efficacité dans les charges de travail d'inférence.
Les exigences actuelles de DeepSeek en matière de GPU soulignent la nécessité d'une planification efficace de l'infrastructure d'IA. Grâce à une répartition intelligente de la charge de travail, à la quantification et à l'allocation dynamique des GPU, les entreprises peuvent réduire considérablement leurs coûts de calcul tout en maintenant des performances élevées. C'est également l'une des raisons principales pour lesquelles DeepSeek est qualifié de produit « d'envergure nationale ».