Intel Gaudi 3 vs. Nvidia H100 : analyse comparative des performances et des prix des solutions d'inférence d'IA d'entreprise

VUE D'ENSEMBLE

L’intelligence artificielle (IA) est devenue un sujet central dans le domaine des technologies de l’information, captivant l’attention générale à un rythme sans précédent au cours des trois dernières décennies. Cette affirmation est confirmée par une enquête du Futurum Group auprès de plus de 100 directeurs des systèmes d’information (DSI) d’entreprises Fortune 500 et Global 2000. Selon les résultats, près de 80 % des répondants mènent actuellement des programmes pilotes d’IA. En outre, l’étude a révélé que plus de 50 % de ces responsables informatiques considèrent la mise en œuvre de technologies émergentes, telles que l’IA, comme leur plus grand défi. En outre, la modernisation, l’innovation et l’adoption de l’IA figurent systématiquement parmi les cinq principaux facteurs influençant les décisions d’achat informatique.

Intelligence artificielle (AI)

Cet article se penche sur une analyse approfondie de l'accélérateur d'IA Intel® Gaudi® 2 et de son impact potentiel sur les entreprises. L'étude compare les performances de l'accélérateur d'IA Intel® Gaudi® 3 avec celles d'un concurrent de premier plan lors des tests de charge de travail d'inférence. Ces tests se sont concentrés sur deux grands modèles de langage (LLM) Llama 3.1 distincts. Pour fournir aux dirigeants informatiques et commerciaux des informations pratiques et exploitables, une plate-forme de test d'IA spécialisée a été développée pour exécuter et mesurer les performances de la charge de travail de l'IA. Cette recherche a été menée en collaboration avec Kamiwaza (https://www.kamiwaza.ai/), une plate-forme d'inférence d'IA commerciale. Ensemble, nous avons conçu une suite de tests d'IA exploitant la pile Kamiwaza, capable de mesurer avec précision les performances d'inférence des LLM d'IA sur diverses plates-formes matérielles et logicielles.

Principales constatations:

  • Dans une série de tests d'inférence LLM, Intel Gaudi 3 a démontré des performances comparables à celles de Nvidia H100.
  • Les performances d'Intel Gaudi 3 par rapport à H100 ont varié, allant de 15 % de moins à 30 % de plus, selon le scénario.
  • Intel Gaudi 3 a surpassé H100 dans les sessions d'inférence avec de petites entrées et de grandes sorties, tandis que Nvidia a excellé dans les sessions impliquant de grandes entrées et de petites sorties.
  • En prenant en compte le coût, Intel Gaudi 3 a atteint une charge de travail par dollar plus élevée par rapport à Nvidia H100, avec un avantage allant de 10 % à 2.5x.

Paysage de l'IA d'entreprise

Bien que l’IA soit devenue un point central pour de nombreuses entreprises au cours de l’année écoulée, la majorité d’entre elles en sont encore aux premiers stades de son application. Lorsque les entreprises se lancent dans des projets pilotes, elles se concentrent principalement sur l’exploitation des données d’entreprise et d’autres sources de connaissances pour améliorer les modèles de langage étendus (LLM) fondamentaux existants pour les environnements de production.

Les préoccupations en matière de confidentialité et de gouvernance des données restent importantes, ce qui explique pourquoi de nombreuses entreprises, en plus d’adopter des solutions cloud, envisagent le déploiement d’outils d’IA au niveau local. Le maintien du contrôle sur les données de formation et les ensembles de données d’inférence d’exécution, ainsi que l’établissement de cadres de gouvernance efficaces et de pratiques d’IA éthiques, nécessitent un plus grand contrôle sur les données, les chaînes d’outils et l’infrastructure. Alors que les inférences de session à interaction unique peuvent être réalisées avec un minimum de matériel, les déploiements à grande échelle nécessitent généralement des accélérateurs matériels, en particulier lors de l’utilisation de techniques telles que la génération augmentée de récupération (RAG). Par conséquent, les entreprises doivent évaluer soigneusement le prix et les performances de leurs charges de travail d’inférence lors de la sélection des accélérateurs d’IA, car cela a un impact direct sur le retour sur investissement (ROI) global une fois que les applications d’IA atteignent le stade de production.

LLM Inférence

Le processus de génération de résultats utiles à partir de modèles de formation utilisant des LLM est connu sous le nom d'inférence. L'inférence LLM se compose généralement de deux étapes : le pré-remplissage et le décodage. Ces deux étapes fonctionnent en tandem pour générer des réponses aux invites de saisie.

Tout d'abord, l'étape de pré-remplissage convertit le texte en représentations d'IA, appelées jetons. Ce processus de tokenisation se produit généralement sur le processeur, et les jetons sont ensuite envoyés à l'accélérateur d'IA pour générer une sortie et effectuer le décodage. Le modèle continue d'exécuter ce processus de manière itérative, chaque nouveau jeton influençant la génération du jeton suivant. Finalement, à la fin de ce processus, la séquence générée est reconvertie des jetons en texte lisible. Les principaux outils utilisés pour ce processus sont des piles logicielles spécialisées optimisées pour l'inférence. Parmi les exemples typiques, citons le projet open source vLLM, le TGI de Hugging Face et des versions spécialisées pour des accélérateurs d'IA spécifiques. Nvidia propose une pile d'inférence optimisée appelée TensorRT-LLM, tandis qu'Intel fournit une pile logicielle optimisée connue sous le nom d'Optimum Habana.

Cartographie des cas de test vers les applications d'entreprise

Nos tests se concentrent sur quatre combinaisons distinctes ou modèles de charge de travail caractérisés par la taille des jetons d'entrée et de sortie. En général, ces combinaisons visent à simuler différents scénarios réels que les entreprises peuvent rencontrer lors des déploiements de production. Dans la pratique, la taille des jetons d'entrée et de sortie peut ne pas correspondre précisément à une combinaison unique, car leur plage est assez large. Cependant, ces quatre combinaisons sont conçues pour illustrer des scénarios potentiels.

En règle générale, les scénarios d'entrée à petits jetons correspondent à de brèves commandes d'entrée dépourvues de contexte étendu, comme une discussion interactive. L'utilisation de la génération augmentée de récupération (RAG) ajoute un contexte et des jetons substantiels à l'entrée, ce qui se traduit par des jetons d'entrée plus longs et des jetons de sortie plus courts pendant les sessions de discussion. Dans l'optimisation itérative pour la création de contenu ou l'écriture de documents/codes avec RAG, les charges de travail sont générées avec des jetons d'entrée et de sortie longs. Notre analyse des scénarios courants indique que la combinaison d'entrées et de sorties à contexte long est le scénario le plus probable, tandis que les sessions de discussion sans RAG sont les moins probables. Les deux scénarios restants représentent d'autres cas d'utilisation possibles. Les pourcentages estimés sont basés sur des discussions avec des clients et sur notre propre expérience avec les LLM.

Types de charges de travail d'inférence et leurs proportions

Tableau 1: Types de charges de travail d'inférence et leurs proportions

Comme le montre le tableau 1, les deux scénarios avec une sortie plus longue représentent conjointement 65 % de l'utilisation totale, tandis que les deux scénarios avec une sortie plus courte représentent les 35 % restants. Cette distinction est cruciale car Intel Gaudi 3 est plus performant que Nvidia H100 lors de la gestion de charges de travail avec des jetons de sortie plus importants. De plus, pour les charges de travail les plus courantes dans les entreprises, l'accélérateur Gaudi 3 démontre des avantages en termes de performances par rapport à Nvidia H100. Nous présenterons ensuite les résultats détaillés de ces charges de travail et fournirons des comparaisons prix/performances correspondantes.

Examen du test d'inférence d'IA

Pour traiter efficacement les données d’entrée et les soumettre aux accélérateurs d’IA, le logiciel d’inférence convertit les données d’entrée en jetons, puis envoie ces jetons par lots pour améliorer le taux de traitement global des jetons.

Comme mentionné précédemment, plusieurs piles d'inférence LLM sont disponibles. Nos cadres d'inférence étudiés incluent les suivants :

  • TGI : Adapté pour H100 et Gaudi 3
  • vLLM : Adapté pour H100 et Gaudi 3
  • Nvidia H100 : pile d'inférence TensorRT-LLM de Nvidia
  • Intel Gaudi 3 : pile d'inférence Habana optimale

Remarque : nous avons sélectionné la solution optimale pour chaque accélérateur. Pour les tests Nvidia H100, nous avons utilisé TensorRT-LLM, et pour les tests Intel Gaudi 3, nous avons utilisé Optimum Habana.

Test d'IA de Kamiwaza

Comme le montre la figure 1, la suite de tests d'IA Signal65/Kamiwaza peut tester les performances d'inférence de différents modèles LLM sur plusieurs GPU et prendre en charge plusieurs nœuds en option. Le matériel utilisé pour l'inférence n'a aucune importance lors de la soumission des requêtes. Ces cadres ne sont que des outils de base. Signal65/Kamiwaza Bench fournit des outils d'automatisation et des fonctionnalités d'analyse comparative, prenant en charge l'ensemble du processus d'analyse comparative, de la configuration des expériences par lots à l'exécution, la journalisation, la notation et la visualisation automatisées.

Notre méthodologie de test consistait à comparer les performances d'inférence de deux accélérateurs d'IA matériels à l'aide de deux modèles de langage open source différents. Pour les tests d'accélérateur d'IA unique, nous avons choisi le modèle Llama 3.1 8B, qui peut s'adapter parfaitement à la capacité de mémoire d'un seul accélérateur de 48 Go ou plus. Pour utiliser pleinement un système de serveur à huit cartes, nous avons utilisé le modèle Llama 3.1 70B et l'avons réparti sur huit accélérateurs lors des tests d'inférence. Toutes les inférences ont été effectuées en mode batch pour maximiser le débit de l'accélérateur. Nos tests ont été principalement effectués sous des tailles de données « à poids complet » ou FP16, sans utiliser de techniques de quantification. Nous nous sommes concentrés sur la réplication de scénarios courants et avons principalement testé des modèles à poids complet, car ces modèles fournissent généralement des résultats nettement meilleurs, c'est-à-dire une précision plus élevée, par rapport aux modèles utilisant des tailles de données quantifiées. Pour les modèles 8B et 70B, nous avons testé différentes tailles de jetons d'entrée et de sortie. Pour plus de simplicité, nous ne présentons que quatre combinaisons. Dans tous les cas, les tailles d'entrée et de sortie sont exprimées au format (entrée/sortie).

Analyse des coûts

Afin de fournir une comparaison prix/performance, nous avons collecté des données de tarification pour deux solutions concurrentes.

Tout d’abord, nous avons obtenu des devis de configuration auprès du revendeur accessible au public Thinkmate.com, qui a fourni des données tarifaires détaillées pour un serveur GPU équipé de 8 GPU Nvidia H100. Des informations spécifiques sont présentées dans le tableau 2. De plus, nous avons utilisé les données tarifaires publiées par Intel pour l’accélérateur Gaudi 3, dont le « prix de détail suggéré est de 125,000 3 $ » selon plusieurs sources. Nous avons construit un prix système basé sur le prix système de base du système Gaudi 20-XH32,613.22 (8 3 $), puis avons ajouté le coût déclaré de 125,000 accélérateurs Intel Gaudi 157,613.22 (8 100 $) pour arriver à un prix système total de 300,107.00 XNUMX $. En comparaison, un système identique équipé de XNUMX GPU Nvidia HXNUMX coûte XNUMX XNUMX $.

Calcul des prix

Tarifs détaillés des serveurs H100 et Gaudi 3 AI au 10 janvier 2025

Tableau 2 : Tarification détaillée des serveurs H100 et Gaudi 3 AI au 10 janvier 2025.

Comparaison

Le terme « performance » est crucial dans ce contexte, car il s’applique à deux méthodes de mesure d’accélérateur d’IA entièrement différentes. L’une des mesures de performance est la précision des résultats, un facteur clé parfois appelé « performance du modèle ». Cependant, l’objectif de notre validation expérimentale n’est pas la précision. Au lieu de cela, nous décrivons les performances en mesurant le taux de traitement des jetons, exprimé en nombre de jetons traités par seconde, afin de déterminer le taux de traitement des jetons de la solution.

De plus, pour garantir que les taux de traitement de jetons plus élevés ne compromettent pas la précision du modèle, nous avons utilisé plusieurs tests bien connus pour mesurer la précision du modèle des deux accélérateurs. Les résultats ne montrent aucune différence significative de précision entre Intel Gaudi 3 et Nvidia H100. Bien que la précision rapportée varie légèrement, ces différences se situent dans notre plage d'erreur de mesure. Les résultats de précision sont fournis en annexe.

Comparaison de modèles quantifiés

Nous commençons par un cas d'utilisation peut-être moins courant, bien que ces résultats soient fréquemment cités en raison de leur débit plus élevé par rapport aux modèles d'inférence de type de données « à poids complet » ou FP16. Les résultats suivants utilisent une taille de données « quantifiée » plus petite FP8, qui permet d'obtenir des performances d'inférence plus rapides au détriment de la qualité du modèle et des résultats. Ces résultats sont pertinents pour certains utilisateurs et sont présentés comme tels.

Comparaison des performances d'inférence avec le type de données FP8 8 bits

Figure 2: Comparaison des performances d'inférence avec le type de données FP8 8 bits

Dans la figure ci-dessus, « 1 x FP8 » indique l'utilisation d'une seule carte accélératrice et l'inférence est basée sur le type de données FP8. Ces résultats mettent en évidence l'avantage de la prise en charge du type de données FP100 quantifié par Nvidia H8 en termes de vitesse d'inférence par rapport à l'accélérateur Intel Gaudi 3. Cependant, bien que H100 soit optimisé pour le type de données FP8, les résultats de Gaudi 3 restent assez proches de H100.

Taux de traitement des jetons par coût unitaire avec le type de données FP8 8 bits

Figure 3: Taux de traitement des jetons par coût unitaire avec type de données FP8 8 bits

Comme le montre la figure 3, lors de l'évaluation du nombre de jetons traités par unité de coût (plus il y a de jetons, mieux c'est), nous constatons que le processeur Intel Gaudi 3 fournit de meilleurs résultats dans les quatre combinaisons de charges de travail. Par exemple, avec 128 jetons d'entrée et 128 jetons de sortie (le graphique à barres le plus à gauche de la figure 2), combinés aux données de coût du tableau 1, nous obtenons les calculs suivants :

  • Nvidia H100 : performances 128/128 = (26,933 300,107.00 jetons/seconde) / 0.089744 8.97 $ = XNUMX (converti en pourcentage à XNUMX %)
  • Gaudi 3 : performance 128/128 = (23,099 157,613.22 jetons/seconde) / 0.1466 14.66 $ = XNUMX (converti en pourcentage à XNUMX %)

Performances de lama à pleine puissance

Dans la figure 4, nous comparons les performances de l'accélérateur Nvidia H100 80 Go et de l'accélérateur Intel Gaudi 3 en utilisant un seul accélérateur et un type de données 16 bits pour exécuter le LLM Llama 3.1 8B. Notamment, Nvidia utilise « FP16 » tandis qu'Intel utilise « BF16 », tous deux équivalents en précision mais légèrement différents en représentation. Comme indiqué, Gaudi 3 est plus performant dans les charges de travail avec des rapports entrée/sortie plus petits, tandis que H100 surpasse légèrement les charges de travail avec des rapports entrée/sortie plus élevés.

Comparaison des performances d'un seul accélérateur

Figure 4:Llama 8B – Comparaison des performances d'un seul accélérateur (16 bits)

Ensuite, nous évaluons les performances des accélérateurs d'IA dans les quatre mêmes scénarios de charge de travail en utilisant le modèle Llama 3.1 70B plus grand. En raison des exigences de mémoire, ce modèle nécessite plusieurs accélérateurs pour fonctionner. Dans la figure 5, nous présentons les performances de 8 accélérateurs, en comparant Nvidia H100 et Intel Gaudi 3. L'étiquette « (8 x 16 bits) » indique l'utilisation de 8 accélérateurs avec le type de données FP16 ou BF16.

Comparaison des performances de 8 accélérateurs

Figure 5: Comparaison des performances de Llama 70B – 8 accélérateurs (16 bits)

Les résultats indiquent à nouveau que Nvidia obtient des performances légèrement meilleures dans les charges de travail avec des rapports entrée/sortie plus élevés.

Comparaison des performances et des coûts

Comme mentionné précédemment, l’un des éléments les plus importants à prendre en compte pour de nombreuses entreprises lors de la sélection d’accélérateurs d’IA est la relation entre le taux de traitement des jetons et le coût. Dans cette étude, le rapport entre les performances et le coût est exprimé en nombre de jetons traités par unité de coût (jetons/seconde/USD).

Tout d'abord, dans la figure 6, nous analysons les résultats de l'exécution du modèle Llama 3.1 8B à l'aide d'un seul accélérateur, en intégrant des facteurs de coût. Les résultats sont présentés sous la forme du nombre de jetons traités par unité de coût (c'est-à-dire les jetons traités par seconde/USD). Par conséquent, plus la valeur est élevée, mieux c'est, ce qui indique qu'un plus grand nombre de jetons sont traités par unité de coût.

Comparaison du taux de traitement des jetons d'accélérateur unique par dollar

Figure 6: Llama 8B – Comparaison du taux de traitement d'un jeton d'accélérateur unique par dollar (16 bits)

Ensuite, la figure 7 montre les performances par coût unitaire lors de l'exécution du modèle Llama 3.1 70B plus grand en utilisant plusieurs accélérateurs. Comme précédemment, cette charge de travail est exécutée avec une précision de 16 bits sur 8 accélérateurs d'IA.

Comparaison du taux de traitement des jetons par dollar de 8 accélérateurs

Figure 7: Comparaison du taux de traitement des jetons Llama 70B – 8 Accelerators par dollar (16 bits)

Résumé des performances

Comme l'indiquent plusieurs points de données, du point de vue des performances uniquement, Nvidia H100 et Intel Gaudi 3 offrent des vitesses d'inférence similaires sur l'ensemble de charges de travail Llama 3.1 testé. Dans certains cas, Nvidia a un léger avantage, tandis que dans d'autres, Intel Gaudi 3 est plus performant.

Selon nos données de tarification, le processeur Intel Gaudi 3 offre des performances par unité de coût supérieures de 10 % à celles du processeur Nvidia H100, et dans certains cas, jusqu'à 2.5 fois. Les entreprises développent rapidement des applications pour améliorer la productivité grâce à l'IA. À mesure que les applications optimisées par l'IA se répandent, la pression concurrentielle passera de la simple mise en place d'applications d'IA opérationnelles à une différenciation basée sur la qualité et la rentabilité. Jusqu'à présent, une grande partie des rapports et du battage médiatique dans le domaine de l'IA s'est concentrée sur les déploiements hyperscale et les milliers d'accélérateurs d'IA utilisés pour développer et former les derniers modèles d'IA. Bien que les entreprises hyperscale disposent des ressources nécessaires à de telles initiatives, pour la plupart des entreprises, il n'est ni faisable ni rentable de développer et de former des modèles de base de transformateur ou de diffusion. De plus, le principal cas d'utilisation pour les entreprises sera le déploiement en production, l'exécution de charges de travail d'inférence. Notre utilisation de la suite de tests Signal65 pour étudier ces charges de travail vise à fournir des informations utiles sur les mesures de performance et de rentabilité, aidant ainsi les décideurs d'entreprise à prendre des décisions d'achat éclairées pour les plates-formes d'inférence d'IA. Bien que Nvidia H100 puisse avoir un léger avantage en termes de performances par rapport aux accélérateurs d'IA Intel Gaudi 3, si l'on considère les différences de coût, le Gaudi 3 d'Intel démontre un avantage significatif en termes de rentabilité sur les différentes charges de travail d'inférence que nous avons présentées.

Laisser un commentaire

Remonter en haut