Intel Gaudi 3 vs. Nvidia H100: Preis-Leistungs-Vergleich für Enterprise-KI-Inferenz

Übersicht

Künstliche Intelligenz (KI) ist zweifellos zu einem zentralen Thema im Bereich der Informationstechnologie geworden und hat in den letzten drei Jahrzehnten in beispiellosem Tempo weithin Aufmerksamkeit erregt. Diese Behauptung wird durch eine Umfrage der Futurum Group unter Beteiligung von über 100 Chief Information Officers (CIOs) von Fortune 500- und Global 2000-Unternehmen gestützt. Den Ergebnissen zufolge führen derzeit fast 80 % der Befragten KI-Pilotprogramme durch. Darüber hinaus ergab die Studie, dass über 50 % dieser IT-Leiter die Implementierung neuer Technologien wie KI als ihre größte Herausforderung ansehen. Darüber hinaus zählen Modernisierung, Innovation und KI-Einführung durchweg zu den fünf wichtigsten Faktoren, die IT-Beschaffungsentscheidungen beeinflussen.

Artificial Intelligence (AI)

Dieser Artikel befasst sich mit einer eingehenden Analyse des Intel® Gaudi® 2 KI-Beschleunigers und seiner potenziellen Auswirkungen auf Unternehmen. Die Studie vergleicht die Leistung des Intel® Gaudi® 3 KI-Beschleunigers mit der eines führenden Konkurrenten bei Inferenz-Workload-Tests. Diese Tests konzentrierten sich auf zwei unterschiedliche Llama 3.1 Large Language Models (LLMs). Um IT- und Geschäftsleitern praktische und umsetzbare Erkenntnisse zu liefern, wurde eine spezielle KI-Testplattform entwickelt, um die KI-Workload-Leistung auszuführen und zu messen. Diese Forschung wurde in Zusammenarbeit mit Kamiwaza (https://www.kamiwaza.ai/) durchgeführt, einer kommerziellen KI-Inferenzplattform. Gemeinsam haben wir eine KI-Testsuite entwickelt, die den Kamiwaza-Stack nutzt und in der Lage ist, die Inferenzleistung von KI-LLMs auf verschiedenen Hardware- und Softwareplattformen genau zu messen.

Die wichtigsten Ergebnisse:

  • In einer Reihe von LLM-Inferenztests zeigte Intel Gaudi 3 eine vergleichbare Leistung wie Nvidia H100.
  • Die Leistung von Intel Gaudi 3 im Vergleich zu H100 variierte je nach Szenario zwischen 15 % niedriger und 30 % höher.
  • Intel Gaudi 3 übertraf H100 bei Inferenzsitzungen mit kleinen Eingaben und großen Ausgaben, während Nvidia bei Sitzungen mit großen Eingaben und kleinen Ausgaben brillierte.
  • Unter Berücksichtigung der Kosten erreichte Intel Gaudi 3 im Vergleich zu Nvidia H100 eine höhere Arbeitslast pro Dollar, mit einem Vorteil von 10 % bis 2.5x.

Unternehmens-KI-Landschaft

Obwohl KI im vergangenen Jahr für viele Unternehmen in den Mittelpunkt gerückt ist, befinden sich die meisten Unternehmen noch in den frühen Phasen der KI-Anwendung. Wenn Unternehmen Pilotprojekte starten, konzentrieren sie sich in erster Linie darauf, Unternehmensdaten und andere Wissensquellen zu nutzen, um vorhandene grundlegende große Sprachmodelle (LLMs) für Produktionsumgebungen zu verbessern.

Bedenken hinsichtlich Datenschutz und Governance bleiben groß, was ein Grund dafür ist, dass viele Unternehmen neben der Einführung von Cloud-Lösungen auch die lokale Bereitstellung von KI-Tools prüfen. Um die Kontrolle über Trainingsdaten und Laufzeit-Inferenzdatensätze zu behalten und effektive Governance-Frameworks und ethische KI-Praktiken zu etablieren, ist eine stärkere Kontrolle über Daten, Toolchains und Infrastruktur erforderlich. Während Inferenzen für einzelne Interaktionssitzungen mit minimaler Hardware erreicht werden können, sind für groß angelegte Bereitstellungen in der Regel Hardwarebeschleuniger erforderlich, insbesondere bei Verwendung von Techniken wie Retrieval-Augmented Generation (RAG). Daher sollten Unternehmen bei der Auswahl von KI-Beschleunigern Preis und Leistung ihrer Inferenz-Workloads sorgfältig prüfen, da dies direkte Auswirkungen auf den Gesamt-Return on Investment (ROI) hat, sobald KI-Anwendungen die Produktionsphase erreichen.

LLM-Inferenz

Der Prozess der Generierung nützlicher Ergebnisse aus Trainingsmodellen mithilfe von LLMs wird als Inferenz bezeichnet. Die LLM-Inferenz besteht normalerweise aus zwei Phasen: Vorfüllen und Dekodieren. Diese beiden Phasen arbeiten zusammen, um Antworten auf Eingabeaufforderungen zu generieren.

Zunächst konvertiert die Vorfüllphase Text in KI-Darstellungen, sogenannte Token. Dieser Tokenisierungsprozess findet normalerweise auf der CPU statt und die Token werden dann an den KI-Beschleuniger gesendet, um eine Ausgabe zu generieren und eine Dekodierung durchzuführen. Das Modell führt diesen Prozess iterativ weiter aus, wobei jeder neue Token die Generierung des nächsten Tokens beeinflusst. Am Ende dieses Prozesses wird die generierte Sequenz schließlich wieder von Token in lesbaren Text umgewandelt. Die wichtigsten Tools für diesen Prozess sind spezialisierte, für Inferenz optimierte Software-Stacks. Einige typische Beispiele sind das Open-Source-Projekt vLLM, Hugging Faces TGI und spezialisierte Versionen für bestimmte KI-Beschleuniger. Nvidia bietet einen optimierten Inferenz-Stack namens TensorRT-LLM, während Intel einen optimierten Software-Stack namens Optimum Habana bereitstellt.

Zuordnung von Testfällen zu Unternehmensanwendungen

Unsere Tests konzentrieren sich auf vier verschiedene Kombinationen oder Arbeitslastmuster, die durch die Größe der Eingabe- und Ausgabetoken gekennzeichnet sind. Im Allgemeinen zielen diese Kombinationen darauf ab, verschiedene reale Szenarien zu simulieren, denen Unternehmen bei Produktionsbereitstellungen begegnen können. Bei der tatsächlichen Verwendung stimmt die Größe der Eingabe- und Ausgabetoken möglicherweise nicht genau mit einer einzelnen Kombination überein, da ihr Bereich recht groß ist. Diese vier Kombinationen sollen jedoch mögliche Szenarien veranschaulichen.

Typischerweise entsprechen kleine Token-Eingabeszenarien kurzen Eingabebefehlen ohne umfassenden Kontext, wie z. B. interaktiven Chats. Durch die Verwendung von Retrieval-Augmented Generation (RAG) werden der Eingabe wesentlicher Kontext und Token hinzugefügt, was zu längeren Eingabetoken und kürzeren Ausgabetoken während Chatsitzungen führt. Bei der iterativen Optimierung für die Inhaltserstellung oder das Schreiben von Dokumenten/Code mit RAG werden Arbeitslasten mit langen Eingabe- und Ausgabetoken generiert. Unsere Analyse gängiger Szenarien zeigt, dass die Kombination aus Eingaben und Ausgaben mit langem Kontext das wahrscheinlichste Szenario ist, während Chatsitzungen ohne RAG am unwahrscheinlichsten sind. Die verbleibenden zwei Szenarien stellen andere mögliche Anwendungsfälle dar. Die geschätzten Prozentsätze basieren auf Gesprächen mit Kunden und unseren eigenen Erfahrungen mit LLMs.

Inferenz-Workloadtypen und ihre Anteile

Tabelle 1: Inferenz-Workload-Typen und ihre Anteile

Wie in Tabelle 1 dargestellt, machen die beiden Szenarien mit längerer Ausgabe zusammen 65 % der Gesamtnutzung aus, während die beiden Szenarien mit kürzerer Ausgabe die restlichen 35 % ausmachen. Diese Unterscheidung ist entscheidend, da Intel Gaudi 3 bei der Verarbeitung von Workloads mit größeren Ausgabetokens eine bessere Leistung als Nvidia H100 bietet. Darüber hinaus weist der Gaudi 3-Beschleuniger bei den gängigsten Workloads in Unternehmen Leistungsvorteile gegenüber Nvidia H100 auf. Als Nächstes präsentieren wir die detaillierten Ergebnisse dieser Workloads und liefern entsprechende Preis-/Leistungsvergleiche.

Überprüfung des KI-Inferenztests

Um Eingabedaten effizient zu verarbeiten und an KI-Beschleuniger zu übermitteln, wandelt Inferenzsoftware die Eingabedaten in Token um und sendet diese Token dann stapelweise, um die Gesamttoken-Verarbeitungsrate zu verbessern.

Wie bereits erwähnt, sind mehrere LLM-Inferenz-Stacks verfügbar. Unsere untersuchten Inferenz-Frameworks umfassen Folgendes:

  • TGI: Passend für H100 und Gaudi 3
  • vLLM: Passend für H100 und Gaudi 3
  • Nvidia H100: Nvidias TensorRT-LLM-Inferenzstapel
  • Intel Gaudi 3: Optimaler Habana-Inferenzstapel

Hinweis: Wir haben für jeden Beschleuniger die optimale Lösung ausgewählt. Für die Nvidia H100-Tests haben wir TensorRT-LLM verwendet und für die Intel Gaudi 3-Tests Optimum Habana.

Kamiwaza-KI-Test

Wie in Abbildung 1 dargestellt, kann die Signal65/Kamiwaza AI-Testsuite die Inferenzleistung verschiedener LLM-Modelle auf mehreren GPUs testen und optional mehrere Knoten unterstützen. Die für die Inferenz verwendete Hardware ist beim Senden von Anfragen irrelevant. Diese Frameworks sind lediglich grundlegende Tools. Signal65/Kamiwaza Bench bietet Automatisierungstools und Benchmarking-Funktionen und unterstützt den gesamten Benchmarking-Prozess von der Konfiguration von Batch-Experimenten bis hin zur automatischen Ausführung, Protokollierung, Bewertung und Visualisierung.

Unsere Testmethodik umfasste den Vergleich der Inferenzleistung von zwei Hardware-KI-Beschleunigern unter Verwendung von zwei verschiedenen Open-Source-Modellen für große Sprachen. Für Tests mit einzelnen KI-Beschleunigern wählten wir das Modell Llama 3.1 8B, das vollständig in die Speicherkapazität eines einzelnen Beschleunigers mit 48 GB oder mehr passt. Um ein Serversystem mit acht Karten voll auszunutzen, verwendeten wir das Modell Llama 3.1 70B und verteilten es während der Inferenztests auf acht Beschleuniger. Alle Inferenzen wurden im Batch-Modus durchgeführt, um den Beschleunigerdurchsatz zu maximieren. Unsere Tests wurden größtenteils unter „Vollgewicht“- oder FP16-Datengrößen durchgeführt, ohne Quantisierungstechniken zu verwenden. Wir konzentrierten uns auf die Nachbildung gängiger Szenarien und testeten hauptsächlich Vollgewichtsmodelle, da diese Modelle im Vergleich zu Modellen mit quantisierten Datengrößen in der Regel deutlich bessere Ergebnisse, d. h. eine höhere Genauigkeit, liefern. Für die Modelle 8B und 70B testeten wir verschiedene Eingabe- und Ausgabetokengrößen. Der Einfachheit halber stellen wir nur vier Kombinationen vor. In allen Fällen werden Eingabe- und Ausgabegrößen im (Eingabe-/Ausgabe-)Format ausgedrückt.

Kostenanalyse

Um einen Preis-Leistungs-Vergleich zu ermöglichen, haben wir Preisdaten für zwei konkurrierende Lösungen gesammelt.

Zunächst haben wir Konfigurationsangebote vom öffentlich zugänglichen Wiederverkäufer Thinkmate.com eingeholt, der detaillierte Preisdaten für einen GPU-Server mit 8 Nvidia H100 GPUs bereitstellte. Genauere Informationen sind in Tabelle 2 aufgeführt. Zusätzlich haben wir die von Intel veröffentlichten Preisdaten für den Gaudi 3-Beschleuniger verwendet, der laut mehreren Quellen einen „empfohlenen Verkaufspreis von 125,000 USD“ hat. Wir haben einen Systempreis auf Grundlage des Basissystempreises des Gaudi 3-XH20-Systems (32,613.22 USD) berechnet und dann die gemeldeten Kosten für 8 Intel Gaudi 3-Beschleuniger (125,000 USD) hinzugefügt, um auf einen Gesamtsystempreis von 157,613.22 USD zu kommen. Im Vergleich dazu kostet ein identisches System mit 8 Nvidia H100 GPUs 300,107.00 USD.

Preisberechnung

Detaillierte Preise der H100- und Gaudi 3-KI-Server ab 10. Januar 2025

Tabelle 2: Detaillierte Preise der H100- und Gaudi 3-KI-Server mit Stand 10. Januar 2025.

Leistungsvergleich

Der Begriff „Leistung“ ist in diesem Zusammenhang von entscheidender Bedeutung, da er sich auf zwei völlig unterschiedliche Messmethoden für KI-Beschleuniger bezieht. Ein Leistungsmaß ist die Genauigkeit der Ergebnisse, ein Schlüsselfaktor, der manchmal als „Modellleistung“ bezeichnet wird. Der Schwerpunkt unserer experimentellen Validierung liegt jedoch nicht auf der Genauigkeit. Stattdessen beschreiben wir die Leistung, indem wir die Token-Verarbeitungsrate messen, ausgedrückt als Anzahl der pro Sekunde verarbeiteten Token, um die Token-Verarbeitungsrate der Lösung zu bestimmen.

Um sicherzustellen, dass höhere Token-Verarbeitungsraten die Modellgenauigkeit nicht beeinträchtigen, haben wir außerdem mehrere bekannte Tests verwendet, um die Modellgenauigkeit beider Beschleuniger zu messen. Die Ergebnisse zeigen keine signifikanten Unterschiede in der Genauigkeit zwischen Intel Gaudi 3 und Nvidia H100. Während die gemeldete Genauigkeit leicht variiert, liegen diese Unterschiede innerhalb unseres Messfehlerbereichs. Die Genauigkeitsergebnisse finden Sie im Anhang.

Vergleich quantisierter Modelle

Wir beginnen mit einem möglicherweise weniger verbreiteten Anwendungsfall, obwohl diese Ergebnisse häufig aufgrund ihres höheren Durchsatzes im Vergleich zu Inferenzmodellen mit „vollem Gewicht“ oder FP16-Datentyp zitiert werden. Die folgenden Ergebnisse verwenden kleinere „quantisierte“ Datengrößen FP8, wodurch eine schnellere Inferenzleistung auf Kosten der Modell- und Ergebnisqualität erreicht wird. Diese Ergebnisse sind für bestimmte Benutzer relevant und werden als solche dargestellt.

Vergleich der Inferenzleistung mit dem 8-Bit-FP8-Datentyp

Figure 2: Vergleich der Inferenzleistung mit dem 8-Bit-FP8-Datentyp

In der obigen Abbildung zeigt „1 x FP8“ die Verwendung einer einzelnen Beschleunigerkarte an, und die Inferenz basiert auf dem FP8-Datentyp. Diese Ergebnisse unterstreichen den Vorteil von Nvidia H100, das den quantisierten FP8-Datentyp unterstützt, in Bezug auf die Inferenzgeschwindigkeit im Vergleich zum Intel Gaudi 3-Beschleuniger. Obwohl H100 für den FP8-Datentyp optimiert ist, bleiben die Ergebnisse von Gaudi 3 ziemlich nahe an denen von H100.

Token-Verarbeitungsrate pro Einheitskosten mit 8-Bit-FP8-Datentyp

Figure 3: Token-Verarbeitungsrate pro Einheitskosten mit 8-Bit-FP8-Datentyp

Wie in Abbildung 3 dargestellt, stellen wir bei der Auswertung der Anzahl der verarbeiteten Token pro Stückkosten (je mehr Token, desto besser) fest, dass Intels Gaudi 3 in allen vier Workload-Kombinationen bessere Ergebnisse liefert. Beispielsweise leiten wir mit 128 Eingabe-Token und 128 Ausgabe-Token (das Balkendiagramm ganz links in Abbildung 2) in Kombination mit Kostendaten aus Tabelle 1 die folgenden Berechnungen ab:

  • Nvidia H100: 128/128 Leistung = (26,933 Token/Sekunde) / 300,107.00 $ = 0.089744 (in Prozent umgerechnet als 8.97 %)
  • Gaudi 3: 128/128 Leistung = (23,099 Token/Sekunde) / 157,613.22 $ = 0.1466 (in Prozent umgerechnet als 14.66 %)

Leistung eines Lamas mit vollem Gewicht

In Abbildung 4 vergleichen wir die Leistung des Nvidia H100 80GB-Beschleunigers und des Intel Gaudi 3-Beschleunigers mit einem einzigen Beschleuniger und einem 16-Bit-Datentyp, um das Llama 3.1 8B LLM auszuführen. Bemerkenswert ist, dass Nvidia „FP16“ verwendet, während Intel „BF16“ verwendet. Beide sind in der Präzision gleich, unterscheiden sich jedoch leicht in der Darstellung. Wie gezeigt, ist die Leistung von Gaudi 3 bei Arbeitslasten mit kleineren Input-Output-Verhältnissen besser, während H100 bei Arbeitslasten mit größeren Input-Output-Verhältnissen leicht besser abschneidet.

Vergleich der Leistung einzelner Beschleuniger

Figure 4: Llama 8B – Leistungsvergleich einzelner Beschleuniger (16 Bit)

Als Nächstes bewerten wir die Leistung von KI-Beschleunigern in denselben vier Workload-Szenarien mithilfe des größeren Modells Llama 3.1 70B. Aufgrund der Speicheranforderungen sind für die Ausführung dieses Modells mehrere Beschleuniger erforderlich. In Abbildung 5 stellen wir die Leistung von 8 Beschleunigern dar und vergleichen dabei Nvidia H100 und Intel Gaudi 3. Die Bezeichnung „(8 x 16 Bit)“ weist auf die Verwendung von 8 Beschleunigern mit dem Datentyp FP16 oder BF16 hin.

8 Beschleuniger Leistungsvergleich

Figure 5: Llama 70B – Leistungsvergleich von 8 Beschleunigern (16 Bit)

Die Ergebnisse zeigen erneut, dass Nvidia bei Arbeitslasten mit höheren Input-Output-Verhältnissen eine etwas bessere Leistung erbringt.

Leistungs- und Kostenvergleich

Wie bereits erwähnt, ist für viele Unternehmen bei der Auswahl von KI-Beschleunigern das Verhältnis zwischen Token-Verarbeitungsrate und Kosten eine der wichtigsten Überlegungen. In dieser Studie wird das Verhältnis von Leistung zu Kosten als Anzahl der verarbeiteten Token pro Stückkosten (Token/Sekunde/USD) ausgedrückt.

Zunächst analysieren wir in Abbildung 6 die Ergebnisse der Ausführung des Llama 3.1 8B-Modells mit einem einzigen Beschleuniger unter Berücksichtigung von Kostenfaktoren. Die Ergebnisse werden als Anzahl der verarbeiteten Token pro Stückkosten dargestellt (d. h. verarbeitete Token pro Sekunde/USD). Je höher der Wert, desto besser, da mehr Token pro Stückkosten verarbeitet werden.

Vergleich der Verarbeitungsrate einzelner Accelerator-Token pro Dollar

Figure 6: Llama 8B – Vergleich der Token-Verarbeitungsrate eines einzelnen Accelerator pro Dollar (16-Bit)

Als nächstes zeigt Abbildung 7 die Leistung pro Einheitskosten beim Ausführen des größeren Llama 3.1 70B-Modells mit mehreren Beschleunigern. Wie zuvor wird diese Arbeitslast mit voller 16-Bit-Präzision auf 8 KI-Beschleunigern ausgeführt.

8 Accelerators Token-Verarbeitungsrate pro Dollar im Vergleich

Figure 7: Llama 70B – 8 Beschleuniger – Vergleich der Token-Verarbeitungsrate pro Dollar (16-Bit)

Leistungszusammenfassung

Wie mehrere Datenpunkte zeigen, bieten Nvidia H100 und Intel Gaudi 3 allein aus Leistungssicht ähnliche Inferenzgeschwindigkeiten im getesteten Llama 3.1-Workload-Set. In einigen Fällen hat Nvidia einen leichten Vorsprung, während in anderen Fällen Intel Gaudi 3 die bessere Leistung erzielt.

Laut unseren Preisdaten bietet Intels Gaudi 3 im Vergleich zu Nvidia H10 eine um 100 % höhere Leistung pro Stückkosten, in einigen Fällen sogar bis zu 2.5-mal mehr. Unternehmen entwickeln schnell Anwendungen, um die Produktivität mit KI zu steigern. Da KI-gestützte Anwendungen immer häufiger werden, verlagert sich der Wettbewerbsdruck von bloßen operativen KI-Anwendungen auf eine Differenzierung auf der Grundlage von Qualität und Kosteneffizienz. Bislang konzentrierte sich ein Großteil der Berichterstattung und des Hypes im KI-Bereich auf Hyperscale-Bereitstellungen und die Tausenden von KI-Beschleunigern, die zur Entwicklung und Schulung der neuesten KI-Modelle verwendet werden. Während Hyperscale-Unternehmen über die Ressourcen für solche Vorhaben verfügen, ist es für die meisten Unternehmen weder machbar noch kosteneffizient, grundlegende Transformer- oder Diffusionsmodelle zu entwickeln und zu trainieren. Darüber hinaus wird der primäre Anwendungsfall für Unternehmen die Produktionsbereitstellung sein, bei der Inferenz-Workloads ausgeführt werden. Unsere Verwendung der Signal65-Benchmark-Suite zur Untersuchung dieser Workloads zielt darauf ab, aussagekräftige Einblicke in Leistungs- und Kosteneffizienzmetriken zu liefern und leitenden Entscheidungsträgern in Unternehmen dabei zu helfen, fundierte Beschaffungsentscheidungen für KI-Inferenzplattformen zu treffen. Während Nvidia H100 gegenüber den KI-Beschleunigern Intel Gaudi 3 möglicherweise einen leichten Leistungsvorteil hat, weist Intels Gaudi 3 bei Berücksichtigung der Kostenunterschiede über die verschiedenen von uns vorgestellten Inferenz-Workloads hinweg einen erheblichen Kosteneffizienzvorteil auf.

Hinterlasse einen Kommentar

Nach oben scrollen