概要
人工知能 (AI) は間違いなく情報技術分野の中心的な話題となり、過去 100 年間で前例のないペースで幅広い注目を集めています。この主張は、フォーチュン 500 社およびグローバル 2000 社の最高情報責任者 (CIO) 80 名以上を対象とした Futurum Group の調査によって裏付けられています。結果によると、回答者の約 50% が現在 AI パイロット プログラムを実行しています。さらに、この調査では、これらの IT リーダーの XNUMX% 以上が AI などの新興技術の実装を最大の課題と見なしていることが明らかになりました。さらに、近代化、イノベーション、AI の採用は、IT 調達の決定に影響を与える上位 XNUMX つの要因に常にランクされています。

この記事では、インテル® Gaudi® 2 AI アクセラレーターとそれが企業に及ぼす潜在的な影響について詳細に分析します。この研究では、推論ワークロード テストにおけるインテル® Gaudi® 3 AI アクセラレーターのパフォーマンスを主要な競合製品と比較します。これらのテストでは、3.1 つの異なる Llama XNUMX 大規模言語モデル (LLM) に焦点を当てました。IT 部門とビジネス部門のエグゼクティブに実用的で実用的な洞察を提供するために、AI ワークロード パフォーマンスを実行して測定する専用の AI テスト プラットフォームが開発されました。この研究は、商用 AI 推論プラットフォームである Kamiwaza (https://www.kamiwaza.ai/) と共同で実施されました。私たちは協力して、さまざまなハードウェアおよびソフトウェア プラットフォームにわたる AI LLM の推論パフォーマンスを正確に測定できる、Kamiwaza スタックを活用した AI テスト スイートを設計しました。
主な調査結果:
- 一連の LLM 推論テストにおいて、Intel Gaudi 3 は Nvidia H100 と同等のパフォーマンスを示しました。
- Intel Gaudi 3 のパフォーマンスは、H100 と比較して、シナリオに応じて 15% 低下から 30% 上昇まで変化しました。
- Intel Gaudi 3 は、小さな入力と大きな出力を伴う推論セッションで H100 を上回りましたが、Nvidia は大きな入力と小さな出力を伴うセッションで優れた成績を収めました。
- コストを考慮すると、Intel Gaudi 3 は Nvidia H100 と比較して 10 ドルあたりのワークロードが高く、その優位性は 2.5% から XNUMX 倍に及びます。
エンタープライズ AI の状況
過去 1 年間で AI は多くの企業にとって焦点となりましたが、大多数の企業はまだ AI の適用の初期段階にあります。パイロット プロジェクトに着手する企業は、主にエンタープライズ データやその他の知識ソースを活用して、実稼働環境向けの既存の基礎となる大規模言語モデル (LLM) を強化することに重点を置いています。
データのプライバシーとガバナンスに関する懸念は依然として大きく、これが多くの企業がクラウド ソリューションの採用に加えて、AI ツールのローカル展開を検討している理由の 1 つです。トレーニング データとランタイム推論データセットに対する制御を維持し、効果的なガバナンス フレームワークと倫理的な AI プラクティスを確立するには、データ、ツールチェーン、インフラストラクチャに対するより厳格な制御が必要です。単一対話セッションの推論は最小限のハードウェアで実現できますが、大規模な展開では、特に検索拡張生成 (RAG) などの手法を使用する場合は、通常、ハードウェア アクセラレータが必要です。したがって、企業は AI アクセラレータを選択する際に、推論ワークロードの価格とパフォーマンスを慎重に評価する必要があります。これは、AI アプリケーションが実稼働段階に達したときに、全体的な投資収益率 (ROI) に直接影響するためです。
LLM推論
LLM を使用してトレーニング モデルから有用な結果を生成するプロセスは、推論と呼ばれます。LLM 推論は通常、事前入力とデコードの 2 つのステージで構成されます。これらの 2 つのステージは連携して動作し、入力プロンプトに対する応答を生成します。
まず、プリフィル ステージでは、テキストをトークンと呼ばれる AI 表現に変換します。このトークン化プロセスは通常 CPU 上で実行され、トークンは AI アクセラレータに送信されて出力が生成され、デコードが実行されます。モデルはこのプロセスを反復的に実行し続け、新しいトークンごとに次のトークンの生成が影響を受けます。最終的に、このプロセスの最後に、生成されたシーケンスはトークンから読み取り可能なテキストに変換されます。このプロセスに使用される主なツールは、推論用に最適化された専用のソフトウェア スタックです。代表的な例としては、オープンソース プロジェクトの vLLM、Hugging Face の TGI、特定の AI アクセラレータ向けの専用バージョンなどがあります。Nvidia は TensorRT-LLM と呼ばれる最適化された推論スタックを提供し、Intel は Optimum Habana と呼ばれる最適化されたソフトウェア スタックを提供しています。
テストケースをエンタープライズアプリケーションにマッピングする
私たちのテストは、入力トークンと出力トークンのサイズによって特徴付けられる 4 つの異なる組み合わせまたはワークロード パターンに焦点を当てています。通常、これらの組み合わせは、企業が実稼働環境で展開する際に遭遇する可能性のあるさまざまな現実のシナリオをシミュレートすることを目的としています。実際の使用では、入力トークンと出力トークンのサイズの範囲が非常に広いため、単一の組み合わせと正確に一致しない可能性があります。ただし、これらの 4 つの組み合わせは、潜在的なシナリオを示すために設計されています。
通常、小さなトークンの入力シナリオは、対話型チャットなどの広範なコンテキストを欠く短い入力コマンドに対応します。検索拡張生成 (RAG) を使用すると、入力にかなりのコンテキストとトークンが追加され、チャット セッション中に入力トークンが長くなり、出力トークンが短くなります。RAG を使用したコンテンツ作成またはドキュメント/コード作成の反復的な最適化では、長い入力トークンと出力トークンでワークロードが生成されます。一般的なシナリオの分析では、長いコンテキストの入力と出力の組み合わせが最も可能性の高いシナリオであり、RAG のないチャット セッションは最も可能性が低いことが示されています。残りの 2 つのシナリオは、他の考えられるユース ケースを表しています。推定パーセンテージは、顧客との話し合いと LLM に関する当社自身の経験に基づいています。

テーブル1: 推論ワークロードの種類とその割合
表 1 に示すように、出力が長い 65 つのシナリオは合計使用量の 35% を占め、出力が短い 3 つのシナリオは残りの 100% を占めています。この区別は重要です。Intel Gaudi 3 は、出力トークンが大きいワークロードを処理する際に Nvidia H100 よりもパフォーマンスが優れているためです。さらに、企業で最も一般的なワークロードでは、Gaudi XNUMX アクセラレータは Nvidia HXNUMX よりもパフォーマンス上の利点があります。次に、これらのワークロードの詳細な結果を示し、対応する価格/パフォーマンスの比較を示します。
AI推論テストレビュー
入力データを効率的に処理して AI アクセラレータに送信するために、推論ソフトウェアは入力データをトークンに変換し、これらのトークンをバッチで送信して、全体的なトークン処理速度を向上させます。
前述のように、複数の LLM 推論スタックが利用可能です。調査した推論フレームワークには次のものが含まれます。
- TGI: H100およびGaudi 3に適しています
- vLLM: H100およびGaudi 3に適しています
- Nvidia H100: Nvidia の TensorRT-LLM 推論スタック
- Intel Gaudi 3: 最適な Habana 推論スタック
注: 各アクセラレータに最適なソリューションを選択しました。Nvidia H100 テストでは TensorRT-LLM を使用し、Intel Gaudi 3 テストでは Optimum Habana を使用しました。

図 1 に示すように、Signal65/Kamiwaza AI テスト スイートは、複数の GPU 上でさまざまな LLM モデルの推論パフォーマンスをテストでき、オプションで複数のノードをサポートできます。リクエストを送信するときに推論に使用されるハードウェアは関係ありません。これらのフレームワークは単なる基本ツールです。Signal65/Kamiwaza Bench は自動化ツールとベンチマーク機能を提供し、バッチ実験の構成から自動実行、ログ記録、スコアリング、視覚化まで、ベンチマーク プロセス全体をサポートします。
私たちのテスト方法では、3.1 つの異なるオープンソースの大規模言語モデルを使用して、8 つのハードウェア AI アクセラレータの推論パフォーマンスを比較しました。単一の AI アクセラレータ テストでは、48 GB 以上の単一のアクセラレータのメモリ容量に完全に収まる Llama 3.1 70B モデルを選択しました。16 カード サーバー システムを最大限に活用するために、Llama 8 70B モデルを使用し、推論テスト中に XNUMX つのアクセラレータに分散しました。すべての推論は、アクセラレータのスループットを最大化するためにバッチ モードで実行されました。テストは主に、量子化手法を使用せずに「フル ウェイト」または FPXNUMX データ サイズで実行されました。一般的なシナリオを再現することに重点を置き、主にフル ウェイト モデルをテストしました。これらのモデルは、量子化されたデータ サイズを使用するモデルと比較して、通常、大幅に優れた結果、つまり高い精度を提供するためです。XNUMXB モデルと XNUMXB モデルでは、さまざまな入力トークン サイズと出力トークン サイズをテストしました。簡単にするために、XNUMX つの組み合わせのみを示します。すべての場合において、入力サイズと出力サイズは (入力/出力) 形式で表されます。
コスト分析
価格と性能の比較を提供するために、競合する 2 つのソリューションの価格データを収集しました。
まず、公開されている再販業者 Thinkmate.com から構成見積もりを入手しました。この会社では、8 個の Nvidia H100 GPU を搭載した GPU サーバーの詳細な価格データを提供していました。具体的な情報は表 2 に示されています。さらに、Intel が公開した Gaudi 3 アクセラレータの価格データを使用しました。このデータは、複数の情報源から「希望小売価格 125,000 ドル」と報告されています。Gaudi 3-XH20 システムの基本システム価格 (32,613.22 ドル) に基づいてシステム価格を算出し、報告されている 8 個の Intel Gaudi 3 アクセラレータのコスト (125,000 ドル) を加算して、合計システム価格 157,613.22 ドルを算出しました。比較すると、8 個の Nvidia H100 GPU を搭載した同一システムの価格は 300,107.00 ドルです。
価格計算

表 2: 100 年 3 月 10 日現在の H2025 および Gaudi XNUMX AI サーバーの詳細な価格。
性能比較
この文脈では、「パフォーマンス」という用語は非常に重要です。これは、まったく異なる 2 つの AI アクセラレータ測定方法に適用されるからです。パフォーマンスの 1 つの尺度は結果の精度であり、これは「モデル パフォーマンス」と呼ばれることもある重要な要素です。ただし、私たちの実験検証の焦点は精度ではありません。代わりに、1 秒あたりに処理されるトークンの数として表されるトークン処理速度を測定することでパフォーマンスを説明し、ソリューションのトークン処理速度を決定します。
さらに、トークン処理速度が速くなってもモデルの精度が損なわれないように、いくつかのよく知られたテストを使用して、両方のアクセラレータのモデルの精度を測定しました。結果では、Intel Gaudi 3 と Nvidia H100 の精度に大きな違いは見られませんでした。報告された精度はわずかに異なりますが、これらの違いは測定誤差の範囲内です。精度の結果は付録に記載されています。
量子化モデルの比較
まず、あまり一般的ではないユースケースから始めますが、これらの結果は、「フルウェイト」または FP16 データタイプの推論モデルに比べてスループットが高いため、頻繁に引用されます。次の結果では、より小さな「量子化」データ サイズ FP8 を使用します。これにより、モデルと結果の品質を犠牲にして推論パフォーマンスが向上します。これらの結果は特定のユーザーに関連しているため、そのように提示されています。

図2: 8ビットFP8データ型による推論パフォーマンスの比較
上図の「1 x FP8」は、単一のアクセラレータ カードの使用を示しており、推論は FP8 データ タイプに基づいています。これらの結果は、量子化された FP100 データ タイプをサポートする Nvidia H8 が、Intel Gaudi 3 アクセラレータと比較して推論速度において優れていることを示しています。ただし、H100 が FP8 データ タイプに最適化されているにもかかわらず、Gaudi 3 の結果は H100 にかなり近いままです。

図3: 8 ビット FP8 データ型の単位コストあたりのトークン処理率
図 3 に示すように、処理されるトークンの数と単位コスト (トークンが多いほど良い) を評価すると、Intel の Gaudi 3 は 128 つのワークロードの組み合わせすべてでより良い結果をもたらすことがわかります。たとえば、128 個の入力トークンと 2 個の出力トークン (図 1 の左端の棒グラフ) を表 XNUMX のコスト データと組み合わせると、次の計算が導き出されます。
- Nvidia H100: 128/128 パフォーマンス = (26,933 トークン/秒) / $300,107.00 = 0.089744 (パーセンテージに変換すると 8.97%)
- Gaudi 3: 128/128 パフォーマンス = (23,099 トークン/秒) / $157,613.22 = 0.1466 (パーセンテージに変換すると 14.66%)
フルウェイトラマのパフォーマンス
図 4 では、単一のアクセラレータと 100 ビットのデータ型を使用して Llama 80 3B LLM を実行し、Nvidia H16 3.1GB アクセラレータと Intel Gaudi 8 アクセラレータのパフォーマンスを比較しています。注目すべきは、Nvidia は「FP16」を使用し、Intel は「BF16」を使用していることです。どちらも精度は同等ですが、表現がわずかに異なります。図に示すように、Gaudi 3 は入出力比が小さいワークロードでパフォーマンスが向上し、入出力比が大きいワークロードでは H100 がわずかに優れています。

図4: Llama 8B – シングルアクセラレータのパフォーマンス比較 (16 ビット)
次に、より大きな Llama 3.1 70B モデルを使用して、同じ 5 つのワークロード シナリオで AI アクセラレータのパフォーマンスを評価します。メモリ要件のため、このモデルを実行するには複数のアクセラレータが必要です。図 8 では、Nvidia H100 と Intel Gaudi 3 を比較した 8 つのアクセラレータのパフォーマンスを示しています。ラベル「(16 x 8 ビット)」は、FP16 または BF16 データ型の XNUMX つのアクセラレータが使用されていることを示しています。

図5: Llama 70B – 8 つのアクセラレータのパフォーマンス比較 (16 ビット)
結果は、入力対出力比が高いワークロードでは Nvidia のパフォーマンスがわずかに優れていることを再度示しています。
パフォーマンスとコストの比較
前述のように、多くの企業にとって AI アクセラレータを選択する際に最も重要な考慮事項の 1 つは、トークン処理速度とコストの関係です。この調査では、パフォーマンスとコストの比率は、単位コストあたりの処理トークン数 (トークン/秒/USD) として表されます。
まず、図 6 では、コスト要因を組み込んだ単一のアクセラレータを使用して Llama 3.1 8B モデルを実行した結果を分析しています。結果は、単位コストあたりの処理トークン数 (つまり、XNUMX 秒あたりに処理されるトークン数/USD) として示されています。したがって、値が高いほど優れており、単位コストあたりの処理トークン数が多いことを示しています。

図6: Llama 8B – 単一アクセラレータの 16 ドルあたりのトークン処理速度の比較 (XNUMX ビット)
次に、図 7 は、複数のアクセラレータを使用してより大きな Llama 3.1 70B モデルを実行した場合の単位コストあたりのパフォーマンスを示しています。前と同様に、このワークロードは 16 つの AI アクセラレータで完全な 8 ビット精度で実行されます。

図7: Llama 70B – 8 アクセラレータの 16 ドルあたりのトークン処理速度の比較 (XNUMX ビット)
パフォーマンスサマリー
いくつかのデータ ポイントが示すように、パフォーマンスの観点からのみ見ると、Nvidia H100 と Intel Gaudi 3 は、テストされた Llama 3.1 ワークロード セットで同様の推論速度を提供します。場合によっては、Nvidia がわずかに優位に立つこともありますが、Intel Gaudi 3 の方がパフォーマンスが優れている場合もあります。
当社の価格データによると、Intel の Gaudi 3 は Nvidia H10 と比較してユニットコストあたりのパフォーマンスが 100% 高く、場合によっては最大 2.5 倍になります。企業は、AI で生産性を高めるためのアプリケーションを急速に開発しています。AI 強化アプリケーションが普及するにつれて、競争圧力は、単に運用可能な AI アプリケーションを持つことから、品質と費用対効果に基づく差別化へと移行します。現在まで、AI 分野におけるレポートや誇大宣伝の多くは、ハイパースケール展開と、最新の AI モデルの開発とトレーニングに使用される何千もの AI アクセラレータに焦点を当てています。ハイパースケール企業にはそのような取り組みのためのリソースがありますが、ほとんどの企業にとって、基礎となる Transformer モデルや Diffusion モデルを開発してトレーニングすることは実現可能でも費用対効果が高くもありません。さらに、企業の主な使用例は、推論ワークロードを実行する本番展開になります。 Signal65 ベンチマーク スイートを使用してこれらのワークロードを調査することで、パフォーマンスとコスト効率の指標に関する有意義な洞察を提供し、企業の上級意思決定者が AI 推論プラットフォームの調達について情報に基づいた決定を下せるように支援することを目的としています。Nvidia H100 は Intel Gaudi 3 AI アクセラレータよりもパフォーマンス面でわずかに優れている可能性がありますが、コストの違いを考慮すると、Intel の Gaudi 3 は、私たちが紹介したさまざまな推論ワークロード全体で大幅なコスト効率の優位性を示しています。