مقارنة بين وحدة معالجة الموتر من جوجل ووحدة معالجة الرسومات من إنفيديا: المواجهة الحاسمة في مجال أجهزة الذكاء الاصطناعي

في عالم تسريع الذكاء الاصطناعي، تتجاوز المنافسة بين وحدة معالجة الموترات (TPU) من جوجل ووحدة معالجة الرسومات (GPU) من إنفيديا مجرد مقارنة بالمواصفات التقنية، فهي صراع فكري بين الدوائر المتكاملة المصممة خصيصًا للتطبيقات (ASIC) والحوسبة المتوازية للأغراض العامة (GPGPU). يمثل هذان الاتجاهان الفكريان السائدان في مجال أجهزة الذكاء الاصطناعي اليوم.

تقارن هذه المدونة المتعمقة بينها من حيث البنية والأداء والنظام البيئي للبرمجيات وقابلية التوسع في الربط البيني ونموذج الأعمال - كل ما تحتاج إلى معرفته في عام 2025.

فلسفة التصميم الأساسية

وحدة معالجة الرسومات من إنفيديا: ملكة الحوسبة المتوازية للأغراض العامة

المنشأ: نشأت من أجل عرض الرسومات (الألعاب)، وتطورت إلى الحوسبة المتوازية العالمية عبر CUDA.

العمارة الأساسية: SIMT (تعليمات واحدة، خيوط متعددة) مع آلاف من نوى CUDA الصغيرة.

قوة خارقة: مرونة فائقة - فهي لا تتفوق فقط في الرياضيات المصفوفية للذكاء الاصطناعي ولكن أيضًا في الحوسبة العلمية وتتبع الأشعة وتعدين العملات المشفرة وغير ذلك الكثير.

التنازل عن ميزة ممن أجل الحصول على أخرىللحفاظ على الشمولية، تحمل وحدات معالجة الرسومات منطق تحكم معقد (توقع الفروع، التسلسل الهرمي لذاكرة التخزين المؤقت، وما إلى ذلك)، مما يستهلك مساحة الشريحة والطاقة.

نفيديا غبو

وحدة معالجة الإشارات الرقمية من جوجل: "المتخصص" الأمثل في الذكاء الاصطناعي

  • المنشأ: تم تصميمها خصيصًا بواسطة جوجل للتعامل مع أحمال العمل الداخلية المتزايدة للذكاء الاصطناعي (البحث، والترجمة، وAlphaGo، وGemini، وما إلى ذلك).
  • العمارة الأساسيةالمصفوفة الانقباضية - القلب النابض لوحدة معالجة الموتر.
    • تشبيه: بينما تعمل وحدة المعالجة المركزية/وحدة معالجة الرسومات كعمال توصيل يتنقلون ذهابًا وإيابًا إلى الذاكرة، فإن مصفوفة TPU الانقباضية تعمل كخط تجميع في مصنع. تتدفق البيانات عبر آلاف وحدات الحساب والمنطق مثل الدم في الأوردة، ويُعاد استخدامها مئات المرات قبل كتابتها مرة أخرى.
  • تركيز الليزر: مُحسَّن حصريًا لضرب المصفوفات - العملية التي تمثل أكثر من 90٪ من الحساب في المحولات، والشبكات العصبية التلافيفية، ومعظم الشبكات العصبية الحديثة.
  • نتيجة: في ظل نفس عقدة المعالجة، تحقق TPU كفاءة سيليكون أعلى بكثير وأداءً لكل واط.
جوجل تبو

الربط البيني للذاكرة وعرض النطاق الترددي وقابلية التوسع

عرض نطاق الذاكرة (HBM)

  • NVIDIAعدوانية للغاية. استحوذت سلسلة H100 وH200 وBlackwell B200 فعليًا على معظم إنتاج SK hynix من ذاكرة HBM3e عالية الجودة. فلسفة NVIDIA هي: "تجاوز حدود الذاكرة بنطاق ترددي هائل".
  • جوجل تبوأكثر تحفظاً ولكنه كافٍ. بفضل إعادة استخدام البيانات العالية للغاية داخل المصفوفة الانقباضية، تحتاج وحدات معالجة الموتر (TPUs) إلى نطاق ترددي أقل للذاكرة الخارجية مما تتوقع.

توسيع نطاق المجموعات - سلاح جوجل السري

عند تدريب النماذج الضخمة للغاية (مثل GPT-4 و Gemini Ultra وغيرها)، لم يعد أداء البطاقة الواحدة يمثل عنق الزجاجة. كفاءة الربط البيني هي.

البعدنفيديا (NVLink + InfiniBand/Quantum-2)جوجل تي بي يو (آي سي آي + أو سي إس)
نوع التوصيل البينيمحولات الشبكة الخارجية عالية الأداء وبطاقات الشبكةمفاتيح الدوائر الضوئية + التوصيلات البينية بين الرقائق (ICI)
طبيعة الكابلشجرة الدهون مع NVSwitchحلقة ثنائية/ثلاثية الأبعاد + تبديل بصري قابل لإعادة التكوين ديناميكيًا
التكلفة والتعقيدكابلات باهظة الثمن ومعقدة للغايةتكلفة أقل بكثير، ونشر أبسط
امكانية اعادة التشكيلالكهرباء الساكنة أثناء العمليمكن إعادة تكوين آلاف وحدات معالجة الموتر (TPUs) في ثوانٍ
الفائز المتناميممتاز لكن الثمنغالباً ما يكون التوسع الخطي فائقاً على مستوى رقاقة يزيد عن 10,000

تُعد تقنية مفتاح الدائرة الضوئية (OCS) من جوجل بمثابة تغيير جذري: فهي قادرة على إعادة توصيل بنية الشبكة فعليًا في ثوانٍ، مما يحقق عرض نطاق ثنائي مثالي تقريبًا على نطاق واسع.

النظام البيئي للبرمجيات - الخندق العميق لشركة NVIDIA

إنفيديا كودا: "لغة الذكاء الاصطناعي" بلا منازع

  • يتم تطوير وتحسين كل إطار عمل رئيسي تقريبًا (PyTorch، TensorFlow، JAX، إلخ) أولاً على CUDA.
  • الرسوم البيانية الديناميكية، وسهولة تصحيح الأخطاء، وملايين الإجابات على موقع Stack Overflow - يحبها الباحثون.
  • تجربة "تعمل ببساطة" في 99% من حالات الاستخدام.

جوجل إكس إل إيه + جيه إيه إكس/باي تورش-إكس إل إيه: المتابع السريع

  • يجب تجميع كود TPU عبر XLA (الجبر الخطي المعجل).
  • كانت في الأصل مرتبطة ارتباطًا وثيقًا بـ TensorFlow؛ وهي الآن تدعم بقوة JAX و PyTorch/XLA.
  • التحديات:
    • الرسم البياني الثابت في الغالب: يمكن أن يؤدي تدفق التحكم الثقيل (الكثير من عبارات if/else) إلى انخفاض الأداء أو حتى فشل عملية التجميع.
    • عملية تصحيح الأخطاء مؤلمة - أخطاء غامضة في المترجم مع موارد مجتمعية أقل بكثير.
  • قوة خارقةبمجرد تجميعها، تقوم XLA بدمج المشغلات بشكل كبير، وغالبًا ما تحقق استخدامًا أعلى لـ MFU (استخدام النموذج FLOPs) من كود CUDA المضبوط يدويًا.

مقارنة الأداء (الجيل الأحدث 2025)

متريإنفيديا (H100 / بلاكويل)جوجل تي بي يو الإصدار 5 بي / الإصدار 6 (تريليوم)الفائز
معدل العمليات الحسابية الخام لبطاقة واحدة (FP8/FP16)قمة أعلىذروة أقل قليلاًNVIDIA
نماذج صغيرة / نماذج بحثيةأسرع بشكل ملحوظأبطأ بسبب عملية التجميعNVIDIA
تدريب واسع النطاق MFU45-55% (مُحسَّن)55-65%+جوجل تبو
التوسع الخطي (أكثر من 10 آلاف شريحة)جيد جداً ولكنه غالي الثمنغالباً ما يكون أفضل وأرخصجوجل تبو
الاستدلال منخفض زمن الاستجابةملك TensorRT-LLMجيد ولكن ليس الأفضلNVIDIA
الاستدلال عالي الإنتاجيةأسعار TPU v5e/v6 فعال للغاية من حيث التكلفةجوجل (التكلفة)

خلاصة القول:

  • لأغراض البحث، أو تصميم النماذج الأولية، أو الاستدلال الحساس للتأخير → شركة إنفيديا تفوز.
  • لتدريب وتقديم نماذج على نطاق واسع بكفاءة تضاهي كفاءة جوجل → غالباً ما تتفوق مادة TPU من حيث الأداء والتكلفة.

نموذج العمل والتوافر - الفرق الجوهري

الشركةالتشبيه في عصر الحاسوب الشخصينمط العملالتوفر
NVIDIAإنتليبيع "أفضل المجارف" للجميع خلال حمى الذهبسوق مفتوحة، أي شخص يملك المال يمكنه الشراء
جوجلابلبفضل التكامل الرأسي، تحتفظ بأفضل الأجهزة لنفسهابشكل أساسي عبر Google Cloud (مع إمكانية الوصول إلى بعض الشركاء)

تهيمن NVIDIA على كامل هرم السوق، بدءًا من اللاعبين وصولًا إلى الشركات الناشئة وانتهاءً بمزودي خدمات الحوسبة السحابية العملاقة. أما وحدات معالجة Tensor Processing Unit (TPU) من Google، فهي مخصصة في الغالب لخدمات Google الخاصة وعملاء Google Cloud، مما يمنحها ميزة تنافسية هيكلية من حيث التكلفة يصعب للغاية منافستها.

الحكم النهائي في عام 2025

  • إذا كنت مختبرًا مستقلاً، أو شركة ناشئة، أو تحتاج إلى أقصى قدر من المرونة ودعم النظام البيئي → يظل NVIDIA GPU + CUDA الخيار الافتراضي.
  • إذا كنت تدير نماذج على نطاق كوكبي وتهتم بالتكلفة الإجمالية للملكية على نطاق مسرع يزيد عن 100,000 ← أصبحت وحدة معالجة الموتر من جوجل (وخاصة الإصدار السادس من تريليوم) لا تُضاهى بشكل متزايد.

لم تنتهِ الحرب بعد. تُروّج NVIDIA لمعالجات Blackwell وNVLink 6؛ وقد أعلنت جوجل للتو عن معالج TPU v6 "Trillium" الذي يُقدّم أداءً يفوق v5p بمقدار 4.7 مرة لكل شريحة. ستكون السنتان أو الثلاث سنوات القادمة حاسمة.

انتقل إلى الأعلى