خوادم NVIDIA AI GPU: PCIe مقابل SXM

تحتوي تقنية ربط GPU من Nvidia على نوعين رئيسيين من فتحات الذاكرة: PCIe وSXM. هاتان الواجهتان لهما وظائف وأداء مختلفان.

واجهة PCIe هي بروتوكول عام مستخدم على نطاق واسع. على الرغم من أنها تحتوي على وظائف شاملة، إلا أنها تتميز بسرعة نقل بطيئة نسبيًا للاتصال البيني لوحدة معالجة الرسومات. ومع ذلك، لا يزال بإمكان بطاقات GPU لواجهة PCIe الاتصال بوحدة المعالجة المركزية وبطاقات GPU الأخرى الموجودة في الخادم من خلال فتحات PCIe. بالإضافة إلى ذلك، يمكنهم أيضًا تبادل البيانات مع الأجهزة الموجودة على عقد الخادم الخارجي من خلال بطاقات الشبكة. إذا أراد المستخدمون تحسين سرعة نقل بطاقات PCIe GPU، فيمكنهم استخدام جسر NVLink لتحقيق اتصال سريع بين GPU ووحدة المعالجة المركزية. ومع ذلك، تجدر الإشارة إلى أن هذه الطريقة تدعم عادةً الاتصال بين بطاقتي GPU فقط. وهذا يعني أن بطاقات PCIe GPU عادةً ما تحتاج إلى الظهور في أزواج، متصلة بواسطة NVLink Bridge، ونقل البيانات عبر قناة PCIe. تجدر الإشارة إلى أن أحدث معايير PCIe لها حد أقصى يبلغ 128 جيجابايت/ثانية في عرض النطاق الترددي للشبكة.

وفي المقابل، تم تصميم واجهة SXM خصيصًا للأداء العالي ربط GPU. ويستخدم بروتوكولًا مخصصًا تم وضعه على لوحة الدائرة، والذي يمكّن SXM من القيام بذلك offإنها سرعة نقل أعلى ودعم NVLink أصلي أفضل من PCIe من حيث الاتصال بين البطاقات. كما أن عرض النطاق الترددي للذاكرة الخاص به يتفوق أيضًا على PCIe. تعتبر بنية SXM مناسبة بشكل خاص لتوصيل وحدات معالجة الرسومات بأنظمة DGX وHGX الخاصة بشركة NVIDIA. في هذه الأنظمة، يتم توصيل وحدات معالجة الرسوميات المستندة إلى SXM من خلال NVSwitch المدمج في اللوحة الأم، دون الاعتماد على PCIe للاتصال. يسمح هذا التصميم لـ SXM بدعم ما يصل إلى 8 وحدات معالجة رسوميات مترابطة، مما يحقق عرض نطاق ترددي عالي جدًا. على سبيل المثال، يمكن أن يصل عرض النطاق الترددي غير المقطوع لـ A100 وH100 إلى 600 جيجابايت/ثانية و900 جيجابايت/ثانية على التوالي، بينما يمكن أن يصل عرض النطاق الترددي للطرازين A800 وH800 المقطوعين قليلاً إلى 400 جيجابايت/ثانية.

PCIe GPU إلى GPU

يجب على المستخدمين عمومًا الموازنة بين إيجابيات وسلبيات وحدات معالجة الرسومات المستندة إلى PCIe أو المستندة إلى SXM وفقًا لسيناريوهات التطبيق المحددة ومتطلبات الأداء.

مقدمة PCIe (PCI Express).

PCIe، وهو اختصار لـ PCI Express، هو معيار ناقل توسيع كمبيوتر متقدم، هدفه الأساسي هو تحسين إنتاجية البيانات وسرعة الاتصال بين الأجهزة. وباعتبارها ناقل اتصال مزدوج الاتجاه، يعتمد معدل نقل البيانات لـ PCIe على عدد الممرات الخاصة بها. يتكون كل حارة من زوجين من خطوط البيانات (واحد للإرسال والآخر للاستقبال)، ويحتوي كل زوج من خطوط البيانات على خطين تفاضليين. على سبيل المثال، يعني X1 حارة واحدة وأربعة خطوط بيانات، والتي يمكنها نقل بيانات 1 بت لكل اتجاه لكل دورة ساعة؛ بينما يعني X2 مسارين وثمانية خطوط بيانات، والتي يمكنها نقل بيانات 2 بت لكل دورة. وبالمثل، هناك أيضًا تكوينات X12 وX16 وX32 وتكوينات أخرى.

يسي إكسبريس

منذ إصدار PCIe 1.0 في عام 2003، زاد معدل الإرسال بشكل مطرد. يدعم PCIe 1.0 معدل نقل يبلغ 250 ميجابايت/ثانية لكل قناة، بمعدل نقل إجمالي يبلغ 2.5 جيجا بايت/ثانية. بحلول عام 2007، ضاعفت مواصفات PCIe 2.0 معدل النقل الإجمالي إلى 5 GT/s، كما زاد معدل النقل لكل قناة أيضًا إلى 500 ميجابايت/ثانية. بحلول عام 2022، ستزيد مواصفات PCIe 6.0 من إجمالي معدل النقل إلى 64 جيجا بايت / ثانية. وفي يونيو من نفس العام، أعلن تحالف PCI-SIG عن مواصفات PCIe 7.0، والتي من المتوقع أن تحقق معدل نقل أحادي الاتجاه أحادي القناة (x1) يبلغ 128 GT/s في النسخة النهائية التي ستصدر في عام 2025.    

عرض النطاق الترددي PCIe

حساب إنتاجية PCIe

عند حساب إنتاجية PCIe (أو عرض النطاق الترددي المتوفر)، يجب مراعاة عاملين: معدل النقل ونظام التشفير. عادة ما يتم التعبير عن معدل النقل بوحدة GT/s (Giga Transitions في الثانية)، والتي تصف سمة السرعة لبروتوكول اتصال الطبقة المادية، بدلاً من عدد البتات المنقولة في الثانية (Gbps). وذلك لأن معدل النقل يتضمن بتات علوية لا توفر إنتاجية إضافية. على سبيل المثال، يستخدم PCIe 1.x وPCIe 2.x نظام التشفير 8b/10b، مما يعني أنه يتم استخدام 20% من النطاق الترددي للقناة الأصلية للحمل.

لذلك، على الرغم من أن بروتوكول PCIe 2.0 يدعم معدل نقل يبلغ 5.0 GT/s، نظرًا لاستخدام حل التشفير 8b/10b، فإن المعدل الفعال الفعلي لكل حارة هو 5*8/10=4 جيجابت في الثانية، أو 500 ميجابايت/ س. وبالمثل، يدعم بروتوكول PCIe 3.0 معدل نقل يبلغ 8.0 GT/s، ولكن بعد استخدام نظام التشفير 128b/130b، يبلغ المعدل الفعال الفعلي لكل مسار حوالي 7.877 جيجابت في الثانية، أو 984.6 ميجابايت/ثانية.

تتكون بنية PCIe من أجهزة PCIe من أنواع مختلفة، مثل Root Complex (RC)، وSwitch، وEndpoint (EP). من بينها، RC هو الوحيد في بنية الناقل، المسؤول عن توصيل أنظمة المعالج والذاكرة الفرعية بأجهزة الإدخال / الإخراج. عادةً ما يتم تنفيذ وظيفة المحول بواسطة برنامج يحتوي على اثنين أو أكثر من جسور PCI-to-PCI المنطقية (PCI-PCI Bridge) لضمان التوافق مع أجهزة PCI الموجودة. توفر هذه البنية دعمًا قويًا للحوسبة والاتصالات عالية الأداء.

نقطة النهاية

ومع استمرار زيادة قوة الحوسبة، أصبحت بطاقات GPU المتعددة هي المفتاح لتحسين الأداء. ومع ذلك، فإن ناقل PCIe التقليدي عرضة لأن يكون عنق الزجاجة في معدل نقل البيانات وزمن الوصول، مما يحد من كفاءة وأداء الحوسبة المتوازية لوحدة معالجة الرسومات.

لحل هذه المشكلة، قدمت NVIDIA تقنية GPUDirect P2P، والتي تسمح لوحدات معالجة الرسومات بالوصول مباشرة إلى ذاكرة وحدات معالجة الرسومات الأخرى من خلال PCI Express، مما يقلل من زمن انتقال تبادل البيانات. ولكن على الرغم من ذلك، نظرًا لبروتوكول ناقل PCI Express وقيود الهيكل، فإنه لا يزال غير قادر على تلبية متطلبات النطاق الترددي الأعلى. ولهذا السبب، أطلقت NVIDIA تقنية التوصيل البيني عالي السرعة NVLink. يهدف NVLink إلى تسريع نقل البيانات بين وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU)، ووحدة معالجة الرسومات (GPU) ووحدة معالجة الرسومات (GPU)، مما يوفر حل اتصال أكثر كفاءة وأقل زمن وصول. منذ إصداره الأول في عام 2014، تمت ترقية NVLink بشكل مستمر، كما زاد عرض النطاق الترددي. من 100 جيجابايت/ثانية لـ P160 إلى 100 جيجابايت/ثانية لـ V300، ثم إلى 100 جيجابايت/ثانية لـ A600، زاد عرض النطاق الترددي لـ NVLink، مما يوفر دعمًا قويًا للحوسبة عالية الأداء.

يتميز الاتصال البيني عالي السرعة NVLink بطريقتين رئيسيتين للتنفيذ: إحداهما من خلال جسر، والأخرى هي دمج واجهة NVLink على اللوحة الأم. يمكن لكلتا الطريقتين تحقيق اتصال بيني عالي السرعة بين وحدات معالجة الرسومات وتحسين أداء النظام.

نفيديا nvswitch

NVSwitch: اتصال سلس وعالي النطاق الترددي متعدد وحدات معالجة الرسومات

لحل مشكلة الاتصال غير المتوازن بين وحدات معالجة الرسومات، قدمت NVIDIA شريحة NVSwitch. NVSwitch عبارة عن شريحة فعلية (ASIC) تشبه المحول، والتي يمكنها توصيل وحدات معالجة رسومات متعددة بسرعة عالية من خلال واجهة NVLink. يمكنه إنشاء مجموعة GPU متعددة العقد وسلسة ذات نطاق ترددي عالٍ، مما يمكّن جميع وحدات معالجة الرسومات من العمل معًا في مجموعة مع اتصال كامل النطاق الترددي، وبالتالي تحسين كفاءة الاتصال وعرض النطاق الترددي بين وحدات معالجة الرسومات المتعددة داخل الخادم.

إن الجمع بين NVLink وNVSwitch يمكّن NVIDIA من توسيع نطاق أداء الذكاء الاصطناعي بكفاءة إلى وحدات معالجة الرسومات المتعددة، مما يوفر دعمًا قويًا للحوسبة عالية الأداء وتطبيقات الذكاء الاصطناعي. منذ إصدار الجيل الأول من NVSwitch في عام 2018، تطورت NVSwitch إلى الجيل الثالث. تم تصميم الجيل الثالث من NVSwitch باستخدام عملية TSMC's 4N، وتحتوي كل شريحة على 64 منفذ NVLink 4.0، مع معدل اتصال يصل إلى 900 جيجابايت/ثانية بين وحدات معالجة الرسومات. توفر هذه التقنية المبتكرة مساحة تطوير أوسع لتطبيقات الحوسبة عالية الأداء والذكاء الاصطناعي المستقبلية.

أداء nvlink

اترك تعليق

انتقل إلى الأعلى