تحتوي تقنية ربط GPU من Nvidia على نوعين رئيسيين من فتحات الذاكرة: PCIe وSXM. هاتان الواجهتان لهما وظائف وأداء مختلفان.
واجهة PCIe هي بروتوكول عام مستخدم على نطاق واسع. على الرغم من أنها تحتوي على وظائف شاملة، إلا أنها تتميز بسرعة نقل بطيئة نسبيًا للاتصال البيني لوحدة معالجة الرسومات. ومع ذلك، لا يزال بإمكان بطاقات GPU لواجهة PCIe الاتصال بوحدة المعالجة المركزية وبطاقات GPU الأخرى الموجودة في الخادم من خلال فتحات PCIe. بالإضافة إلى ذلك، يمكنهم أيضًا تبادل البيانات مع الأجهزة الموجودة على عقد الخادم الخارجي من خلال بطاقات الشبكة. إذا أراد المستخدمون تحسين سرعة نقل بطاقات PCIe GPU، فيمكنهم استخدام جسر NVLink لتحقيق اتصال سريع بين GPU ووحدة المعالجة المركزية. ومع ذلك، تجدر الإشارة إلى أن هذه الطريقة تدعم عادةً الاتصال بين بطاقتي GPU فقط. وهذا يعني أن بطاقات PCIe GPU عادةً ما تحتاج إلى الظهور في أزواج، متصلة بواسطة NVLink Bridge، ونقل البيانات عبر قناة PCIe. تجدر الإشارة إلى أن أحدث معايير PCIe لها حد أقصى يبلغ 128 جيجابايت/ثانية في عرض النطاق الترددي للشبكة.
وفي المقابل، تم تصميم واجهة SXM خصيصًا للأداء العالي ربط GPU. ويستخدم بروتوكولًا مخصصًا تم وضعه على لوحة الدائرة، والذي يمكّن SXM من القيام بذلك offإنها سرعة نقل أعلى ودعم NVLink أصلي أفضل من PCIe من حيث الاتصال بين البطاقات. كما أن عرض النطاق الترددي للذاكرة الخاص به يتفوق أيضًا على PCIe. تعتبر بنية SXM مناسبة بشكل خاص لتوصيل وحدات معالجة الرسومات بأنظمة DGX وHGX الخاصة بشركة NVIDIA. في هذه الأنظمة، يتم توصيل وحدات معالجة الرسوميات المستندة إلى SXM من خلال NVSwitch المدمج في اللوحة الأم، دون الاعتماد على PCIe للاتصال. يسمح هذا التصميم لـ SXM بدعم ما يصل إلى 8 وحدات معالجة رسوميات مترابطة، مما يحقق عرض نطاق ترددي عالي جدًا. على سبيل المثال، يمكن أن يصل عرض النطاق الترددي غير المقطوع لـ A100 وH100 إلى 600 جيجابايت/ثانية و900 جيجابايت/ثانية على التوالي، بينما يمكن أن يصل عرض النطاق الترددي للطرازين A800 وH800 المقطوعين قليلاً إلى 400 جيجابايت/ثانية.
يجب على المستخدمين عمومًا الموازنة بين إيجابيات وسلبيات وحدات معالجة الرسومات المستندة إلى PCIe أو المستندة إلى SXM وفقًا لسيناريوهات التطبيق المحددة ومتطلبات الأداء.
مقدمة PCIe (PCI Express).
PCIe، وهو اختصار لـ PCI Express، هو معيار ناقل توسيع كمبيوتر متقدم، هدفه الأساسي هو تحسين إنتاجية البيانات وسرعة الاتصال بين الأجهزة. وباعتبارها ناقل اتصال مزدوج الاتجاه، يعتمد معدل نقل البيانات لـ PCIe على عدد الممرات الخاصة بها. يتكون كل حارة من زوجين من خطوط البيانات (واحد للإرسال والآخر للاستقبال)، ويحتوي كل زوج من خطوط البيانات على خطين تفاضليين. على سبيل المثال، يعني X1 حارة واحدة وأربعة خطوط بيانات، والتي يمكنها نقل بيانات 1 بت لكل اتجاه لكل دورة ساعة؛ بينما يعني X2 مسارين وثمانية خطوط بيانات، والتي يمكنها نقل بيانات 2 بت لكل دورة. وبالمثل، هناك أيضًا تكوينات X12 وX16 وX32 وتكوينات أخرى.
منذ إصدار PCIe 1.0 في عام 2003، زاد معدل الإرسال بشكل مطرد. يدعم PCIe 1.0 معدل نقل يبلغ 250 ميجابايت/ثانية لكل قناة، بمعدل نقل إجمالي يبلغ 2.5 جيجا بايت/ثانية. بحلول عام 2007، ضاعفت مواصفات PCIe 2.0 معدل النقل الإجمالي إلى 5 GT/s، كما زاد معدل النقل لكل قناة أيضًا إلى 500 ميجابايت/ثانية. بحلول عام 2022، ستزيد مواصفات PCIe 6.0 من إجمالي معدل النقل إلى 64 جيجا بايت / ثانية. وفي يونيو من نفس العام، أعلن تحالف PCI-SIG عن مواصفات PCIe 7.0، والتي من المتوقع أن تحقق معدل نقل أحادي الاتجاه أحادي القناة (x1) يبلغ 128 GT/s في النسخة النهائية التي ستصدر في عام 2025.
حساب إنتاجية PCIe
عند حساب إنتاجية PCIe (أو عرض النطاق الترددي المتوفر)، يجب مراعاة عاملين: معدل النقل ونظام التشفير. عادة ما يتم التعبير عن معدل النقل بوحدة GT/s (Giga Transitions في الثانية)، والتي تصف سمة السرعة لبروتوكول اتصال الطبقة المادية، بدلاً من عدد البتات المنقولة في الثانية (Gbps). وذلك لأن معدل النقل يتضمن بتات علوية لا توفر إنتاجية إضافية. على سبيل المثال، يستخدم PCIe 1.x وPCIe 2.x نظام التشفير 8b/10b، مما يعني أنه يتم استخدام 20% من النطاق الترددي للقناة الأصلية للحمل.
لذلك، على الرغم من أن بروتوكول PCIe 2.0 يدعم معدل نقل يبلغ 5.0 GT/s، نظرًا لاستخدام حل التشفير 8b/10b، فإن المعدل الفعال الفعلي لكل حارة هو 5*8/10=4 جيجابت في الثانية، أو 500 ميجابايت/ س. وبالمثل، يدعم بروتوكول PCIe 3.0 معدل نقل يبلغ 8.0 GT/s، ولكن بعد استخدام نظام التشفير 128b/130b، يبلغ المعدل الفعال الفعلي لكل مسار حوالي 7.877 جيجابت في الثانية، أو 984.6 ميجابايت/ثانية.
تتكون بنية PCIe من أجهزة PCIe من أنواع مختلفة، مثل Root Complex (RC)، وSwitch، وEndpoint (EP). من بينها، RC هو الوحيد في بنية الناقل، المسؤول عن توصيل أنظمة المعالج والذاكرة الفرعية بأجهزة الإدخال / الإخراج. عادةً ما يتم تنفيذ وظيفة المحول بواسطة برنامج يحتوي على اثنين أو أكثر من جسور PCI-to-PCI المنطقية (PCI-PCI Bridge) لضمان التوافق مع أجهزة PCI الموجودة. توفر هذه البنية دعمًا قويًا للحوسبة والاتصالات عالية الأداء.
NVLink: تقنية ربط عالية السرعة لتسريع اتصالات وحدة معالجة الرسومات
ومع استمرار زيادة قوة الحوسبة، أصبحت بطاقات GPU المتعددة هي المفتاح لتحسين الأداء. ومع ذلك، فإن ناقل PCIe التقليدي عرضة لأن يكون عنق الزجاجة في معدل نقل البيانات وزمن الوصول، مما يحد من كفاءة وأداء الحوسبة المتوازية لوحدة معالجة الرسومات.
لحل هذه المشكلة، قدمت NVIDIA تقنية GPUDirect P2P، والتي تسمح لوحدات معالجة الرسومات بالوصول مباشرة إلى ذاكرة وحدات معالجة الرسومات الأخرى من خلال PCI Express، مما يقلل من زمن انتقال تبادل البيانات. ولكن على الرغم من ذلك، نظرًا لبروتوكول ناقل PCI Express وقيود الهيكل، فإنه لا يزال غير قادر على تلبية متطلبات النطاق الترددي الأعلى. ولهذا السبب، أطلقت NVIDIA تقنية التوصيل البيني عالي السرعة NVLink. يهدف NVLink إلى تسريع نقل البيانات بين وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU)، ووحدة معالجة الرسومات (GPU) ووحدة معالجة الرسومات (GPU)، مما يوفر حل اتصال أكثر كفاءة وأقل زمن وصول. منذ إصداره الأول في عام 2014، تمت ترقية NVLink بشكل مستمر، كما زاد عرض النطاق الترددي. من 100 جيجابايت/ثانية لـ P160 إلى 100 جيجابايت/ثانية لـ V300، ثم إلى 100 جيجابايت/ثانية لـ A600، زاد عرض النطاق الترددي لـ NVLink، مما يوفر دعمًا قويًا للحوسبة عالية الأداء.
يتميز الاتصال البيني عالي السرعة NVLink بطريقتين رئيسيتين للتنفيذ: إحداهما من خلال جسر، والأخرى هي دمج واجهة NVLink على اللوحة الأم. يمكن لكلتا الطريقتين تحقيق اتصال بيني عالي السرعة بين وحدات معالجة الرسومات وتحسين أداء النظام.
NVSwitch: اتصال سلس وعالي النطاق الترددي متعدد وحدات معالجة الرسومات
لحل مشكلة الاتصال غير المتوازن بين وحدات معالجة الرسومات، قدمت NVIDIA شريحة NVSwitch. NVSwitch عبارة عن شريحة فعلية (ASIC) تشبه المحول، والتي يمكنها توصيل وحدات معالجة رسومات متعددة بسرعة عالية من خلال واجهة NVLink. يمكنه إنشاء مجموعة GPU متعددة العقد وسلسة ذات نطاق ترددي عالٍ، مما يمكّن جميع وحدات معالجة الرسومات من العمل معًا في مجموعة مع اتصال كامل النطاق الترددي، وبالتالي تحسين كفاءة الاتصال وعرض النطاق الترددي بين وحدات معالجة الرسومات المتعددة داخل الخادم.
إن الجمع بين NVLink وNVSwitch يمكّن NVIDIA من توسيع نطاق أداء الذكاء الاصطناعي بكفاءة إلى وحدات معالجة الرسومات المتعددة، مما يوفر دعمًا قويًا للحوسبة عالية الأداء وتطبيقات الذكاء الاصطناعي. منذ إصدار الجيل الأول من NVSwitch في عام 2018، تطورت NVSwitch إلى الجيل الثالث. تم تصميم الجيل الثالث من NVSwitch باستخدام عملية TSMC's 4N، وتحتوي كل شريحة على 64 منفذ NVLink 4.0، مع معدل اتصال يصل إلى 900 جيجابايت/ثانية بين وحدات معالجة الرسومات. توفر هذه التقنية المبتكرة مساحة تطوير أوسع لتطبيقات الحوسبة عالية الأداء والذكاء الاصطناعي المستقبلية.
المنتجات ذات الصلة:
- NVIDIA MMA4Z00-NS400 متوافق مع 400G OSFP SR4 مسطح علوي PAM4 850 نانومتر 30 متر على OM3 / 50m على وحدة الإرسال والاستقبال البصرية OM4 MTP / MPO-12 Multimode FEC $1100.00
- NVIDIA MMA4Z00-NS-FLT متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال البصرية $1400.00
- NVIDIA MMA4Z00-NS متوافق مع 800Gb / s ثنائي المنافذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال الضوئية $1400.00
- NVIDIA MMS4X00-NM متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $2000.00
- NVIDIA MMS4X00-NM-FLT متوافق مع 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $2000.00
- NVIDIA MMS4X00-NS400 متوافق 400G OSFP DR4 Flat Top PAM4 1310nm MTP / MPO-12m SMF FEC وحدة الإرسال والاستقبال البصرية $1450.00
- Mellanox MMA1T00-HS متوافق 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 وحدة الإرسال والاستقبال الضوئية $300.00
- NVIDIA MFP7E10-N010 متوافق مع 10 متر (33 قدم) 8 ألياف فقدان إدخال منخفض أنثى إلى أنثى MPO كابل جذع قطبية B APC إلى APC LSZH متعدد الأوضاع OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT متوافق مع 3m (10ft) 800G ثنائي المنفذ OSFP إلى 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $495.00
- NVIDIA MCP7Y70-H002 متوافق مع 2 متر (7 قدم) 400 جيجا منفذ مزدوج 2x200G OSFP إلى 4x100G QSFP56 كابل نحاسي متصل مباشرًا بالاختراق السلبي $250.00
- NVIDIA MCA4J80-N003-FTF متوافق مع 3m (10ft) 800G ثنائي المنفذ 2x400G OSFP إلى 2x400G OSFP InfiniBand NDR كابل نحاسي نشط، جزء علوي مسطح من أحد الطرفين وجزء علوي زعانف من الطرف الآخر $600.00
- NVIDIA MCP7Y10-N002 متوافق مع 2 متر (7 قدم) 800 جيجا InfiniBand NDR ثنائي المنفذ OSFP إلى 2x400 جيجا QSFP112 Breakout DAC $680.00