ما هو نفيديا NVLink

المُقدّمة

مع التطور السريع لتقنية الذكاء الاصطناعي والحوسبة عالية الأداء، فإن التوصيل البيني عالي السرعة وقابلية التوسع لوحدات معالجة الرسومات قد وضع متطلبات أعلى، وتعد تقنية الاتصال البيني ذات النطاق الترددي العالي وزمن الوصول المنخفض وعالية الأداء أمرًا بالغ الأهمية لتحسين أداء حوسبة الذكاء الاصطناعي بشكل عام. في أبريل من هذا العام، اقترح Lao Huang الجيل الثالث من NVIDIA NVSwitch والجيل الرابع من تقنية NVLink في مؤتمر GTC، والذي يوفر حل ربط عالي السرعة من نقطة إلى نقطة لوحدات معالجة الرسومات H100 التي تم إصدارها حديثًا والذي يعد أسرع من وحدات معالجة الرسومات A100، وهذا النوع من الشبكات لديه النموذج الأولي لشبكة NVLink.

يمكن استخدام شريحة NVSwitch من الجيل الثالث، والتي يشار إليها باسم NVSwitch3، لتوصيل كل بطاقة GPU داخل الخادم وتوسيع الاتصال الخارجي لخادم GPU لإنشاء مجموعة GPU مستقلة كاملة عالية السرعة. في الوقت نفسه، تدعم شريحة NVSwitch تسريع رسائل البث المتعدد من خلال دواسات غاز الأجهزة وتقدم SHARP (بروتوكول التجميع والتخفيض الهرمي القابل للتطوير)، وهي ميزة مهمة كانت متوفرة فقط في محولات IB من قبل وتستخدم بشكل أساسي لتسريع وتحسين All- تقليل حساب الذكاء الاصطناعي. -تقليل أداء الحوسبة AI. وفي الوقت نفسه، من خلال شريحة NVSwitch من الجيل الثالث المكونة من مفاتيح مادية، من الممكن بناء مجموعة تصل إلى 256 بطاقة GPU H100، وتوفر الشبكة بأكملها 57.6 تيرابايت/ثانية من النطاق الترددي الشامل. يمكن لمواصفات NVLink 4.0 التي تعتمدها تحسين أداء وحدة معالجة الرسومات وقابلية التوسع بشكل كبير، مثل بنية كتلة العملية المتوازية لبنية وحدة معالجة الرسومات التي تحاكي البنية المتوازية لـ NVLink، في حين تم تحسين واجهة NVLink بشكل أكبر لتبادل البيانات في ذاكرة التخزين المؤقت GPU L2.

رقاقة NVSwitch
NVLink

NVLink هو بروتوكول لحل الاتصال من نقطة إلى نقطة بين وحدات معالجة الرسومات داخل الخادم، ومعدل PCIe Switch التقليدي هو كما يلي، وأحدث PCIE5.0 هو عرض نطاق ترددي يبلغ 32 جيجابت في الثانية فقط لكل ممر، وهو ما لا يلبي بشكل أساسي متطلبات النطاق الترددي للاتصال بين وحدات معالجة الرسوميات، ومع تقنية NVLink، يمكن أن تكون وحدات معالجة الرسومات مباشرة في الخادم الداخلي. باستخدام تقنية NVLink، يمكن لوحدات معالجة الرسوميات أن تتواصل مباشرة مع بعضها البعض داخل الخادم بسرعات عالية، دون الحاجة إلى الاتصال عبر محولات PCIe. يتمتع الجيل الرابع من NVLink بعرض نطاق ترددي يبلغ 112 جيجابت في الثانية لكل مسار، وهو أعلى بثلاث مرات من عرض النطاق الترددي لمسار PCIe Gen5.

أداء رابط PCI السريع

الغرض الرئيسي من NVLink هو توفير شبكة عالية السرعة من نقطة إلى نقطة اتصالات GPU دون تحمل عبء إعادة إرسال الرسائل من طرف إلى طرف، والتوجيه التكيفي، وإعادة تجميع الرسائل مقارنة بالشبكات التقليدية. توفر واجهة NVLink المبسطة للغاية تسريع CUDA من طبقة الجلسة إلى طبقة التمثيل، إلى طبقة التطبيق، وبالتالي تقليل حمل الشبكة بسبب الاتصال.

HC34-NVIDIA-NVSwitch-NVLink-أجيال
عرض النطاق الترددي NVlink لكل وحدة معالجة رسومات

كما هو موضح في الشكل، يمكننا أن نرى أن NVLink قد تطور جنبًا إلى جنب مع بنية وحدة معالجة الرسومات، من الجيل الأول NVLink1 لـ ​​P100 إلى NVLink4 الحالي لـ H100. يدعم NVLink3 كلاً من 50G NRZ و56G PAM4، بينما يقدم NVLink4 112G PAM4 Serdes لأول مرة، والذي يمكنه توفير 900 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه، بزيادة 1.5 مرة عن الجيل السابق NVLink3 البالغ 600 جيجابايت/ثانية. فكيف يتم حساب 900 جيجابايت/ثانية؟ يتم توصيل كل وحدة معالجة رسوميات H100 بشريحة NVSwitch3 داخلية عبر 18 رابط NVLink4، وكل رابط NVLink4 عبارة عن مسارين في الواقع، كل مسار هو 112G PAM4، لذا فإن رابط NVLink4 واحد له عرض نطاق ترددي أحادي الاتجاه يبلغ 224 جيجابت في الثانية، أو 25 جيجابت/ثانية (لاحظ ذلك هنا يتغير من البتات إلى البايت) عرض النطاق الترددي أحادي الاتجاه، وعرض النطاق الترددي ثنائي الاتجاه 50 جيجابايت/ثانية، و18 رابط NVLink4 يبلغ إجمالي عرض النطاق الترددي ثنائي الاتجاه 900 جيجابايت/ثانية.

NVSwitch رقاقة

شريحة NVSwitch من الجيل الثالث

شريحة NVSwitch هي نوع من محولات ASIC التي يمكنها ربط وحدات معالجة الرسومات المتعددة بواجهات NVLink عالية السرعة، مما يعزز الاتصال وعرض النطاق الترددي بين وحدات معالجة الرسومات داخل الخادم. عندما استخدم P100 NVLink1، لم يكن هناك شريحة NVSwitch وشكلت وحدات معالجة الرسومات اتصالًا حلقيًا، مما منع الاتصال المباشر بين وحدات معالجة الرسومات على عقد NUMA المختلفة. بدءًا من V100 مع NVLink2، تمت إضافة شريحة NVSwitch1، ثم استخدم A100 مع NVLink3 شريحة NVSwitch2. الشريحة التالية هي شريحة NVSwith3 لـ H100.

nvlink-4-nvswitch
NVlink بلس شارب

تم تصنيع الرقاقة باستخدام عملية TSMC 4N وتحتوي على 25.1 مليار ترانزستور على قالب مساحته 294 ملم مربع. تبلغ أبعاد الشريحة 50 مم × 50 مم وتتميز بوحدة تحكم SHARP يمكنها التعامل مع 128 مجموعة SHARP المتوازية في وقت واحد. كما أنه يحتوي أيضًا على SHARP ALU مضمن فيه، والذي يمكنه إجراء عمليات منطقية على البيانات المخزنة في ذاكرة SRAM التي تدعم حساب SHARP. تمكن SHARP ALU NVSwitch من تحقيق 400GFLOPS من إنتاجية الحوسبة FP32، كما أنها تدعم أوضاع الدقة المختلفة مثل FP16، وFP32، وFP64، وBF16. يمكن أن تتفاعل الشريحة مع إيثرنت بسرعة 400 جيجابت في الثانية أو NDR آي بي اتصالات من خلال دائرة PHY الخاصة به، ويمكن لكل قفص أن يستوعب أربع وحدات بصرية NVLink4 OSFP مع إمكانية FEC. تحتوي الشريحة على ميزات أمان تسمح بتقسيم شبكة NVLink إلى شبكات فرعية، بالإضافة إلى وظائف مراقبة القياس عن بعد المشابهة لـ IB. تحتوي شريحة NVSwitch3 على 64 منفذ NVLink4، يحتوي كل منها على مسارين يوفران عرض نطاق ترددي أحادي الاتجاه بسرعة 200 جيجابت في الثانية. ولذلك، يمكن للرقاقة offإجمالي 64*200 جيجابت في الثانية = 12.8 تيرابايت في الثانية من عرض النطاق الترددي أحادي الاتجاه أو 3.2 تيرابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه.

-2x عرض النطاق الترددي الفعال لـ NVlink

تعد شريحة NVSwitch3 أول شريحة تدمج وظيفة SHARP بأكملها، والتي تستخدم الأجهزة لتجميع وتحديث نتائج الحساب لوحدات GPU المتعددة أثناء التخفيض، وبالتالي تقليل عدد حزم الشبكة وتحسين الأداء الحسابي.

HC34-NVIDIA-NVSwitch-NVLink-أجيال-خادم-أي-إلى-أي

يشير خادم NVLink إلى خادم يستخدم تقنية NVLink وNVSwitch لربط وحدات معالجة الرسومات، وعادةً ما تكون خوادم سلسلة DGX الخاصة بشركة NVIDIA، أو خوادم OEM HGX ذات بنيات مماثلة.

PCle

لم يقدم خادم DGX-1 المزود بوحدات معالجة الرسومات P100 NVSwitch، وتم توصيل جميع وحدات معالجة الرسوميات الثمانية بواسطة NVLink8، مع وجود 1 اتصالات NVLink100 لكل P4. تم تقديم NVSwitch1 وNVLink1 في بنية NVIDIA V2 GPU، مما يوفر نطاقًا تردديًا عاليًا واتصالًا شاملاً بين وحدات معالجة الرسومات المتعددة داخل الخادم. تم إطلاق NVSwitch100 وNVLink2 في وحدة معالجة الرسوميات NVIDIA A3.

مخطط داخلي لخادم DGX A100

في الرسم التخطيطي الداخلي لخادم DGX A100 أعلاه، يتم الاتصال بين وحدة معالجة الرسومات ووحدة المعالجة المركزية من خلال محول PCIe، ويتم الاتصال بين 8 وحدات معالجة رسوميات بشكل أساسي من خلال 6 شرائح NVSwitch2. تتصل كل وحدة معالجة رسومات بشريحة NVSwitch2 مع 12 NVlink3، وكل NVlink3 يحتوي على نطاق ترددي أحادي الاتجاه يبلغ 25 جيجابايت، والذي يمكن أن يوفر إجمالي 12*25 جيجابايت = 300 جيجابايت/ثانية عرض نطاق أحادي الاتجاه أو 600 جيجابايت/ثانية عرض نطاق ثنائي الاتجاه لوحدة معالجة الرسومات. دعونا نلقي نظرة على معلمات خادم DGX H100:

دي جي اكس اتش 100
  • 8x وحدات معالجة الرسومات NVIDIA H100 Tensor Core مع ذاكرة GPU مجمعة تبلغ 640 جيجابايت
  • 4x شرائح NVIDIA NVSwitch من الجيل الثالث
  • 18x OSFPs لشبكة NVLink
  • 3.6 تيرابايت/ثانية من عرض النطاق الترددي لشبكة NVLink مزدوج الاتجاه مقدم من 72 رابط NVLink
  • 8x منافذ NVIDIA ConnectX-7 Ethernet/InfiniBand
  • 2x وحدات معالجة بيانات BlueField-3 ثنائية المنافذ
  • وحدات المعالجة المركزية المزدوجة Sapphire Rapids
  • دعم PCIe Gen 5 
وحدة معالجة الرسومات H100
دعم شبكة NVlink

قدمت وحدة معالجة الرسوميات H100 الجيل الثالث من تقنية NVSwitch والجيل الرابع من تقنية NVLink، والتي يمكنها توفير نطاق ترددي أحادي الاتجاه يبلغ 450 جيجابايت/ثانية لوحدة معالجة الرسومات H100 واحدة. كما قدمت أيضًا مفتاح NVLink Switch خارجي من نوع 1U، والذي يوفر اتصالاً عالي السرعة لخوادم GPU المتعددة. يوجد 8 وحدات معالجة رسوميات H100 في DGX H100، وكل H100 متصلة بـ 4 شرائح NVSwitch3 مع 18 رابط NVLinks (5,4,4,5) في نفس الوقت. يتم توزيع حركة المرور بين وحدات معالجة الرسومات على 4 مستويات تبديل، وبالتالي تحقيق حركة مرور شاملة داخل وحدة معالجة الرسومات. تتمتع كل شريحة NVSwitch3 داخلية بنسبة تقارب 2:1 لـ NVLink الخارجي، وهي مصممة بشكل أساسي لمراعاة مدى تعقيد وتكلفة النطاق الترددي للاتصال بين الخوادم.

NVSwitch

لقد تم إطلاق مفتاح NVLlink للتو هذا العام وقد تم ابتكاره للتوصيل البيني لـ H100 Superpod. إنه يعتمد تصميمًا بحجم 1U مع 32 منفذ OSFP، ويتكون كل OSFP من 8 ممرات 112G PAM4، وكل محول يحتوي على شريحتين NVSwitch2 مدمجتين. يحتوي كل NVSwitch3 على 3 NVLink64s، لذلك يمكن لشريحتين توفير ما يصل إلى 4 واجهة NVLink128، مما يوفر عرض نطاق ترددي أحادي الاتجاه يبلغ 4*128 جيجابت في الثانية = 400 تيرابايت في الثانية، أو عرض نطاق ترددي ثنائي الاتجاه يبلغ 51.2 تيرابايت/ثانية. يدعم محول NVLink منافذ الإدارة خارج النطاق، وكابلات DAC، وكابلات AOC وOSFP مع برامج ثابتة محددة. لا توجد معلومات عامة حول وحدة OSFP هذه حتى الآن. يُعتقد أن المظهر مشابه لشكل NDR OSFP أدناه. يقوم كل منفذ من منافذ MPO بتوصيل 6.4G أو توصيل منفذ 400G مباشرة بـ 800 نواة كابل MPO.

باستخدام المفتاح الفعلي NVSwitch، يمكننا توصيل عدة خوادم NVLink GPU بشبكة Fabric كبيرة، وهي شبكة NVLink. تم تصميم هذه الشبكة بشكل أساسي لحل مشاكل النطاق الترددي للاتصالات عالية السرعة والكفاءة بين وحدات معالجة الرسومات ولا تشمل شبكة الحساب وشبكة التخزين بين وحدات المعالجة المركزية. في عصر دون شبكة إن في لينك، يخصص كل خادم مساحة عنوان محلية لوحدات معالجة الرسومات داخليًا ثم يتواصل مع بعضها البعض من خلال NVLink. في شبكة NVLink، يكون لكل خادم مساحة عنوان مستقلة خاصة به، والتي تُستخدم لتوفير نقل البيانات والعزل والحماية الأمنية لوحدات معالجة الرسومات في شبكة NVLink. عند بدء تشغيل النظام، تقوم شبكة NVLink تلقائيًا بإنشاء اتصالات من خلال واجهات برمجة تطبيقات البرامج ويمكنها تغيير العناوين في أي وقت أثناء التشغيل.

شبكة إن في لينك

يقارن الشكل التالي بين شبكة NVLink وشبكة Ethernet التقليدية. يمكن ملاحظة أنه من خلال شريحة NVlink وشريحة NVSwitch ومفتاح NVSwitch، يمكن تشكيل شبكة NVLink مستقلة عن IP Ethernet ومخصصة لخدمة GPU.

مقارنة

دي جي اكس اتش 100 سوبر بود

دي جي اكس اتش 100 سوبر بود

يتكون SuperPOD من ثمانية رفوف، كل منها مزود بأربعة خوادم DGX H100، بإجمالي 32 خادمًا و256 بطاقة H100 GPU، مما يوفر 1 exaFLOP (واحد كوينتيليون) من أداء الذكاء الاصطناعي المتناثر الدقيق FP8. يمكن لشبكة NVLink داخل SuperPOD أن توفر إجمالي 57.6 تيرابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه الشامل لـ 256 وحدة معالجة رسومات، بينما يمكن لـ CX7 الموجود داخل 32 خوادم DGX H100 الاتصال بمحول IB، مما يوفر 25.6 تيرابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه ، والذي يسمح باستخدام أو توصيل العديد من SuperPODs داخل POD.

شبكة سوبربود

NVS هي شريحة NVSwitch3 المذكورة سابقًا، وL2NVS هي شريحة NVSwitch المادية المذكورة سابقًا. تمتد كل وحدة معالجة رسومات في DGX H100 إلى 18 اتصال NVLink4 باتجاه الشمال، مما يوفر عرض نطاق ترددي ثنائي الاتجاه يبلغ 1850 جيجابايت = 900 جيجابايت/ثانية. تنقسم NVLink18 الـ 4 إلى أربع مجموعات مكونة من 5,4,4,5،3،8،40,32,32,40 ومتصلة بأربع شرائح NVSwitch4 مدمجة. بهذه الطريقة، بالنسبة لـ 114 وحدات معالجة رسوميات، تقوم كل شريحة NVS بتوصيل 4 NVLink2 جنوبًا، بإجمالي 1 NVLink4,4,4,4، ثم تقوم كل شريحة NVS بتقارب 4:18، وربط 2 NVLink1 شمالاً إلى 5,4,4,5 L20,16,16,20NVS الخارجية وهي مفاتيح NVSwitch 4U التي ذكرناها سابقًا. وتنقسم هذه المفاتيح إلى أربع مجموعات من 72،4،114،4. وبالتالي، تربط شريحة NVS واحدة على اللوحة 2 NVLink1 شمالًا، بإجمالي 4 NVLink112، و4 NVLlinkXNUMX جنوبًا، مما يشكل نسبة تقارب XNUMX:XNUMX. هنا يتكون كل NVLinkXNUMX من مسارين XNUMXG PAMXNUMX، لذلك تتطلب كل أربع وصلات NVLink زوجًا من 800 جرام OSFP وحدات للاتصال نهاية إلى نهاية. بهذه الطريقة، يُظهر النصف العلوي من الشكل شبكة عالية السرعة من التوصيل البيني الشامل لوحدة معالجة الرسومات التي تشكل شبكة NVlink.  

شريحة NVSwitch3

يوضح الفيديو أدناه كيفية استخدام 800G OSFP SR8 على محولات NVIDIA Quantum-2.

يتم الاتصال بين وحدة معالجة الرسومات ووحدة المعالجة المركزية من خلال محول PCIe GEN5 الموجود داخل بطاقة الشبكة CX7. بطاقة الشبكة CX7 الموجودة داخل DGX H100 ليست على شكل ثماني بطاقات شبكة CX6 مستقلة كما في DGX A100 السابقة ولكنها مصنوعة في لوحتين مع شرائح بطاقة الشبكة لتوصيلها بالخادم. تشكل كل شريحة من شرائح CX7 الأربع لوحة سيدار وتخرج اثنتين 800 جرام OSFP الموانئ. ثماني شرائح بطاقة شبكة CX7 تشكل لوحتين من خشب الأرز وتخرج ما مجموعه أربعة منافذ OSFP 800G. وهذا يوفر 800 جيجابت في الثانية4*2=800 جيجابت/ثانية عرض النطاق الترددي ثنائي الاتجاه. يمكن لبطاقة الشبكة CX7 هنا تشغيل RoCE في وضع Ethernet أو تشغيلها في شبكة NDR IB. كما هو موضح في الشكل أدناه، يمكن إنشاء 1024 وحدة معالجة رسومات في أربع وحدات H100 SuperPOD باستخدام طوبولوجيا الشجرة الدهنية الخاصة بـ NDR IB.

يحتوي كل DGX H100 أيضًا على جهازي Bluefield 3s للاتصال بشبكة التخزين.

يحتوي كل DGX H100 أيضًا على جهازي Bluefield 3s للاتصال بشبكة التخزين.

ما مدى سرعة اتصال وحدة معالجة الرسومات H100 بعد استخدام شبكة NVLink، مقارنة بشبكة IB الخاصة بـ A100؟ فيما يلي مقارنة النطاق الترددي بين DGX A100 256 POD وDGX H100 256 POD:

مقارنة بين DGX A100 256 POD و DGX H100 256 POD

يعد Bisection مؤشر أداء لكمية البيانات التي تحتاج كل وحدة معالجة رسومات (GPU) إلى إرسالها إلى جميع وحدات معالجة الرسومات (GPU) الأخرى في وقت واحد في سيناريو الكل إلى الكل. عادةً ما يتم حساب النطاق الترددي للشبكة عندما يرسل نصف العقد في الشبكة البيانات إلى النصف الآخر، ويقيس عمومًا حركة المرور غير المحظورة بنسبة 1:1. 1 DGX A100 داخلي: 8/2600 جيجابايت/ثانية = 2400 جيجابايت/ثانية 32 DGX A100 داخلي، بإجمالي 256 وحدة معالجة رسومات A100، كل خادم متصل بواسطة 8 بطاقات HDR بسرعة 200 جيجابت في الثانية، ويجب أن يكون لمحول TOR نسبة تقارب 4:1: 256/ 2/4200 جيجابايت/ثانية = 6400 جيجابايت/ثانية 1 DGX H100 داخلي: 8/2900 جيجابايت/ثانية = 3600 جيجابايت/ثانية 32 DGX H100 داخلي، نسبة تقارب الشبكة هي 2:1، لذلك: 256/2/2900 جيجابايت/ثانية = 57600 جيجابايت/ثانية (وهذا هو السبب وراء الإشارة السابقة إلى 57.6 تيرابايت/ثانية) يمكن لقسم DGX واحد زيادة عرض النطاق الترددي بمقدار 1.5 مرة وعرض النطاق الترددي ثنائي الاتجاه بمقدار 3 مرات، ويمكن لقسم 32 DGX زيادة عرض النطاق الترددي بمقدار 9 مرات و عرض النطاق الترددي ثنائي الاتجاه بنسبة 4.5 مرات.

محرك التوصية العصبي

كما هو موضح في الشكل، لتدريب نظام التوصية باستخدام جدول تضمين سعة 14 تيرابايت يعمل على نموذج البيانات all2all، يتمتع H100 مع NVLink بأداء أعلى من H100 مع IB. فيما يلي نتائج NCCL العامة لمقارنة النطاق الترددي الشامل والشامل للجميع لوحدة معالجة الرسومات المتعددة ووحدة معالجة الرسومات متعددة العقد التي تعمل على الخادم. من خلال تحسين NVLink4 وNVSwitch3، يمكن لـ H100 تحقيق نطاق ترددي ثابت للبطاقات المتعددة الداخلية والخارجية.

كل ذلك يقلل من الأداء
عرض النطاق الترددي الشامل

وفي الختام

وفي الختام

تم تطوير تقنيات NVlink وNVSwitch لتلبية احتياجات الاتصال عالي السرعة ومنخفض الكمون من نقطة إلى نقطة ومن نقطة إلى عدة نقاط لوحدات معالجة الرسومات المتعددة. كما أنهم يبتكرون باستمرار مع التغييرات في بنيات وحدة معالجة الرسومات. منذ الاستحواذ على Mellanox، بدأت NVIDIA أيضًا في الجمع بين تقنية NVLink وتقنية IB، حيث أطلقت جيلًا جديدًا من شرائح ومحولات NVSwitch مع وظائف SHARP، والتي تم تحسينها لشبكات خادم GPU الخارجية. إن مقياس شبكة NVLink الحالي الذي يدعم ما يصل إلى 256 وحدة معالجة رسومات هو مجرد البداية. من المعتقد أن مقياس شبكة NVlink هذا سوف يتطور ويتحسن في المستقبل، وربما ينشئ مجموعة حوسبة فائقة مناسبة لحوسبة الذكاء الاصطناعي وحوسبة وحدة المعالجة المركزية والتخزين وتكامل الشبكات الأخرى.

اترك تعليق

انتقل إلى الأعلى