InfiniBand مقابل Ethernet في HPC

كانت المنافسة بين InfiniBand وEthernet موجودة دائمًا في مجال الحوسبة عالية الأداء. تحتاج الشركات والمؤسسات إلى الموازنة بين مزايا وعيوب هاتين التقنيتين لاختيار تقنية الشبكة التي تناسب احتياجاتها على أفضل وجه. يعد وجود خيارات متعددة عند تحسين الأنظمة أمرًا جيدًا، لأن البرامج المختلفة تتصرف بشكل مختلف، والمؤسسات المختلفة لديها ميزانيات مختلفة. ولذلك نرى استخدام مختلف الترابطات والبروتوكولات في أنظمة الحوسبة عالية الأداء، ونعتقد أن هذا التنوع لن ينقص بل قد يزيد، خاصة أننا نقترب تدريجياً من نهاية قانون مور.

مراجعة التخزين-NVIDIA-NDR-Infiniband

من المثير للاهتمام دائمًا إلقاء نظرة عميقة على اتجاهات الترابط في تصنيفات Top500 لأجهزة الكمبيوتر العملاقة، والتي يتم إصدارها مرتين سنويًا. لقد قمنا بتحليل الأنظمة الجديدة في القائمة وجميع مؤشرات الحوسبة المنعكسة في التصنيف، والآن حان الوقت لإلقاء نظرة على الروابط البينية. جلعاد شاينر، نائب الرئيس الأول ومدير المنتج لشركة Quantum بتقنية InfiniBand تقوم المحولات في Nvidia (التي كانت سابقًا جزءًا من Mellanox Technology) بتحليل الوصلات البينية لـ Top500 وتشاركها معنا. الآن، يمكننا أن نشارك تحليله معك. هيا بنا نتعمق. لنبدأ بالنظر إلى اتجاه تطوير تقنيات التوصيل البيني في قائمة Top500 من نوفمبر 2007 إلى يونيو 2021.

اتجاه تطوير تقنيات الربط البيني

تتضمن قائمة Top500 أنظمة حوسبة عالية الأداء من الأوساط الأكاديمية والحكومية والصناعية، بالإضافة إلى الأنظمة التي أنشأها مقدمو الخدمات ومنشئو السحابة ومنصات الحوسبة فائقة الحجم. لذلك، هذه ليست قائمة "حواسيب عملاقة" خالصة، كما يطلق الناس عادة على الأجهزة التي تقوم بتشغيل المحاكاة التقليدية وأحمال عمل النمذجة أجهزة الكمبيوتر العملاقة.

شهدت InfiniBand وEthernet التي تعمل بسرعة 10 جيجابت/ثانية أو بسرعات أقل صعودًا وهبوطًا خلال الثلاثة عشر عامًا ونصف الماضية. يشهد InfiniBand ارتفاعًا، في حين انخفض متغير Omni-Path (الذي كانت تسيطر عليه شركة Intel سابقًا، والمملوكة الآن لشركة Cornelis Networks) قليلاً في تصنيف يونيو 2021.

كورنيليس تطلق خريطة طريق OMNI-PATH Interconnect

ومع ذلك، فإن شبكة إيثرنت التي تعمل بسرعة 25 جيجابت/ثانية أو سرعات أعلى آخذة في الارتفاع، خاصة في ظل النمو السريع بين عامي 2017 و2019، وذلك لأن محولات 100 جيجابت/ثانية (عادةً محولات Mellanox Spectrum-2) أرخص من تقنيات 100 جيجابت/ثانية السابقة، والتي تعتمد على أوضاع نقل أكثر تكلفة، لذلك لن تفكر معظم مراكز الحوسبة عالية الأداء في استخدامها. مثل العديد من منشئي النطاق الفائق والسحابي، فقد تخطوا جيل إيثرنت بسرعة 200 جيجابت/ثانية، باستثناء التوصيلات الأساسية ومراكز البيانات، وانتظروا انخفاض تكلفة المحولات بسرعة 400 جيجابت/ثانية، حتى يتمكنوا من استخدام أجهزة بسرعة 400 جيجابت/ثانية.

في تصنيفات يونيو 2021، إذا قمنا بجمع بيانات Nvidia InfiniBand وIntel Omni-Path، فستجد أن هناك 207 جهازًا مزودًا بوصلات InfiniBand البينية، وهو ما يمثل 41.4 بالمائة من القائمة. نحن نشك بقوة في أن بعض الوصلات البينية المسماة "ملكية" في القائمة، ومعظمها من الصين، هي أيضًا أنواع مختلفة من InfiniBand. أما بالنسبة لشبكة إيثرنت، وبغض النظر عن السرعة، فقد تباينت حصة وصلات إيثرنت في قائمة Top500 من أدنى مستوى بلغ 248 جهازًا في يونيو 2021 إلى أعلى مستوى بلغ 271 جهازًا في يونيو 2019 في السنوات الأربع الماضية. في السنوات الأخيرة، أدى InfiniBand إلى تآكل مكانة Ethernet، وهو أمر ليس مفاجئًا بالنسبة لنا، لأن أحمال عمل الحوسبة عالية الأداء (والذكاء الاصطناعي الآن) حساسة جدًا لزمن الوصول، وقد انخفضت تكلفة InfiniBand بمرور الوقت مع انخفاض مبيعاتها. زادت تدريجيا. (يساعد اعتماد InfiniBand من قبل منشئي النطاق الواسع والسحابة على خفض الأسعار.)

يمكن تسمية معظم أنظمة Top100 وأنظمة Top10 بالحواسيب الفائقة الحقيقية، مما يعني أنها تشارك بشكل أساسي في أعمال الحوسبة التقليدية عالية الأداء. ومع ذلك، فإن المزيد والمزيد من الأجهزة تقوم أيضًا بتشغيل بعض أعباء عمل الذكاء الاصطناعي. هنا هو توزيع الترابط بين هذه الأجهزة العليا.

توزيع الترابط بين هذه الأجهزة العليا

كما يتبين من الشكل أعلاه، لا تهيمن شبكة Ethernet هنا، ولكنها ستنمو مع بدء HPE في شحن Slingshot بسرعة 200 جيجابت/ثانية (نوع مختلف من شبكة Ethernet مُحسّنة للحوسبة عالية الأداء تم تطويرها بواسطة Cray)، والتي يتم استخدامها بالفعل من قبل " Perlmutter" في مختبر لورانس بيركلي الوطني مع منفذين بسرعة 100 جيجابت/ثانية لكل عقدة. كما نشك بقوة في أن جهاز Sunway TaihuLight (الموجود في المركز الوطني للحوسبة الفائقة في ووشي، الصين) يستخدم نسخة مختلفة من InfiniBand (على الرغم من أن Mellanox لم يؤكد ذلك أبدًا، ولا المختبر). يستخدم "Fugaku" رقم واحد سابقًا (في معهد RIKEN في اليابان) الجيل الثالث من تقنية التوصيل البيني Tofu D التي طورتها شركة Fujitsu، والتي تنفذ طوبولوجيا وبروتوكول توروس 6D خاص. يعتمد "Tianhe-2A" (الموجود في المركز الوطني للحوسبة الفائقة في قوانغتشو، الصين) تقنية التوصيل البيني الخاصة بـ TH Express-2، وهي فريدة من نوعها.

في تصنيف Top100 للكمبيوتر، لا تتضمن وصلات Cray البينية أول آلة Slingshot فحسب، بل تشمل أيضًا مجموعة من الآلات التي تستخدم الجيل السابق من وصلات "Aries". في تصنيف يونيو 2021، كانت هناك خمس آلات Slingshot وتسعة آلات برج الحمل في قائمة Top100. إذا تم اعتبار Slingshot كإيثرنت، فستكون حصة Ethernet 6%، وتنخفض حصة Cray الخاصة إلى 9%. إذا تم دمج Mellanox/Nvidia InfiniBand مع Intel Omni-Path، فإن InfiniBand لديه 79 جهازًا في قائمة Top100.

عند التوسع من Top100 إلى Top500، يكون توزيع الترابطات كما يلي بإضافة 100 جهاز في كل مرة:

التوسع من Top100 إلى Top500

ومن المتوقع أن يزداد انتشار إيثرنت مع توسع القائمة، لأن العديد من أنظمة الحوسبة الأكاديمية والصناعية عالية الأداء لا تستطيع تحمل تكلفة InfiniBand، أو أنها غير راغبة في التحول من إيثرنت. ويقوم مقدمو الخدمات ومنشئو السحابة والمشغلون ذوو النطاق الواسع بتشغيل Linpack على جزء صغير من مجموعاتهم، لأسباب سياسية أو تجارية. تحظى شبكة Ethernet الأبطأ نسبيًا بشعبية في النصف السفلي من قائمة Top500، بينما ينخفض ​​انتشار InfiniBand من 70% في قائمة Top10 إلى 34% في قائمة Top500 الكاملة.

الشكل التالي هو مخطط آخر، يجمع معظم InfiniBand وEthernet في قائمة Top500، وهو يفسر جزئيًا سبب قيام Nvidia بدفع 6.9 مليار دولار للاستحواذ على Mellanox.

InfiniBand وEthernet على Top500

تمتلك InfiniBand من Nvidia حصة 34% من وصلات Top500 البينية، مع 170 نظامًا، لكن ظهور محولات Mellanox Spectrum وSpectrum-2 Ethernet في Top500 ليس واضحًا، حيث أنها تضيف 148 نظامًا آخر. وهذا يمنح Nvidia حصة 63.6% من جميع الوصلات البينية في تصنيف Top500. وهذا إنجاز تمتعت به شركة Cisco Systems لمدة 20 عامًا في مركز بيانات المؤسسة.

اترك تعليق

انتقل إلى الأعلى