كيفية الاختيار بين InfiniBand وRoCE

إن النطاق الترددي العالي للغاية وزمن الوصول المنخفض للغاية والموثوقية العالية للغاية هي متطلبات الشبكة للتدريب على النماذج الكبيرة.

لسنوات عديدة، كان بروتوكول TCP/IP هو ركيزة الاتصال عبر الإنترنت، ولكن بالنسبة لشبكات الذكاء الاصطناعي، فإن TCP/IP له بعض العيوب القاتلة. يتمتع بروتوكول TCP/IP بزمن وصول مرتفع، عادةً ما يكون حوالي عشرات الميكروثانية، ويتسبب أيضًا في تحميل خطير على وحدة المعالجة المركزية. يمكن لـ RDMA الوصول مباشرة إلى بيانات الذاكرة من خلال واجهة الشبكة، دون تدخل نواة نظام التشغيل. وهذا يسمح باتصالات شبكية عالية الإنتاجية ومنخفضة الكمون، ومناسبة بشكل خاص للاستخدام في مجموعات الكمبيوتر المتوازية واسعة النطاق.

InfiniBand، وRoCEv1، وRoCEv2، وiWARP هي التطبيقات الأربعة لتقنية RDMA. ومع ذلك، لم يعد RoCEv1 مستخدمًا ولم يعد iWARP شائعًا. حلول الشبكات السائدة في الصناعة هي InfiniBand وRoCEv2.

مكدس بروتوكول RDMA

ما هي متطلبات الشبكة لأحمال عمل HPC/AI؟

تستخدم معظم مراكز البيانات اليوم بنية شبكية ذات مستويين، في حين أن مجموعات الذكاء الاصطناعي عبارة عن أجهزة كمبيوتر عملاقة مصممة لتنفيذ مهام الذكاء الاصطناعي المعقدة وواسعة النطاق. تعمل أحمال عمل الكمبيوتر بالتوازي على وحدات معالجة رسومات متعددة، مما يتطلب استخدامًا عاليًا. ولذلك، مقارنة بشبكات مراكز البيانات التقليدية، تواجه شبكات مراكز بيانات الذكاء الاصطناعي تعقيدًا إضافيًا:

  • الحوسبة المتوازية: أعباء عمل الذكاء الاصطناعي عبارة عن بنية تحتية موحدة لأجهزة متعددة تقوم بتشغيل نفس مهمة التطبيق/الحوسبة؛
  • النطاق: يمكن أن يصل حجم مهام HPC/AI إلى آلاف محركات الحوسبة (مثل وحدات معالجة الرسومات، ووحدات المعالجة المركزية، وFPGAs، وما إلى ذلك)؛
  • أنواع المهام: تختلف المهام المختلفة من حيث الحجم، ومدة التشغيل، وحجم مجموعة البيانات والكمية التي يجب مراعاتها، ونوع الإجابة المطلوب إنشاؤها، واللغات المختلفة المستخدمة لترميز التطبيق ونوع الأجهزة التي يعمل عليها، والتي تتسبب جميعها في أنماط حركة المرور داخل شبكة مصممة لتشغيل أحمال عمل HPC/AI لتتغير باستمرار؛
  • بدون فقدان: في مراكز البيانات التقليدية، تتم إعادة إرسال الرسائل المفقودة، بينما في أحمال عمل الذكاء الاصطناعي، تعني الرسائل المفقودة أن الحساب بأكمله إما خاطئ أو عالق. لذلك، تحتاج مراكز بيانات الذكاء الاصطناعي إلى شبكة لا تفقد البيانات.
  • عرض النطاق الترددي: يجب تشغيل حركة المرور ذات النطاق الترددي العالي بين الخوادم حتى تتمكن التطبيقات من الوصول إلى البيانات. في عمليات النشر الحديثة، تصل سرعة الواجهة لكل محرك حوسبة للذكاء الاصطناعي أو قدرات الحوسبة الأخرى عالية الأداء إلى 400 جيجابت في الثانية.

تشكل هذه التعقيدات تحديات كبيرة لشبكات الذكاء الاصطناعي، لذلك تحتاج شبكات مراكز بيانات الذكاء الاصطناعي إلى نطاق ترددي مرتفع، وزمن وصول منخفض، وعدم اهتزاز، وعدم فقدان الحزم، واستقرار على المدى الطويل.

من TCP/IP إلى RDMA

بالنسبة لتطبيقات مثل HPC/AI التي تتطلب زمن وصول منخفض وتزامنًا عاليًا للإدخال/الإخراج، لا يمكن لبرنامج TCP/IP وبنية الأجهزة الحالية تلبية متطلبات التطبيق. تستخدم اتصالات شبكة TCP/IP التقليدية النواة لإرسال الرسائل، والتي تتطلب حركة بيانات عالية ونسخًا للبيانات. على سبيل المثال، في نقل بيانات IP النموذجي، عندما يرسل تطبيق على أحد أجهزة الكمبيوتر البيانات إلى تطبيق على كمبيوتر آخر، تحدث العمليات التالية على الطرف المتلقي:

  1. يجب أن تتلقى النواة البيانات.
  2. يجب أن تحدد النواة التطبيق الذي تنتمي إليه البيانات.
  3. تقوم النواة بتنشيط التطبيق.
  4. تنتظر النواة حتى يقوم التطبيق بإجراء استدعاء النظام على النواة.
  5. يقوم التطبيق بنسخ البيانات من مساحة ذاكرة kernel إلى المخزن المؤقت الذي يوفره التطبيق.

تعني هذه العملية أنه إذا كان المحول المضيف يستخدم الوصول المباشر للذاكرة (DMA)، فسيتم نسخ معظم حركة مرور الشبكة إلى الذاكرة الرئيسية للنظام. بالإضافة إلى ذلك، يقوم الكمبيوتر بإجراء بعض تبديلات السياق للتبديل بين النواة والتطبيق. قد تتسبب رموز تبديل السياق هذه في زيادة تحميل وحدة المعالجة المركزية (CPU) وزيادة حركة المرور أثناء إبطاء المهام الأخرى.

نقل TCP IP

نقل TCP/IP

على عكس اتصالات IP التقليدية، يتجاوز اتصال RDMA تدخل kernel في عملية الاتصال، مما يسمح للمضيف بالوصول مباشرة إلى ذاكرة مضيف آخر، مما يقلل من حمل وحدة المعالجة المركزية. يمكّن بروتوكول RDMA المحول المضيف من تحديد التطبيق الذي يجب أن يستقبله ومكان تخزينه في مساحة ذاكرة هذا التطبيق بعد دخول الحزمة إلى الشبكة. لا يرسل المحول المضيف الحزمة إلى kernel لمعالجتها ونسخها إلى ذاكرة تطبيق المستخدم، ولكنه بدلاً من ذلك يضع محتوى الحزمة مباشرة في المخزن المؤقت للتطبيق.

نقل RDMA

نقل RDMA

يؤدي نقل RDMA إلى تقليل عدد دورات وحدة المعالجة المركزية المعنية، مما يساعد على تحسين الإنتاجية والأداء. بمعنى آخر، جوهر RDMA هو أنه بالنسبة لسيناريوهات الحوسبة والتخزين الموزعة على نطاق واسع، فإنه يسمح لبطاقة الشبكة بتجاوز وحدة المعالجة المركزية والوصول مباشرة إلى ذاكرة الخادم البعيد، وتسريع التفاعل بين الخوادم، وتقليل زمن الوصول، واستخدام موارد وحدة المعالجة المركزية الثمينة للحوسبة عالية القيمة والتحكم المنطقي.

بالمقارنة مع شبكات TCP/IP التقليدية، يتجاوز InfiniBand وRoCEv2 مكدس بروتوكول kernel، ويمكن تحسين أداء زمن الوصول بعدة أوامر من حيث الحجم. عندما يمكن تحقيق الاتصال داخل نفس المجموعة في قفزة واحدة، تظهر الاختبارات التجريبية أنه بعد تجاوز مكدس بروتوكول kernel، يمكن تقليل زمن الوصول من طرف إلى طرف في طبقة التطبيق من 50us (TCP/IP) إلى 5us (RoCE) ) أو 2us (InfiniBand).

زمن الوصول للاتصالات من طرف إلى طرف للتقنيات المختلفة

مقدمة لشبكات InfiniBand

تستخدم شبكات InfiniBand محولات أو محولات InfiniBand بدلاً من Ethernet لتحقيق نقل البيانات. يبلغ زمن الوصول من منفذ إلى منفذ لنوع معين من محولات Ethernet 230 ns، في حين أن زمن الوصول لمحول InfiniBand مع نفس عدد المنافذ هو 100 ns.

شبكات إنفينيباند

تشتمل المكونات الرئيسية لشبكة InfiniBand على مدير الشبكة الفرعية (SM)، وبطاقة شبكة IB، ومحول IB، وكابل IB. لا تقوم محولات InfiniBand بتشغيل أي بروتوكولات توجيه، ويتم حساب جداول إعادة التوجيه للشبكة بأكملها وتوزيعها بواسطة مدير شبكة فرعية مركزي. بالإضافة إلى إعادة توجيه الجداول، يكون SM أيضًا مسؤولاً عن إدارة الأقسام وجودة الخدمة والتكوينات الأخرى في شبكة InfiniBand الفرعية. تتطلب شبكات InfiniBand كابلات ووحدات بصرية مخصصة لتوصيل المحولات وتوصيل المحولات ببطاقات الشبكة.

شبكة محلية بلا خسائر

تستخدم شبكات InfiniBand آلية رمز الائتمان لتجنب تجاوز سعة المخزن المؤقت وفقدان الحزم بشكل أساسي. يبدأ المرسل إرسال الحزمة فقط بعد التأكد من أن جهاز الاستقبال لديه أرصدة كافية لقبول العدد المقابل من الحزم.

يحتوي كل رابط في شبكة InfiniBand على مخزن مؤقت محدد مسبقًا. لا يقوم المرسل بإرسال البيانات التي تتجاوز حجم المخزن المؤقت المحدد مسبقًا والمتوفر لدى جهاز الاستقبال. بمجرد انتهاء جهاز الاستقبال من إعادة التوجيه، فإنه يقوم بتحرير المخزن المؤقت ويعيد بشكل مستمر حجم المخزن المؤقت الحالي المحدد مسبقًا والمتاح إلى المرسل. تضمن آلية التحكم في التدفق على مستوى الارتباط عدم قيام المرسل بإرسال الكثير من البيانات، مما يمنع تجاوز سعة المخزن المؤقت للشبكة وفقدان الحزمة.

رسم تخطيطي لنقل البيانات بدون فقدان البيانات في شبكة InfiniBand

إمكانية توسيع بطاقة الشبكة

يعتمد التوجيه التكيفي لـ InfiniBand على التوجيه الديناميكي لكل حزمة، مما يضمن الاستخدام الأمثل للشبكة في عمليات النشر واسعة النطاق. هناك العديد من الأمثلة على مجموعات GPU واسعة النطاق التي تستخدم شبكات InfiniBand، مثل Baidu Artificial Intelligence Cloud وMicrosoft Azure.

تتطور بطاقات الشبكة InfiniBand بسرعة من حيث السرعة، مع انتشار النطاق الديناميكي العالي (HDR) بسرعة 200 جيجابت في الثانية على نطاق واسع تجاريًا، كما بدأ نشر بطاقات الشبكة NDR بسرعة 400 جيجابت في الثانية تجاريًا. يوجد حاليًا حلول شبكات InfiniBand الرئيسية وموفرو المعدات الداعمة في السوق، مثل NVIDIA وIntel وCisco وHPE. من بينها، تمتلك NVIDIA أعلى حصة في السوق تتجاوز 70٪. ويوضح الشكل التالي الاستخدام الشائع كروت الشبكة InfiniBand.

إمكانية توسيع بطاقة الشبكة

مقدمة لشبكات RoCEv2

تطبق RoCE وظيفة RDMA عبر Ethernet، والتي يمكنها تجاوز TCP/IP واستخدام الأجهزة offالتحميل، وبالتالي تقليل استخدام وحدة المعالجة المركزية. لدى RoCE نسختان رئيسيتان: RoCEv1 وRoCEv2. RoCEv1 هو بروتوكول RDMA يتم تنفيذه عبر طبقة ارتباط Ethernet. تحتاج المحولات إلى دعم تقنيات التحكم في التدفق مثل PFC لضمان النقل الموثوق به في الطبقة المادية. يتم تنفيذ RoCEv2 عبر طبقة UDP لبروتوكول Ethernet TCP/IP ويقدم بروتوكول IP لحل مشكلات قابلية التوسع.

يدعم RoCEv2 توجيه RDMA عبر شبكات إيثرنت من الطبقة الثالثة. يستبدل RoCEv3 طبقة شبكة InfiniBand برؤوس IP وUDP عبر طبقة رابط Ethernet، مما يجعل من الممكن توجيه RoCE بين أجهزة التوجيه التقليدية القائمة على IP.

تعد شبكات InfiniBand، إلى حد ما، شبكات مُدارة مركزيًا مع SM (مدير الشبكة الفرعية)، في حين أن شبكات RoCEv2 عبارة عن شبكات موزعة خالصة تتكون من بطاقات NIC ومحولات تدعم RoCEv1، وعادة ما تتبنى بنية من طبقتين.

رسم تخطيطي لبنية شبكة RoCE

الموردون الرئيسيون لبطاقات الشبكة RoCE هم NVIDIA وIntel وBroadcom وما إلى ذلك. تعد بطاقات PCIe هي الشكل الرئيسي لبطاقات الشبكة لخوادم مراكز البيانات. سرعة المنفذ PHY RDMA تبدأ البطاقات عادةً بسرعة 50 جيجابت في الثانية، ويمكن لبطاقات الشبكة التجارية المتوفرة حاليًا تحقيق سرعة تصل إلى 400 جيجابت في الثانية في منفذ واحد.

بطاقة الشبكة RoCE

حاليًا، تدعم معظم محولات مركز البيانات تقنية التحكم في التدفق RDMA، والتي يمكنها تحقيق اتصال RDMA من طرف إلى طرف عند دمجها مع بطاقات الشبكة التي تدعم RoCE. يشمل اللاعبون الرئيسيون في محولات مركز البيانات Cisco وHPE وArista وما إلى ذلك. إن جوهر المحولات عالية الأداء هو شريحة التوجيه التي يستخدمونها. حاليًا، تُستخدم رقائق سلسلة Tomahawk من Broadcom المتوفرة حاليًا في السوق على نطاق واسع في رقائق الشحن التجارية. من بينها، يتم استخدام شريحة سلسلة Tomahawk3 بشكل أكثر شيوعًا في المحولات، وتتزايد المفاتيح التي تدعم شريحة سلسلة Tomahawk4 تدريجيًا في السوق.

تطور رقائق توجيه إيثرنت

InfiniBand مقابل RoCE

بالمقارنة مع InfiniBand، تتمتع RoCE بتعدد استخدامات أكبر وتكلفة أقل نسبيًا. ويمكن استخدامه ليس فقط لبناء شبكات RDMA عالية الأداء، ولكن أيضًا لشبكة إيثرنت التقليدية. ومع ذلك، قد يكون تكوين المعلمات مثل Headroom وPFC (التحكم في التدفق المستند إلى الأولوية) وECN (إشعار الازدحام الصريح) على المحولات أمرًا معقدًا. في عمليات النشر واسعة النطاق، قد يكون أداء الإنتاجية الإجمالي لشبكات RoCE أقل قليلاً من شبكات InfiniBand.

IB مقابل RoCE
  • من منظور تقني، يعتمد InfiniBand تقنيات مختلفة لتحسين أداء إعادة توجيه الشبكة، وتقليل وقت استرداد الأخطاء، وتعزيز قابلية التوسع، وتقليل التعقيد التشغيلي.
  • فيما يتعلق بأداء الأعمال، يتمتع InfiniBand بزمن وصول شامل أقل من RoCEv2، لذا تتمتع الشبكات المبنية على InfiniBand بميزة في أداء الأعمال على مستوى التطبيق.
  • فيما يتعلق بعرض النطاق الترددي وزمن الوصول، تؤثر عوامل مثل الازدحام والتوجيه على التوصيل البيني للشبكة عالي الأداء.

احتقان

يستخدم InfiniBand رسالتين مختلفتين لترحيل الإطارات للتحكم في الازدحام: إشعار الازدحام الصريح الأمامي (FECN) وإشعار الازدحام الصريح الخلفي (BECN). عندما تكون الشبكة مزدحمة، تقوم FECN بإعلام جهاز الاستقبال، بينما تقوم BECN بإعلام الجهاز المرسل. يجمع InfiniBand بين FECN وBECN مع معدل وضع العلامات التكيفي لتقليل الازدحام. يوفر التحكم في الازدحام الخشن.

يستخدم التحكم في الازدحام على RoCE إشعار الازدحام الصريح (ECN)، وهو امتداد لـ IP وTCP الذي يتيح إشعار ازدحام شبكة نقطة النهاية دون إسقاط الحزم. تضع ECN علامة على رأس IP لتخبر المرسل بوجود ازدحام. بالنسبة للاتصالات التي لا تعاني من ازدحام ECN، يجب إعادة إرسال الحزم المفقودة. تعمل شبكة ECN على تقليل فقدان الحزمة الناتج عن ازدحام اتصال TCP، مما يؤدي إلى تجنب إعادة الإرسال. يمكن أن تؤدي عمليات إعادة الإرسال الأقل إلى تقليل زمن الوصول والارتعاش، وبالتالي توفير أداء أفضل للمعاملات والإنتاجية. توفر ECN أيضًا التحكم في الازدحام الخشن، والذي ليس له ميزة واضحة على InfiniBand.

التوجيه

عندما يكون هناك ازدحام في الشبكة، يرسل التوجيه التكيفي الأجهزة عبر مسارات بديلة لتخفيف الازدحام وتسريع عملية النقل. يعمل RoCE v2 أعلى IP. لقد كان IP قابلاً للتوجيه لعقود من الزمن من خلال خوارزميات التوجيه المتقدمة، والآن يمكنه التنبؤ بالمسارات المزدحمة باستخدام التعلم الآلي للذكاء الاصطناعي وإرسال الحزم تلقائيًا عبر مسارات أسرع. فيما يتعلق بالتوجيه، تتمتع Ethernet وRoCE v2 بمزايا كبيرة.

ومع ذلك، فإن InfiniBand وRoCE لا يفعلان الكثير للتعامل مع زمن الاستجابة. يعد زمن الاستجابة مهمًا جدًا لمزامنة تطبيقات رسائل HPC.

تخطط UEC لتحديد بروتوكول نقل جديد

بالإضافة إلى بتقنية InfiniBand وRoCE، تم اقتراح بروتوكولات أخرى من قبل الصناعة.

في 19 يوليو، تم إنشاء اتحاد Ultra Ethernet (UEC). offأنشئت رسميا. هدف UEC هو تجاوز قدرات Ethernet الحالية وتوفير طبقة نقل عالية الأداء وموزعة وغير قابلة للضياع ومُحسّنة للحوسبة عالية الأداء والذكاء الاصطناعي. يشمل الأعضاء المؤسسون لشركة UEC AMD وArista وBroadcom وCisco وEviden وHPE وIntel وMeta وMicrosoft، وجميعهم يتمتعون بعقود من الخبرة في مجال الشبكات والذكاء الاصطناعي والسحابة وعمليات نشر الحوسبة عالية الأداء على نطاق واسع.

الأعضاء المؤسسين

تعتقد شركة UEC أن RDMA، الذي تم تعريفه منذ عقود مضت، أصبح قديمًا في حركة مرور شبكة الذكاء الاصطناعي/تعلم الآلة التي تتطلب الكثير من المتطلبات. يقوم RDMA بنقل البيانات في كتل كبيرة من حركة المرور، مما قد يتسبب في عدم توازن الارتباط وزيادة التحميل. لقد حان الوقت للبدء في بناء بروتوكول نقل حديث يدعم RDMA للتطبيقات الناشئة.

يُذكر أن بروتوكول النقل UEC قيد التطوير، ويهدف إلى توفير نقل إيثرنت أفضل من RDMA الحالي (لا يزال يدعم RDMA)، مع الاحتفاظ بمزايا Ethernet/IP وتوفير الأداء الذي تتطلبه تطبيقات AI وHPC. نقل UEC هو شكل جديد من طبقة النقل القريب التي تحتوي على بعض التعديلات الدلالية وبروتوكول إعلام الازدحام وميزات الأمان المحسنة. ستوفر UEC نقلًا أكثر مرونة لا يتطلب شبكة بدون فقدان، مما يسمح لأحمال عمل الذكاء الاصطناعي من كثير إلى كثير أن تتطلب نقل حزم متعدد المسارات وخارج الترتيب وميزات أخرى.

المزيد من قوة المؤسسة

مع استمرار تطور شبكة HPC/AI، تطلق المزيد والمزيد من المؤسسات بروتوكولات أو حلول الشبكة الخاصة بها لتلبية احتياجاتها الخاصة.

تستخدم Tencent Cloud شبكة Starlink RDMA المطورة ذاتيًا في شبكة Starlink الخاصة بها، والتي تسمح لوحدات معالجة الرسومات بالتواصل مباشرة مع بعضها البعض، مما يوفر موارد وحدة المعالجة المركزية ويحسن الأداء العام وكفاءة عقد الحوسبة. من خلال بروتوكول التعاون الشامل الذي تم تطويره ذاتيًا TiTa، يمكن لشبكة Starlink تحقيق خسارة تحميل 90 للحزم بنسبة 0%. يتضمن بروتوكول TiTa خوارزمية للتحكم في الازدحام، والتي يمكنها مراقبة حالة الشبكة في الوقت الفعلي وتحسين الاتصال، مما يجعل نقل البيانات أكثر سلاسة وتقليل زمن الوصول.

يستخدم Alibaba Cloud Panjiu PredFabric بروتوكول الشبكة عالي السرعة Solar-RDMA الذي تم تطويره ذاتيًا، والذي يسمح للمعالجات بالوصول إلى ذاكرة أي خادم آخر من خلال تعليمات التحميل/التخزين، وهو مناسب جدًا للشكل التفاعلي للشبكات العصبية ضمن نماذج التعلم العميق . بالمقارنة مع الوضع التقليدي، يمكن تقليل وقت الإصلاح الذاتي للخطأ وزمن وصول الذيل بنسبة 90%.

تستخدم شبكة مركز البيانات شديدة التقارب من هواوي خوارزمية iLossless الذكية الأصلية غير المفقودة، والتي تتعاون مع ثلاث تقنيات رئيسية هي تكنولوجيا التحكم في حركة المرور، وتكنولوجيا التحكم في الازدحام، وتقنية شبكة التخزين الذكية بدون فقدان لمنع حدوث توقف PFC مقدمًا، وتخفيف/تحرير الازدحام، وتحقيق تحكم سريع في الأجهزة المضيفة، وبالتالي بناء شبكة إيثرنت بدون فقدان وحل مشكلة فقدان حزم الازدحام في شبكات إيثرنت التقليدية.

الطلب المتزايد في السوق هو القوة الدافعة الأساسية للتطور التكنولوجي. وفقًا لبيانات IDC، سيصل الاستثمار في إنشاء البنية التحتية للذكاء الاصطناعي إلى 154 مليار دولار أمريكي في عام 2023 ويرتفع إلى 300 مليار دولار أمريكي بحلول عام 2026. وفي عام 2022، وصل سوق شبكات الذكاء الاصطناعي إلى 2 مليار دولار أمريكي، ساهمت InfiniBand منها بنسبة 75% من الإيرادات .

عند مقارنة InfiniBand وRoCE، يمكننا أن نرى أن كلاهما لهما مزايا وسيناريوهات تطبيق خاصة بهما. يعمل InfiniBand بشكل جيد في مجال الحوسبة عالية الأداء، حيث يوفر أداءً ممتازًا وزمن وصول منخفض وقابلية للتوسعة. من الأسهل دمج RoCE في البنية التحتية الحالية لشبكة Ethernet وبتكلفة أقل. وتمثل بروتوكولات النقل الناشئة التي تمثلها شركة UEC أيضًا التطوير المستمر والابتكار التكنولوجي. ولن نتمكن من الحفاظ على قدرتنا التنافسية الأساسية إلا من خلال التكيف مع الاحتياجات المتغيرة.

اترك تعليق

انتقل إلى الأعلى