ما هو روس؟

يُعرف RoCE باسم RDMA عبر شبكة Ethernet المتقاربة. لذلك من المهم التعرف على RDMA كتقنية قبل فهم RoCE.

جدول المحتويات

ما هو RDMA؟

يمكن لـ RDMA، الوصول المباشر للذاكرة عن بعد، نقل البيانات من خادم إلى آخر، أو من وحدة تخزين إلى خادم، مع الحد الأدنى جدًا من إشغال وحدة المعالجة المركزية. لإرسال البيانات، يجب أن تمر التطبيقات التقليدية عبر نظام التشغيل لحزم TCP/IP، ثم تمر عبر ذاكرة التخزين المؤقت الرئيسية، وذاكرة التخزين المؤقت لبطاقة NIC، ويتم إرسالها أخيرًا. وهذا يؤدي إلى اثنين من القيود.

القيد 1: تقدم معالجة مكدس TCP/IP زمن وصول يبلغ عدة عشرات من الميكروثانية. عندما تتلقى حزمة بروتوكول TCP الرسائل وترسلها، تحتاج النواة إلى إجراء عدة مفاتيح تبديل للسياق، يستهلك كل منها من 5 إلى 10 ميكروثانية. بالإضافة إلى ذلك، تعتمد ثلاث نسخ بيانات وبروتوكول على الأقل على وحدة المعالجة المركزية. وهذا يعني أن معالجة البروتوكول فقط ستؤدي إلى تأخير ثابت يصل إلى عدة عشرات من الميكروثانية. يصبح تأخير مكدس البروتوكول هو عنق الزجاجة الأكثر وضوحًا.

القيد 2: تؤدي المعالجة باستخدام مكدس بروتوكول TCP إلى تحميل مرتفع على وحدة المعالجة المركزية للخادم. بالإضافة إلى مشكلة التأخير الثابت الأطول، تتطلب شبكة TCP/IP من وحدة المعالجة المركزية المضيفة المشاركة في نسخة الذاكرة من البروتوكول عدة مرات. كلما زاد حجم الشبكة وزاد عرض النطاق الترددي للشبكة، زاد عبء الجدولة على وحدة المعالجة المركزية عند إرسال البيانات واستلامها، مما يؤدي إلى تحميل وحدة المعالجة المركزية بشكل مستمر.

في مراكز البيانات، إذا تم استخدام TCP/IP التقليدي للتوصيل البيني للشبكة بين موارد تخزين الحوسبة الموزعة على نطاق واسع للغاية، فسوف يستهلك قدرًا كبيرًا من موارد الحوسبة للنظام، مما يؤدي إلى اختناقات الإدخال/الإخراج والفشل في تلبية متطلبات الشبكة لمستويات أعلى الإنتاجية وانخفاض الكمون.

الوضع التقليدي إلى وضع rdma

RDMA هي تقنية ربط بين الشبكات offعرض النطاق الترددي العالي، الكمون المنخفض، وانخفاض استهلاك وحدة المعالجة المركزية. تتغلب هذه التقنية على العديد من العوائق المرتبطة عادةً بشبكات TCP/IP التقليدية.

عن بعد: يشير إلى نقل البيانات بين عقدتين في الشبكة.

مباشرة: لا يلزم مشاركة النواة. كل معالجة الإرسال هي offمحملة على أجهزة NIC (بطاقة واجهة الشبكة).

مكبر الصوت : يدعم، مع دعم ميكروفون مدمج لمنع الضوضاء : يتم نقل البيانات مباشرة بين الذاكرة الافتراضية للتطبيقات على كلا العقدتين، دون الحاجة إلى نسخ إضافي وتخزين مؤقت.

الوصول للتعاليم: تشمل عمليات الوصول الإرسال/الاستقبال والقراءة/الكتابة وما إلى ذلك.

بالمقارنة مع TCP/IP، RDMA يقلل من استخدام موارد الحوسبة ويزيد من سرعة نقل البيانات.

تسمح آلية تجاوز kernel الخاصة بـ RDMA بقراءة/كتابة البيانات مباشرة بين التطبيق وبطاقة NIC، مما يقلل زمن انتقال البيانات داخل الخادم إلى ما يقرب من 1 ميكروثانية. كما تسمح آلية النسخ الصفري الخاصة بـ RDMA للطرف المتلقي بقراءة البيانات مباشرة من ذاكرة المرسل، مما يقلل بشكل كبير من الحمل على وحدة المعالجة المركزية ويحسن استخدام وحدة المعالجة المركزية.

تشمل فوائد استخدام RDMA ما يلي:

  • النسخة الصفرية: يمكن لتطبيقات RDMA تجاوز مكدس شبكة kernel ونقل البيانات مباشرة، مما يلغي الحاجة إلى نسخ البيانات من ذاكرة مساحة المستخدم الخاصة بالتطبيق إلى مساحة ذاكرة مكدس شبكة kernel.
  • تجاوز Kernel: يمكن لتطبيقات RDMA بدء نقل البيانات مباشرة من وضع المستخدم، مما يتجنب الحاجة إلى تبديل السياق بين وضع kernel ووضع المستخدم.
  • وحدة المعالجة المركزية‏: offالتحميل: يمكن لـ RDMA الوصول مباشرة إلى ذاكرة المضيف البعيد دون استهلاك أي موارد لوحدة المعالجة المركزية على المضيف البعيد. يمكن لوحدة المعالجة المركزية للمضيف البعيد بعد ذلك التركيز على صلاحياتها، وتجنب اضطراب ذاكرة التخزين المؤقت، ومنع التدفق الزائد لبيانات الوصول إلى الذاكرة على نطاق واسع.

ما هو روس؟

بدءًا من عام 2010، جذبت RDMA المزيد والمزيد من الاهتمام عندما أصدرت IBTA المواصفات الأولى لتشغيل RDMA عبر شبكة إيثرنت متقاربة (RoCE). ومع ذلك، حددت المواصفات الأولية نشر RoCE في نطاق طبقة ثانية واحد لأن إطارات RoCE المغلفة كانت تفتقر إلى إمكانات التوجيه. في عام 2، أصدرت IBTA RoCEv2014، الذي قام بتحديث مواصفات RoCE الأولية لدعم التوجيه عبر شبكات الطبقة 2، مما يجعلها أكثر ملاءمة لشبكات مراكز البيانات واسعة النطاق ومراكز بيانات المؤسسات.

RoCE

تتضمن بروتوكولات RDMA النطاق Infiniband (IB)، وبروتوكول RDMA واسع النطاق للإنترنت (iWARP)، وRDMA عبر شبكة Ethernet المتقاربة (RoCE):

  • بتقنية InfiniBand: تم تصميمه مع وضع RDMA في الاعتبار، حيث أعاد تصميم طبقة الارتباط المادية وطبقة الشبكة وطبقة النقل، لضمان نقل موثوق به على مستوى الأجهزة، وتوفير عرض نطاق ترددي أعلى وزمن وصول أقل. ولكنها باهظة الثمن وتتطلب بطاقات ومحولات شبكة IB.
  • iWARP: شبكة RDMA تعتمد على TCP، وذلك باستخدام TCP لتحقيق نقل موثوق. بالمقارنة مع RoCE، في حالة الشبكات واسعة النطاق، فإن العدد الكبير من اتصالات TCP الخاصة بـ iWARP سوف يستهلك الكثير من موارد الذاكرة، ويتطلب مواصفات نظام أعلى. ويمكنه استخدام محولات Ethernet العادية، ولكنه يتطلب بطاقات شبكة تدعم iWARP.
  • RoCE: يعتمد RDMA على Ethernet، ويعتمد إصدار RoCEv1 على طبقة ارتباط الشبكة، ولا يمكنه عبور مقاطع الشبكة، وليس له أي تطبيق في الأساس. يعتمد RoCEv2 على UDP، ويمكنه عبور قطاعات الشبكة ويتمتع بقابلية توسعة جيدة، ويمكنه تحقيق إنتاجية جيدة وأداء زمن الوصول، لذلك فهو الحل المعتمد على نطاق واسع. يستهلك RoCE موارد أقل من iWARP ويدعم ميزات أكثر من iWARP. يمكنه استخدام محولات Ethernet العادية ولكنه يتطلب بطاقات شبكة تدعم RoCE.
تطبيق rdma

لماذا يعتبر RoCE هو بروتوكول RDMA السائد؟

أولاً، دعونا نتحدث عن iWARP. تعد حزمة بروتوكول iWARP أكثر تعقيدًا من الاثنين الآخرين، وبسبب قيود TCP، يمكنها فقط دعم النقل الموثوق. ولذلك، فإن تطوير iWARP ليس بجودة تطوير RoCE وInfiniband.

يحدد بروتوكول Infiniband نفسه مجموعة جديدة من البنية الهرمية، من طبقة الارتباط إلى طبقة النقل، وهي غير متوافقة مع أجهزة Ethernet الحالية. على سبيل المثال، إذا كان مركز البيانات يريد التبديل من إيثرنت إلى بتقنية InfiniBand بسبب اختناقات الأداء، يجب عليها شراء مجموعة كاملة من أجهزة Infiniband، بما في ذلك بطاقات الشبكة والكابلات والمحولات وأجهزة التوجيه وما إلى ذلك، وهو أمر مكلف للغاية.

ميزة بروتوكول RoCE واضحة جدًا هنا. يحتاج المستخدمون فقط إلى شراء بطاقات الشبكة التي تدعم RoCE للتبديل من Ethernet إلى RoCE، كما أن أجهزة الشبكة الأخرى متوافقة. ولذلك، فإن الميزة الرئيسية لـ RoCE على Infiniband هي تكلفتها المنخفضة.

ميزة بروتوكول RoCE

RoCEv1

في أبريل 2010، أصدرت IBTA RoCE، والذي تم نشره كملحق لمواصفات بنية Infiniband، لذلك يطلق عليه أيضًا IBoE (InfiniBand over Ethernet). في هذا الوقت، استخدم معيار RoCE طبقة شبكة IB بدلاً من طبقة شبكة TCP/IP أعلى طبقة ارتباط Ethernet، لذلك لم يدعم وظيفة توجيه IP. يحتوي بروتوكول RoCE V1 على معرف نوع 0x8915 في طبقة Ethernet.

في RoCE، تتم إزالة رأس بروتوكول طبقة الارتباط Infiniband، ويتم تحويل المعرف الفريد العمومي (GUID) المستخدم للإشارة إلى العنوان إلى Ethernet MAC. يعتمد Infiniband على النقل المادي بدون فقدان، وتعتمد RoCE أيضًا على إرسال Ethernet بدون فقدان، مما يؤدي إلى زيادة التكلفة والنفقات الإدارية لنشر Ethernet.

يجب أن يعتمد النقل بدون فقدان لشبكة Ethernet على دعم L2 QoS، مثل PFC (التحكم في الأولوية في التدفق). عندما يتجاوز تجمع المخزن المؤقت العتبة، يرسل جهاز الاستقبال إطار توقف مؤقت إلى المرسل. بعد استقبال إطار الإيقاف المؤقت، تعمل طبقة MAC الخاصة بالمرسل تلقائيًا على تقليل معدل الإرسال. ويعني هذا المتطلب أن جميع العقد الموجودة على رابط النقل بأكمله، بما في ذلك النهاية والمفتاح وجهاز التوجيه، يجب أن تدعم جميعها جودة الخدمة L2، وإلا فإن PFC الموجود على الرابط لا يمكن أن يلعب دورًا فعالًا في كلا الطرفين.

RoCEv2

نظرًا لأن إطار بيانات RoCEv1 لا يحتوي على رأس IP، فيمكنه الاتصال فقط داخل الشبكة الفرعية L2. لحل هذه المشكلة، اقترحت IBTA RoCE V2 في عام 2014، والذي قام بتوسيع RoCEv1، واستبدال GRH (رأس التوجيه العالمي) برأس UDP + رأس IP. يظهر هيكل الإطار الممتد في الشكل التالي. بالنسبة إلى RoCE v1 وRoCE v2، تجدر الإشارة إلى النقطتين التاليتين:

  • يعمل RoCE v1 (الطبقة 2) على طبقة ارتباط Ehternet (الطبقة 2)، لذا فإن نوع Ethertype 0x8915، وبالتالي فإن حجم الإطار العادي هو 1500 بايت، والإطار الجامبو هو 9000 بايت.
  • يعمل RoCE v2 (الطبقة 3) على UDP/IPv4 أو UDP/IPv6 (الطبقة 3) ويستخدم منفذ UDP 4791 للإرسال. نظرًا لإمكانية توجيه حزمة RoCE v2 على الطبقة 3، يطلق عليها أحيانًا اسم Routable RoCE أو ببساطة RRoCE.
يعمل RoCE v1 (الطبقة 2) على طبقة ارتباط Ehternet (الطبقة 2)

نظرًا لأن RDMA يتطلب شبكة بدون فقدان حزم لتجنب التدهور الكبير في الأداء، تحتاج تقنية RoCE إلى تحويل شبكة إيثرنت التقليدية إلى شبكة إيثرنت بدون فقدان باستخدام تقنيات PFC وECN وDCQCN، لضمان عدم فقدان أي حزم.

الشبكة الخالية من الخسارة للروس

PFC: التحكم في التدفق على أساس الأولوية. يوفر PFC التحكم في التدفق على أساس الأولوية لكل قفزة لأنواع مختلفة من حركة المرور.

عند إعادة توجيه الحزم، يقوم الجهاز بتعيين الحزم إلى قوائم الانتظار للجدولة وإعادة التوجيه من خلال البحث عن أولوية الحزم في جدول تعيين الأولويات. عندما يتجاوز معدل إرسال حزم الأولوية 802.1p معدل الاستلام وتكون مساحة المخزن المؤقت للبيانات في جهاز الاستقبال غير كافية، يرسل جهاز الاستقبال إطار توقف مؤقت PFC إلى المرسل. عندما يتلقى المرسل إطار الإيقاف المؤقت PFC، يتوقف المرسل عن إرسال الحزم ذات الأولوية 802.1p المحددة حتى يتلقى المرسل إطار PFC XON أو تنتهي مهلة مؤقت التقادم. عند تكوين PFC، لا يؤثر ازدحام نوع معين من الحزم على إعادة التوجيه العادي لأنواع أخرى من الحزم.

ECN: إشعار الازدحام الصريح. تحدد ECN آلية التحكم في حركة المرور والإخطار بالازدحام الشامل بناءً على طبقة IP وطبقة النقل. عندما يكون الجهاز مزدحمًا، تقوم ECN بوضع علامة على حقل ECN في رأس IP الخاص بالحزمة. يرسل المتلقي حزمة إشعارات الازدحام (CNP) لإعلام المرسل بإبطاء سرعة الإرسال. تطبق ECN إدارة الازدحام من البداية إلى النهاية، مما يقلل من انتشار الازدحام وتفاقمه.

بي إف سي إن

DCQCN (إشعار الازدحام الكمي لمركز البيانات): حاليًا خوارزمية التحكم في الازدحام الأكثر استخدامًا على نطاق واسع في شبكات RoCEv2. فهو يدمج خوارزميات QCN وDCTCP ويتطلب محولات مركز البيانات لدعم WRED وECN. يمكن لـ DCQCN توفير عدالة أفضل، وتحقيق معدل استخدام عرض النطاق الترددي العالي، وضمان معدل إشغال المخزن المؤقت لقائمة الانتظار المنخفضة، وتقليل ارتعاش المخزن المؤقت لقائمة الانتظار.

في الوقت الحاضر، لدى العديد من الشركات المصنعة حلول الشبكات الخاصة بها دون فقدان البيانات.

هواوى

إن حل الخوارزمية الذكي iLossless من هواوي هو خوارزمية ذكاء اصطناعي تستخدم الذكاء الاصطناعي لتحقيق جدولة ازدحام الشبكة والتحسين الذاتي للشبكة. يتمحور حول ECN التلقائي ويقدم التعلم المعزز العميق (DRL) في محولات مركز البيانات فائقة السرعة. واستنادًا إلى خوارزمية iLossless الذكية غير المفقودة، أصدرت هواوي حل شبكة مركز البيانات فائق التقارب CloudFabric 3.0، مما أدى إلى عصر عصر البيانات الذكي بدون فقدان البيانات إلى 1.0.

في عام 2022، اقترحت شبكة مركز البيانات شديدة التقارب من هواوي تقنية تكامل حسابات الويب الذكية بدون فقدان البيانات وهندسة طوبولوجيا الاتصال المباشر المبتكرة، والتي يمكنها تحقيق شبكة محورية حسابية واسعة النطاق تبلغ 270 ألفًا. يمكن تقليل التأخير بنسبة 25% بناءً على الإصدار 1.0 الذكي بدون فقدان البيانات.

يعتمد نظام Huawei Intelligent Lossless 2.0 على الحوسبة داخل الشبكة والحوسبة المدركة للهيكل لتحقيق التآزر بين الشبكة والحوسبة. تشارك الشبكة في جمع ومزامنة معلومات الحوسبة، مما يقلل من عدد مرات مزامنة معلومات الحوسبة. وفي الوقت نفسه، يضمن إكمال مهام الحوسبة بالقرب من عقد الحوسبة من خلال الجدولة، وتقليل قفزات الاتصال، وتقليل زمن وصول التطبيق بشكل أكبر.

H3C

تستخدم خوارزمية AI ECN الذكية غير المفقودة من H3C، والتي تعتمد على نموذج حركة مرور الشبكة (قيم Incast، الحد الأقصى لعمق قائمة الانتظار، ونسبة التدفقات الكبيرة والصغيرة، من بين خصائص حركة المرور الأخرى في نموذج N-to-1)، خوارزميات التعلم المعزز لتدريب الذكاء الاصطناعي مع نموذج المرور. يستطيع الذكاء الاصطناعي استشعار اتجاهات حركة مرور الشبكة والتنبؤ بها في الوقت الفعلي، وضبط حد ECN الأمثل تلقائيًا لجدولة قائمة الانتظار بدقة. ومن خلال القيام بذلك، فإنه يوازن بين نقل التدفقات الصغيرة الحساسة لزمن الوصول والتدفقات الأكبر الحساسة للإنتاجية لضمان الأداء الأمثل للشبكة، كل ذلك مع تجنب تشغيل التحكم في ازدحام الشبكة PFC.

يعتمد حل شبكة AD-DC SeerFabric غير المفقودة من H3C على بنية تعاونية للذكاء الاصطناعي على السحابة الطرفية. من خلال ابتكار وتحسين خوارزمية ضبط AI ECN الخاصة بالصناعة والجمع بين قدرة الذكاء الاصطناعي الداخلية المحلية لمحول مركز البيانات الخاص بـ H3C، يعمل هذا الحل على تعزيز الإنتاجية وتقليل زمن الوصول مع ضمان فقدان الحزمة صفر. فهو يضمن جودة خدمة الشبكة وإعادة التوجيه بدقة. علاوة على ذلك، من خلال العمليات والصيانة الذكية الدقيقة، فإنه يتصور تجربة الخدمة لشبكات RoCE.

شركة Inspur

في أبريل 2022، أطلقت Inspur Networks حل Ethernet النموذجي بدون فقدان البيانات، والذي يتمحور حول محولات Ethernet لمركز البيانات التي تدعم تقنية RoCE. الحل offير المزايا التالية:

1. التكامل السلس بين الحوسبة والتخزين والشبكات وAIStation. وهو يدعم تقنيات إدارة الازدحام مثل PFC وECN، مما يسمح بإنشاء شبكات حاملة لـ RDMA من طرف إلى طرف وبدون خسارة ومنخفضة الكمون. يمكن لميزة المخزن المؤقت الممتازة للمحول أن تمتص حركة المرور المتلاحقة بسلاسة، وتتعامل بشكل فعال مع TCP في سيناريوهات الإرسال.

2. اكتشاف الأخطاء بشكل استباقي وتجاوز الفشل تلقائيًا. يمكن لشبكات RoCE-SAN التعاون مع عمليات التخزين للاستشعار السريع للأخطاء. يمكن للمحول اكتشاف حالات الخطأ بسرعة وإخطار الخوادم المشتركة في رسائل الإشعارات ضمن مجال الأعمال ذي الصلة، مما يتيح التبديل السريع إلى المسارات المتكررة وتقليل تأثيرات الأعمال. بالنسبة لبيئات إيثرنت واسعة النطاق وغير المفقودة التي تواجه مشكلات حالة توقف تام لـ PFC، يوفر الحل آلية منع حالة توقف تام لـ PFC على مستوى الشريحة للكشف عن حالة توقف تام واستردادها تلقائيًا.

3. تخزين التوصيل والتشغيل. يمكن لشبكات RoCE-SAN اكتشاف دمج خوادم الأجهزة وأجهزة التخزين تلقائيًا، وإخطار الخوادم بإنشاء اتصالات تلقائيًا مع أجهزة التخزين.

اترك تعليق

انتقل إلى الأعلى