تحليل تكنولوجيا الشبكات العنقودية GPU: NVLink، InfiniBand، ROCE، DDC

لتحقيق أداء تدريب جيد، تحتاج شبكات GPU إلى تلبية الشروط التالية:

1. التأخير من طرف إلى طرف: نظرًا لأن اتصال وحدة معالجة الرسومات متكرر، فإن تقليل زمن الوصول الإجمالي لنقل البيانات بين العقد يساعد على تقليل وقت التدريب الإجمالي.

2. الإرسال بدون فقدان: يعد هذا أمرًا بالغ الأهمية لتدريب الذكاء الاصطناعي لأن أي فقدان للتدرجات أو النتائج المتوسطة سيؤدي إلى تراجع التدريب إلى نقطة التفتيش السابقة المخزنة في الذاكرة وإعادة التشغيل، مما يؤثر بشدة على أداء التدريب.

3. آلية فعالة للتحكم في الازدحام من طرف إلى طرف: في طوبولوجيا الشجرة، يكون الازدحام العابر أمرًا لا مفر منه عندما تقوم عقد متعددة بنقل البيانات إلى عقدة واحدة. سيؤدي الازدحام المستمر إلى زيادة زمن وصول ذيل النظام. نظرًا للتبعية التسلسلية بين وحدات معالجة الرسومات، حتى إذا تأثر التحديث التدرجي لوحدة معالجة الرسومات الواحدة بزمن وصول الشبكة، فقد يتسبب ذلك في توقف وحدات معالجة الرسومات المتعددة عن العمل. الارتباط البطيء يكفي لتقليل أداء التدريب.

بالإضافة إلى العوامل المذكورة أعلاه، يجب أيضًا مراعاة التكلفة الإجمالية للنظام واستهلاك الطاقة وتكاليف التبريد بشكل شامل. بناءً على هذه المقدمات، سوف نستكشف خيارات تصميم بنية وحدة معالجة الرسومات المختلفة وإيجابياتها وسلبياتها.

I. نظام التبديل NVLink

يمكن أيضًا استخدام محول NVLink الذي يربط 8 وحدات معالجة رسومات في خادم GPU لإنشاء شبكة تحويل تربط خوادم GPU. أظهرت Nvidia طوبولوجيا تستخدم بنية NVSwitch لتوصيل 32 عقدة (أو 256 وحدة معالجة رسوميات) في مؤتمر Hot Chips في عام 2022. نظرًا لأن NVLink مصمم خصيصًا لتوصيل وحدات معالجة الرسومات بروابط عالية السرعة من نقطة إلى نقطة، فإنه يتمتع بأداء أعلى و انخفاض الحمل مقارنة بالشبكات التقليدية.

نفيديا-nvswitch-طوبولوجيا-اثنين

تم تجهيز الجيل الثالث من NVswitch بـ 64 منفذ NVLink، مما يوفر ما يصل إلى 12.8 تيرابايت في الثانية من سعة التحويل، مع دعم وظائف البث المتعدد وتجميع الشبكة. يمكن أن يجمع تجميع الشبكة كل التدرجات التي تم إنشاؤها بواسطة وحدات معالجة الرسومات العاملة داخل محولات NV، وإرسال التدرجات المحدثة إلى وحدات معالجة الرسومات للتكرار التالي. تساعد هذه الميزة على تقليل كمية نقل البيانات بين وحدات معالجة الرسومات أثناء عملية تكرار التدريب.

وفقًا لـ Nvidia، فإن بنية NVswitch أسرع بمرتين من شبكة التبديل InfiniBand عند تدريب نموذج GPT-3، مما يظهر أداءً مثيرًا للإعجاب. ومع ذلك، تجدر الإشارة إلى أن عرض النطاق الترددي لهذا المحول أقل بأربع مرات من محول 51.2 تيرابايت في الثانية الذي يوفره موردو المحولات المتطورة.

إذا حاول أحد استخدام NVswitches لبناء نظام واسع النطاق يحتوي على أكثر من 1000 وحدة معالجة رسوميات، فلن يكون ذلك غير فعال من حيث التكلفة فحسب، بل قد يكون أيضًا مقيدًا بالبروتوكول نفسه، مما يجعله غير قادر على دعم الأنظمة واسعة النطاق. بالإضافة إلى ذلك، لا تبيع Nvidia محولات NVswitch بشكل منفصل، مما يعني أنه إذا أرادت مراكز البيانات توسيع مجموعاتها الحالية عن طريق مزج ومطابقة وحدات معالجة الرسومات من موردين مختلفين، فلن يتمكنوا من استخدام NVswitches، لأن وحدات معالجة الرسومات الخاصة بالموردين الآخرين لا تدعم هذه الواجهات .

نفيديا-nvswitch-الرسم التخطيطي

ثانيا. شبكة إنفينيباند

InfiniBand (IB) هي تقنية تعمل كبديل عالي السرعة منذ إطلاقها في عام 1999، لتحل محل تقنيات ناقل PCI وPCI-X بشكل فعال، وتستخدم على نطاق واسع لتوصيل الخوادم والتخزين والشبكة. على الرغم من أن رؤيته الكبرى الأولية قد تم تقليصها بسبب عوامل اقتصادية، إلا أن InfiniBand لا يزال يتم تطبيقه على نطاق واسع في مجالات مثل الحوسبة عالية الأداء، ومجموعات الذكاء الاصطناعي/التعلم الآلي، ومراكز البيانات. يُعزى ذلك بشكل أساسي إلى سرعتها الممتازة وزمن الوصول المنخفض والنقل دون فقدان البيانات والوصول المباشر إلى الذاكرة عن بُعد (RDMA) قدرات.

اللانهاية

يهدف بروتوكول InfiniBand (IB) إلى تحقيق تصميم فعال وخفيف الوزن، وتجنب النفقات العامة الشائعة في بروتوكولات Ethernet بشكل فعال. وهو يدعم كلاً من الاتصالات القائمة على القناة والذاكرة، ويمكنه التعامل بكفاءة مع سيناريوهات نقل البيانات المختلفة.

باستخدام التحكم في التدفق القائم على الائتمان بين أجهزة الإرسال/الاستقبال، يحقق IB إرسالًا بدون خسارة (قائمة الانتظار أو مستوى القناة الافتراضية). يضمن التحكم في التدفق خطوة بخطوة عدم حدوث أي فقدان للبيانات بسبب تجاوز سعة المخزن المؤقت. بالإضافة إلى ذلك، فهو يدعم أيضًا إشعار الازدحام بين نقاط النهاية (على غرار ECN في مكدس بروتوكول TCP/IP). يوفر IB جودة خدمة ممتازة، مما يسمح بإعطاء الأولوية لأنواع معينة من حركة المرور لتقليل زمن الوصول ومنع فقدان الحزم.

ومن الجدير بالذكر أن جميع محولات IB تدعم بروتوكول RDMA، الذي يتيح نقل البيانات مباشرة من ذاكرة إحدى وحدات معالجة الرسومات إلى ذاكرة وحدة معالجة رسومات أخرى، دون تدخل نظام تشغيل وحدة المعالجة المركزية. يعمل وضع النقل المباشر هذا على تحسين الإنتاجية ويقلل بشكل كبير من زمن الوصول من طرف إلى طرف.

ومع ذلك، على الرغم من مزاياه العديدة، فإن نظام التبديل InfiniBand لا يحظى بشعبية كبيرة مثل نظام تبديل Ethernet. وذلك لأن نظام التبديل InfiniBand يصعب نسبيًا تكوينه وصيانته وتوسيع نطاقه. ال بتقنية InfiniBand عادةً ما يتم التحكم في مستوى التحكم مركزيًا بواسطة مدير شبكة فرعية واحد. على الرغم من أنه يمكن أن يعمل بشكل جيد في مجموعات صغيرة، إلا أن قابليته للتوسع قد تصبح تحديًا للشبكات التي تحتوي على 32 كيلو بايت أو أكثر من وحدات معالجة الرسومات. علاوة على ذلك، تتطلب شبكة IB أيضًا أجهزة متخصصة، مثل محولات القنوات المضيفة وكابلات InfiniBand، مما يجعل تكلفة توسيعها أعلى من تكلفة شبكة Ethernet.

نفيديا لينككس

حاليًا، Nvidia هي المورد الوحيد الذي يوفر محولات IB المتطورة لمجموعات HPC وAI GPU. على سبيل المثال، استخدمت OpenAI 10,000 وحدة معالجة رسوميات Nvidia A100 وشبكة تبديل IB لتدريب نموذج GPT-3 الخاص بها على سحابة Microsoft Azure. قامت Meta مؤخرًا ببناء مجموعة تحتوي على وحدات معالجة رسوميات 16K، والتي تستخدم خوادم Nvidia A100 GPU ومحولات Quantum-2 IB (أطلقت Nvidia منصة شبكة InfiniBand جديدة في مؤتمر GTC 2021، مع سعة تحويل تبلغ 25.6 تيرابت في الثانية ومنافذ 400 جيجابت في الثانية). يتم استخدام هذه المجموعة لتدريب نماذج الذكاء الاصطناعي التوليدية، بما في ذلك LLaMA. تجدر الإشارة إلى أنه عند توصيل أكثر من 10,000 وحدة معالجة رسوميات، يتم التبديل بين وحدات معالجة الرسومات داخل الخادم عن طريق NVswitches داخل الخادم، بينما تكون شبكة IB/Ethernet هي المسؤولة عن توصيل الخوادم.

للتعامل مع الطلب على التدريب على معلمات أكبر، يتطلع مقدمو الخدمات السحابية على نطاق واسع للغاية إلى إنشاء مجموعات GPU مع 32K أو حتى 64K GPUs. وعلى هذا النطاق، قد يكون استخدام شبكات إيثرنت أكثر منطقية من الناحية الاقتصادية. وذلك لأن Ethernet قد شكلت نظامًا بيئيًا قويًا بين العديد من موردي السيليكون/النظام والوحدات الضوئية، وتهدف إلى معايير مفتوحة، وتحقيق قابلية التشغيل البيني بين الموردين.

RoCE إيثرنت بدون فقدان

تُستخدم شبكة إيثرنت على نطاق واسع في مختلف التطبيقات، بدءًا من مراكز البيانات وحتى الشبكات الأساسية، بسرعات تتراوح من 1 جيجابت في الثانية إلى 800 جيجابت في الثانية، ومن المتوقع أن تصل إلى 1.6 تيرابت في الثانية في المستقبل. بالمقارنة مع Infiniband، تتمتع Ethernet بميزة في سرعة منفذ التوصيل البيني وسعة المحول الإجمالية. علاوة على ذلك، تعد محولات Ethernet أرخص نسبيًا، مع انخفاض التكلفة لكل وحدة عرض نطاق ترددي، وذلك بفضل المنافسة الشرسة بين موردي شرائح الشبكة المتطورة، مما يدفعهم إلى دمج المزيد من عرض النطاق الترددي في ASICs، وبالتالي تقليل التكلفة لكل جيجابت.

رقاقة تبديل إيثرنت

يمكن للموردين الرئيسيين لمحولات إيثرنت المتطورة ASICs توفير ما يصل إلى 51.2 تيرابت في الثانية من سعة المحول، المجهزة بمنافذ 800 جيجابت في الثانية، وهو ضعف أداء Quantum-2 (منصة شبكة InfiniBand جديدة تم إصدارها في NVIDIA GTC 2021، مع 25.6 تيرابايت في الثانية من سعة التبديل ومنافذ 400 جيجابت في الثانية). وهذا يعني أنه إذا تمت مضاعفة إنتاجية المحول، فيمكن خفض عدد المحولات المطلوبة لإنشاء شبكة GPU إلى النصف.

يمكن أن توفر شبكة Ethernet أيضًا خدمة نقل بدون فقدان، من خلال التحكم في التدفق ذي الأولوية (PFC). يدعم PFC ثماني فئات خدمة، يمكن التحكم في كل منها بالتدفق، ويمكن تصنيف بعضها على أنها فئات غير مفقودة. عند معالجة المحولات والمرور عبرها، تكون لحركة المرور غير المفقودة أولوية أعلى من حركة المرور المفقودة. في حالة ازدحام الشبكة، يمكن للمحولات أو بطاقات NIC إدارة الأجهزة الأولية من خلال التحكم في التدفق، بدلاً من مجرد إسقاط الحزم.

بالإضافة إلى ذلك، تدعم Ethernet أيضًا RDMA (الوصول المباشر للذاكرة عن بعد) من خلال RoCEv2 (RDMA عبر Ethernet المتقاربة)، حيث يتم تغليف إطارات RDMA في IP/UDP. عندما تصل حزم RoCEv2 إلى محول الشبكة (NIC) في خادم GPU، يمكن لبطاقة NIC نقل بيانات RDMA مباشرة إلى ذاكرة GPU، دون تدخل وحدة المعالجة المركزية. وفي الوقت نفسه، يمكن نشر مخططات قوية للتحكم في الازدحام من طرف إلى طرف مثل DCQCN لتقليل الازدحام من طرف إلى طرف وفقدان حزم RDMA. فيما يتعلق بموازنة التحميل، تستخدم بروتوكولات التوجيه مثل BGP توجيه متعدد المسارات متساوي التكلفة (ECMP) لتوزيع الحزم عبر مسارات متعددة "بتكلفة" متساوية للوجهة. عندما تصل الحزم إلى محول يحتوي على مسارات متعددة متساوية التكلفة إلى الهدف، يستخدم المحول دالة التجزئة لتحديد مسار الحزم. ومع ذلك، فإن التجزئة ليست مثالية دائمًا وقد تتسبب في تحميل بعض الروابط بشكل غير متساوٍ، مما يؤدي إلى ازدحام الشبكة.

تطبيق RDMA

فيما يتعلق بموازنة التحميل، تستخدم بروتوكولات التوجيه مثل BGP التوجيه متعدد المسارات المتساوي التكلفة (ECMP) لتوزيع الحزم عبر مسارات متعددة "بتكلفة" متساوية. عندما تصل حزمة إلى محول يحتوي على مسارات متعددة متساوية التكلفة إلى الوجهة، يستخدم المحول وظيفة التجزئة لتحديد المسار الذي سيتم إرسال الحزمة إليه. ومع ذلك، فإن التجزئة ليست مثالية دائمًا، وقد تتسبب في تحميل بعض الروابط بشكل غير متساوٍ، مما يؤدي إلى ازدحام الشبكة.

لحل هذه المشكلة، يمكن اعتماد بعض الاستراتيجيات، مثل حجز زيادة طفيفة في عرض النطاق الترددي أو تنفيذ موازنة التحميل التكيفية، مما يسمح للمحول بتوجيه حزم التدفق الجديدة إلى منافذ أخرى عندما يكون المسار مزدحمًا. تدعم العديد من المحولات هذه الميزة بالفعل. علاوة على ذلك، يمكن لموازنة التحميل على مستوى الحزمة في RoCEv2 توزيع الحزم بالتساوي عبر جميع الروابط المتاحة، للحفاظ على توازن الارتباط. لكن هذا قد يتسبب في وصول الحزم إلى الوجهة خارج الترتيب، ويتطلب من بطاقة الشبكة أن تدعم معالجة هذه البيانات غير المرتبة على طبقة النقل RoCE، للتأكد من أن وحدة معالجة الرسومات تتلقى البيانات بالترتيب. يتطلب هذا دعمًا إضافيًا للأجهزة من بطاقة الشبكة ومحول Ethernet.

بالإضافة إلى ذلك، يمكن أيضًا لمحولات ROCE Ethernet الخاصة ببعض الموردين تجميع التدرجات من وحدات معالجة الرسومات داخل المحول، مما يساعد على تقليل حركة المرور بين وحدات معالجة الرسومات أثناء عملية التدريب، مثل محولات Ethernet المتطورة من NVIDIA.

باختصار، تتمتع محولات Ethernet وبطاقات الشبكة المتطورة بتحكم قوي في الازدحام وموازنة التحميل ودعم RDMA، ويمكنها التوسع في تصميمات أكبر من محولات IB. بدأ بعض موفري الخدمات السحابية وشركات المجموعات واسعة النطاق في استخدام شبكات GPU المستندة إلى Ethernet لتوصيل أكثر من 32 ألف وحدة معالجة رسومات.

DDC شبكة مجدولة بالكامل

أعلن العديد من بائعي شرائح التبديل/جهاز التوجيه مؤخرًا عن إطلاق شرائح تدعم Fabric أو AI Fabric المجدول بالكامل. تم تطبيق هذه الشبكة المجدولة بالكامل على العديد من تصميمات الهياكل المعيارية لأكثر من عقد من الزمن، بما في ذلك أجهزة التوجيه من سلسلة PTX من Juniper، والتي تستخدم شبكة قائمة انتظار الإخراج الافتراضية (VOQ).

في بنية VOQ، يتم تخزين الحزم مؤقتًا مرة واحدة فقط عند مفتاح بوابة الدخول، ويتم تخزينها في قوائم انتظار تتوافق مع مفتاح بوابة الخروج النهائي/منفذ WAN/قائمة انتظار الإخراج. تُسمى قوائم الانتظار هذه بقوائم انتظار الإخراج الافتراضية (VOQs) عند مفتاح الدخول. لذلك، يوفر كل محول طرفي للدخول مساحة عازلة لكل قائمة انتظار الإخراج في النظام بأكمله. عادةً ما يكون حجم هذا المخزن المؤقت كافيًا لاستيعاب حزم كل VOQ عندما تواجه ازدحامًا خلال 40-70 ميكروثانية. عندما تكون كمية البيانات في VOQ صغيرة، يتم الاحتفاظ بها في المخزن المؤقت الموجود على الرقاقة؛ عندما تبدأ قائمة الانتظار في النمو، يتم نقل البيانات إلى المخزن المؤقت العميق في الذاكرة الخارجية.

عندما يقوم VOQ الموجود على مفتاح الخروج بتجميع حزم متعددة، فإنه يرسل طلبًا إلى مفتاح الخروج، ويطلب إرسال هذه الحزم في الشبكة. يتم إرسال هذه الطلبات عبر الشبكة إلى مفتاح الخروج.

يوافق المجدول الموجود في مفتاح الخروج على هذه الطلبات بناءً على تسلسل هرمي صارم للجدولة والمساحة المتوفرة في المخزن المؤقت للإخراج الضحل. يقتصر معدل هذه الموافقات على تجنب الإفراط في الاشتراك في روابط التبديل (خارج نطاق قبول المخزن المؤقت لقائمة الانتظار).

بمجرد وصول الموافقة إلى مفتاح ورقة الدخول، فإنه يرسل مجموعة الحزم المعتمدة إلى الخروج وينقلها عبر جميع الوصلات الصاعدة المتاحة.

يمكن توزيع الحزم المرسلة إلى VOQ محدد بالتساوي عبر جميع روابط الإخراج المتاحة، لتحقيق موازنة مثالية للتحميل. قد يتسبب هذا في إعادة ترتيب الحزم. ومع ذلك، فإن مفتاح الخروج لديه وظيفة منطقية يمكنها إعادة ترتيب هذه الحزم بالتسلسل، ثم نقلها إلى عقد GPU.

نظرًا لأن برنامج جدولة الخروج يتحكم في البيانات المعتمدة قبل دخولها إلى المحول، مما يتجنب الإفراط في استخدام النطاق الترددي للارتباط، فإنه يزيل 99% من مشاكل الازدحام الناتجة عن البث في مستوى بيانات Ethernet (عندما تحاول منافذ متعددة إرسال حركة المرور إلى منفذ إخراج واحد ) ويزيل حظر رأس الخط (حظر HOL). تجدر الإشارة إلى أنه في هذه البنية، لا تزال البيانات (بما في ذلك الطلبات والموافقات) تُنقل عبر شبكة إيثرنت.

يشير حظر HOL إلى ظاهرة في النقل عبر الشبكة، حيث تواجه الحزمة الأولى في سلسلة من الحزم عائقًا، مما يتسبب في حظر جميع الحزم التالية وعدم القدرة على مواصلة الإرسال، حتى لو كان منفذ الإخراج للحزم التالية خاملاً. تؤثر هذه الظاهرة بشدة على كفاءة وأداء نقل الشبكة.

تقوم بعض البنيات، مثل سلسلة Juniper’s Express وBroadcom’s Jericho، بتنفيذ قوائم انتظار الإخراج الافتراضية (VOQs) من خلال مستوى البيانات الخلوية الخاص بها.

في هذه الطريقة، يقوم المفتاح الطرفي بتقسيم الحزم إلى مقاطع ذات حجم ثابت وتوزيعها بالتساوي عبر جميع روابط الإخراج المتاحة. بالمقارنة مع التوزيع بالتساوي على مستوى الحزمة، يمكن أن يؤدي ذلك إلى تحسين استخدام الارتباط، لأنه من الصعب الاستفادة الكاملة من جميع الروابط مع مزيج من الحزم الكبيرة والصغيرة. من خلال إعادة توجيه المقطع، نتجنب أيضًا تأخير تخزين/إعادة توجيه آخر على رابط الإخراج (واجهة إيثرنت الخروج). في مستوى بيانات المقطع، يتم استبدال محولات العمود الفقري المستخدمة لإعادة توجيه المقاطع بمحولات مخصصة يمكنها إجراء إعادة توجيه المقطع بكفاءة. تتفوق محولات مستوى بيانات المقطع هذه على محولات Ethernet من حيث استهلاك الطاقة وزمن الوصول لأنها لا تحتاج إلى دعم الحمل الزائد لتبديل L2. لذلك، لا يمكن لمستوى البيانات المستند إلى المقطع تحسين استخدام الارتباط فحسب، بل يمكنه أيضًا تقليل التأخير الإجمالي لمستوى بيانات VOQ.

آلية إعادة التوجيه المستندة إلى الخلية + VOQ

هناك بعض القيود على بنية VOQ:

يجب أن يحتوي كل منفذ دخول لمحول طرفي على مخزن مؤقت معقول لتخزين الحزم لجميع طلبات VOQs في النظام أثناء الازدحام. يتناسب حجم المخزن المؤقت مع عدد وحدات معالجة الرسومات وعدد قوائم الانتظار ذات الأولوية لكل وحدة معالجة رسومات. يؤدي مقياس GPU الأكبر بشكل مباشر إلى زيادة الطلب على المخزن المؤقت للدخول.

يجب أن يحتوي المخزن المؤقت لقائمة انتظار الخروج على مساحة كافية لتغطية تأخير رحلة الذهاب والإياب عبر مستوى البيانات، لمنع استنفاد هذه المخازن المؤقتة أثناء مصافحة الموافقة على الطلب. في مجموعات GPU الأكبر حجمًا، باستخدام مستوى بيانات ثلاثي المستويات، قد يزداد تأخير رحلة الذهاب والإياب بسبب زمن وصول الكابل ووجود محولات إضافية. لنفترض أنه لم يتم ضبط المخزن المؤقت لقائمة انتظار الخروج بشكل صحيح لاستيعاب زيادة تأخير رحلة الذهاب والإياب. وفي هذه الحالة، لن يتمكن رابط الإخراج من تحقيق الاستفادة بنسبة 3%، وبالتالي تقليل أداء النظام.

على الرغم من أن نظام VOQ يقلل زمن الوصول الخلفي الناتج عن حظر رأس الخط من خلال جدولة الخروج، إلا أن الحد الأدنى من زمن الوصول للحزمة يتم زيادته عن طريق تأخير إضافي ذهابًا وإيابًا، لأن مفتاح لوحة الدخول يجب أن يقوم بإجراء مصافحة للموافقة على الطلب قبل نقل الحزمة.

على الرغم من هذه القيود، تتمتع VOQ (النسيج) المجدولة بالكامل بأداء أفضل بكثير في تقليل زمن الوصول الخلفي مقارنةً بحركة مرور Ethernet النموذجية. إذا تمت زيادة استخدام الارتباط إلى أكثر من 90% عن طريق زيادة المخزن المؤقت، فقد يكون من المفيد الاستثمار في الحمل الإضافي الناتج عن توسيع نطاق وحدة معالجة الرسومات.

بالإضافة إلى ذلك، يمثل تقييد البائع مشكلة تواجهها VOQ (النسيج). ونظرًا لأن كل بائع يستخدم بروتوكوله الخاص، فإن خلط ومطابقة المفاتيح في نفس النسيج أمر صعب للغاية.

ملخص: تطبيق تقنيات الشبكات العنقودية السائدة لوحدة معالجة الرسومات

يوفر نظام التبديل NVLink حلاً فعالاً للاتصال البيني لوحدة معالجة الرسومات، ولكن نطاق وحدة معالجة الرسومات المدعومة محدود نسبيًا، ويتم تطبيقه بشكل أساسي على اتصالات وحدة معالجة الرسومات داخل الخادم ونقل البيانات على نطاق صغير عبر عقد الخادم. تعمل شبكة InfiniBand، باعتبارها شبكة RDMA أصلية، بشكل ممتاز في البيئات الخالية من الازدحام ومنخفضة الكمون. ومع ذلك، نظرًا لبنيتها المغلقة نسبيًا وتكلفتها العالية، فهي أكثر ملاءمة للعملاء الصغار والمتوسطين الذين يطلبون اتصالات سلكية.

تُظهر تقنية ROCE Ethernet غير المفقودة، والتي تعتمد على نظام Ethernet البيئي الناضج، وأقل تكلفة للشبكات، وأسرع سرعة تكرار لعرض النطاق الترددي، قابلية تطبيق أعلى في سيناريو مجموعات GPU التدريبية المتوسطة والواسعة النطاق.

أما بالنسبة لشبكة DDC المجدولة بالكامل، فهي تجمع بين تقنيات تبديل الخلايا وقائمة انتظار الإخراج الافتراضية (VOQ)، وبالتالي تتمتع بميزة كبيرة في حل مشكلة ازدحام Ethernet. باعتبارها تكنولوجيا ناشئة، لا تزال الصناعة في مرحلة البحث لتقييم إمكاناتها وآفاق تطبيقها على المدى الطويل.

اترك تعليق

انتقل إلى الأعلى