NVIDIA Spectrum-X: منصة شبكة تسريع الذكاء الاصطناعي القائمة على الإيثرنت

تتميز أحمال عمل الذكاء الاصطناعي بعدد صغير من المهام التي تتعامل مع كميات كبيرة من نقل البيانات بين وحدات معالجة الرسومات، ويمكن أن يكون لزمن الوصول الخلفي تأثير كبير على الأداء العام للتطبيق. قد يؤدي استخدام آليات توجيه الشبكة التقليدية للتعامل مع نمط حركة المرور هذا إلى أداء غير متناسق لوحدة معالجة الرسومات وانخفاض استخدام أعباء عمل الذكاء الاصطناعي.

NVIDIA Spectrum-X RoCE Dynamic Routing عبارة عن تقنية موازنة تحميل دقيقة تعمل على ضبط توجيه بيانات RDMA ديناميكيًا لتجنب الازدحام، جنبًا إلى جنب مع تقنية DDP الخاصة بـ BlueField 3، فهي توفر موازنة مثالية للتحميل وتحقق عرض نطاق ترددي أكثر كفاءة للبيانات.

نظرة عامة على منصة شبكة Spectrum-X

تعد NVIDIA® Spectrum™-X Network Platform أول منصة إيثرنت مصممة لتحسين أداء وكفاءة سحابات الذكاء الاصطناعي المستندة إلى إيثرنت. تعمل هذه التقنية المتقدمة على تعزيز أداء الذكاء الاصطناعي وكفاءة الطاقة بمقدار 1.7 مرة في أعباء عمل الذكاء الاصطناعي واسعة النطاق المشابهة لـ LLM وتضمن الاتساق والقدرة على التنبؤ في البيئات متعددة المستأجرين. يعتمد Spectrum-X على محولات Spectrum-4 Ethernet وبطاقات الشبكة NVIDIA BlueField®-3 DPU، وقد تم تحسينه من البداية إلى النهاية لأحمال عمل الذكاء الاصطناعي.

التقنيات الرئيسية لـ Spectrum-X

لدعم وتسريع أعباء عمل الذكاء الاصطناعي، أجرت Spectrum-X سلسلة من التحسينات من وحدات DPU إلى المحولات والكابلات/الأجهزة البصرية والشبكات وبرامج التسريع، بما في ذلك:

  • NVIDIA RoCE التوجيه التكيفي على Spectrum-4
  • NVIDIA Direct Data Placement (DDP) على BlueField-3
  • التحكم في الازدحام من NVIDIA RoCE على Spectrum-4 وBlueField-3
  • برنامج تسريع NVIDIA AI
  • رؤية شاملة لشبكة الذكاء الاصطناعي

الفوائد الرئيسية لـ Spectrum-X

  • تحسين أداء سحابة الذكاء الاصطناعي: يعمل Spectrum-X على تعزيز أداء سحابة الذكاء الاصطناعي بمقدار 1.7 مرة.
  • اتصال Ethernet القياسي: يتوافق Spectrum-X تمامًا مع معايير Ethernet وهو متوافق تمامًا مع مجموعات التكنولوجيا المستندة إلى Ethernet.
  • تحسين كفاءة الطاقة: من خلال تحسين الأداء، يساهم Spectrum-X في توفير بيئة ذكاء اصطناعي أكثر كفاءة في استخدام الطاقة.
  • حماية معززة للمستأجرين المتعددين: أداء عزل الأداء في بيئات متعددة المستأجرين، مما يضمن الأداء الأمثل والمتسق لعبء عمل كل مستأجر، مما يؤدي إلى تحسين رضا العملاء وجودة الخدمة.
  • رؤية أفضل لشبكة الذكاء الاصطناعي: مراقبة حركة المرور الجارية في سحابة الذكاء الاصطناعي من أجل الرؤية، وتحديد اختناقات الأداء، وتكون مكونًا رئيسيًا لحلول التحقق من صحة الشبكة الآلية الحديثة.
  • قابلية توسعة أعلى للذكاء الاصطناعي: دعم التوسع إلى 128 منفذًا بسرعة 400 جيجا بايت في قفزة واحدة، أو إلى منافذ 8K في هيكل أساسي من مستويين، مع الحفاظ على مستويات الأداء العالية، ودعم التوسع السحابي للذكاء الاصطناعي.
  • إعداد أسرع للشبكة: تكوين شامل لميزات الشبكة المتقدمة مؤتمتة ومُحسّنة بالكامل لأحمال عمل الذكاء الاصطناعي.

محول إيثرنت Spectrum-4

تم تصميم محول Spectrum-4 على ASIC بسرعة 51.2 تيرابت في الثانية، مما يدعم ما يصل إلى 128 منفذ إيثرنت بسرعة 400 جيجا في محول واحد مكون من 2U. Spectrum-4 هو أول محول إيثرنت مصمم لأحمال عمل الذكاء الاصطناعي. بالنسبة للذكاء الاصطناعي، تم تمديد RoCE:

  • RoCE التوجيه التكيفي
  • عزل أداء RoCE
  • تحسين فعال لعرض النطاق الترددي على شبكة إيثرنت القياسية واسعة النطاق
  • زمن الوصول المنخفض، والارتعاش المنخفض، والكمون القصير
نفيديا 400G التبديل

نفيديا سبيكتروم-4 400 جيجابت إيثرنت

بلوفيلد-3 دي بي يو

إن NVIDIA BlueField-3 DPU هي شريحة البنية التحتية لمركز البيانات من الجيل الثالث والتي تمكن المؤسسات من إنشاء بنيات تحتية لتكنولوجيا المعلومات محددة بالبرمجيات ومسرّعة بالأجهزة من السحابة إلى مركز البيانات الأساسي إلى الحافة. مع اتصال شبكة إيثرنت بسرعة 400 جيجابت/ثانية، يمكن لوحدة BlueField-3 DPU القيام بذلك offتحميل وتسريع وعزل وظائف الشبكات والتخزين والأمن والإدارة المعرفة بالبرمجيات، وبالتالي تحسين أداء وكفاءة وأمان مراكز البيانات بشكل كبير. يوفر BlueField-3 إمكانات أداء آمنة ومتعددة المستأجرين لحركة المرور بين الشمال والجنوب والشرق والغرب في مراكز بيانات الذكاء الاصطناعي السحابية التي تدعمها Spectrum-X.

SFP

نفيديا بلوفيلد-3 400 جيجابايت/ثانية إيثرنت دي بي يو

تم تصميم BlueField-3 لتسريع الذكاء الاصطناعي، حيث يدمج محركًا شاملاً للذكاء الاصطناعي وتقنيات تسريع التخزين NVIDIA GPUDirect وNVIDIA Magnum IO GPUDirect Storage.

بالإضافة إلى ذلك، يحتوي أيضًا على وضع خاص لواجهة الشبكة (NIC) الذي يعمل على الاستفادة من الذاكرة المحلية لتسريع سحب الذكاء الاصطناعي الكبيرة. تحتوي هذه السحب على عدد كبير من أزواج قوائم الانتظار التي يمكن الوصول إليها من خلال العناوين المحلية بدلاً من استخدام ذاكرة النظام. وأخيرًا، يتضمن تقنية NVIDIA Direct Data Placement (DDP) لتحسين التوجيه التكيفي RoCE.

الطبقة المادية الشاملة لـ NVIDIA (PHY)

Spectrum-X هو منصة شبكة Ethernet الوحيدة المبنية على نفس قناة 100G SerDes، من التبديل إلى DPU إلى GPU، باستخدام تقنية SerDes من NVIDIA.

تضمن تقنية SerDes من NVIDIA سلامة ممتازة للإشارة وأقل معدل خطأ في البت (BER)، مما يقلل بشكل كبير من استهلاك الطاقة في سحابة الذكاء الاصطناعي. تحقق تقنية SerDes القوية هذه، جنبًا إلى جنب مع وحدات معالجة الرسوميات Hopper من NVIDIA وSpectrum-4 وBlueField-3 ومجموعة منتجات Quantum InfiniBand، التوازن المثالي بين كفاءة الطاقة والأداء.

الشبكات

طوبولوجيا شبكة Spectrum-X النموذجية

تلعب تقنية SerDes دورًا مهمًا في نقل البيانات الحديثة، حيث يمكنها تحويل البيانات المتوازية إلى بيانات تسلسلية، والعكس صحيح.

إن استخدام تقنية SerDes بشكل موحد عبر جميع أجهزة الشبكة ومكوناتها في الشبكة أو النظام يجلب العديد من المزايا:

كفاءة التكلفة والطاقة: تم تحسين SerDes المستخدمة بواسطة NVIDIA Spectrum-X لتحقيق كفاءة عالية في استهلاك الطاقة، ولا تتطلب علب تروس في الشبكة، والتي تُستخدم لسد معدلات البيانات المختلفة. لا يؤدي استخدام علب التروس إلى زيادة تعقيد مسار البيانات فحسب، بل يضيف أيضًا تكلفة إضافية واستهلاكًا للطاقة. يؤدي التخلص من الحاجة إلى علب التروس هذه إلى تقليل الاستثمار الأولي وتكاليف التشغيل المرتبطة بالطاقة والتبريد.

كفاءة تصميم النظام: يوفر استخدام أفضل تقنيات SerDes بشكل موحد في البنية التحتية لمركز البيانات سلامة أفضل للإشارة، ويقلل الحاجة إلى مكونات النظام، ويبسط تصميم النظام. وفي الوقت نفسه، فإن استخدام نفس تقنية SerDes يجعل التشغيل أسهل ويحسن التوفر.

برنامج تسريع NVIDIA

نت كيو

نت كيو

NVIDIA NetQ عبارة عن مجموعة أدوات لعمليات الشبكة قابلة للتطوير بدرجة كبيرة لرؤية شبكة الذكاء الاصطناعي في الوقت الفعلي واستكشاف الأخطاء وإصلاحها والتحقق. تستفيد NetQ من بيانات القياس عن بعد للمحولات من NVIDIA والقياس عن بعد من NVIDIA DOCA لتوفير رؤى حول صحة المحول ووحدة DPU، ودمج الشبكة في نظام MLOps الخاص بالمؤسسة.

بالإضافة إلى ذلك، يمكن لقياس حركة مرور NetQ عن بعد تعيين مسارات التدفق والسلوكيات عبر منافذ التبديل وقوائم انتظار RoCE، لتحليل حالة التدفق لتطبيقات محددة.

تقوم عينات NetQ بتحليل زمن الوصول (الحد الأقصى والأدنى والمتوسط) وتفاصيل إشغال المخزن المؤقت في كل مسار تدفق والإبلاغ عنها. تُبلغ واجهة المستخدم الرسومية لـ NetQ عن كافة المسارات الممكنة وتفاصيل كل مسار وسلوك التدفق. يساعد الجمع بين القياس عن بعد للقياس عن بعد وقياس حركة المرور عن بعد مشغلي الشبكات على تحديد الأسباب الجذرية لمشاكل الخادم والتطبيقات بشكل استباقي.

الطيف SDK

توفر مجموعة أدوات تطوير برامج تبديل إيثرنت NVIDIA (SDK) المرونة اللازمة لتنفيذ وظائف التحويل والتوجيه، مع إمكانية البرمجة المعقدة التي لا تؤثر على معدل الحزمة أو عرض النطاق الترددي أو أداء زمن الوصول. باستخدام SDK والخادم ومصنعي المعدات الأصلية للشبكة ونظام تشغيل الشبكة (NOS)، يمكن للبائعين الاستفادة من ميزات الشبكة المتقدمة للدوائر المتكاملة لسلسلة محولات Ethernet (ICs) لبناء حلول تحويل مرنة ومبتكرة ومحسنة من حيث التكلفة.

نفيديا دوكا

NVIDIA DOCA هو المفتاح لإطلاق العنان لإمكانيات NVIDIA BlueField DPU، offتحميل وتسريع وعزل أحمال عمل مركز البيانات. باستخدام DOCA، يمكن للمطورين معالجة متطلبات الأداء والأمان المتزايدة لمراكز البيانات الحديثة من خلال إنشاء خدمات محددة برمجيًا وسحابية أصلية ومسرّعة بواسطة DPU مع حماية الثقة المعدومة.

الميزات الرئيسية لـ NVIDIA Spectrum-X

NVIDIA RoCE مبدأ التوجيه الديناميكي للعمل

يعمل التوجيه الديناميكي RoCE بين محول Spectrum-4 وBlueField-3 DPU بطريقة شاملة:

  • يعد محول Spectrum-4 مسؤولاً عن اختيار كل حزمة بناءً على أقل منفذ ازدحام، وتوزيع نقل البيانات بالتساوي. عندما تمر حزم مختلفة من نفس التدفق عبر مسارات مختلفة للشبكة، فقد تصل بطريقة غير مرتبة إلى الوجهة.
  • تقوم BlueField-3 DPU بمعالجة البيانات الموجودة في طبقة نقل RoCE لتوفير شفافية البيانات المستمرة للتطبيقات. يقوم محول Spectrum-4 بتقييم حالة الازدحام بناءً على حمل قائمة الانتظار الصادرة ويضمن توازن جميع المنافذ من حيث الاستخدام. يقوم المحول بتحديد قائمة انتظار الإخراج ذات التحميل الأقل لكل حزمة شبكة. يتلقى محول Spectrum-4 أيضًا إشعارات الحالة من المحولات المجاورة، والتي يمكن أن تؤثر أيضًا على قرار إعادة التوجيه. يتضمن التقييم قوائم انتظار تتطابق مع فئات حركة المرور. لذلك، يمكن لـ Spectrum-X تحقيق ما يصل إلى 95% من عرض النطاق الترددي الفعال في الأنظمة واسعة النطاق والسيناريوهات عالية التحميل.

2. التوجيه الديناميكي NVIDIA RoCE وتقنية وضع البيانات المباشرة NVIDIA

بعد ذلك، لنأخذ مثالاً على مستوى حزمة البيانات لإظهار كيفية تحرك تدفقات الذكاء الاصطناعي في شبكة Spectrum-X.

يُظهر العملية التعاونية بين محول Spectrum-4 وBlueField DPU على مستوى حزمة البيانات.

الخطوة 1: تنشأ البيانات من الخادم أو ذاكرة وحدة معالجة الرسومات على الجانب الأيسر من الرسم البياني، وتصل إلى الخادم على الجانب الأيمن.

تنشأ البيانات من الخادم أو ذاكرة GPU

الخطوة 2: يقوم BlueField-3 DPU بتغليف البيانات في حزم الشبكة وإرسالها إلى أول محول طرفي لـ Spectrum-4 أثناء وضع علامة على هذه الحزم حتى يتمكن المحول من إجراء التوجيه الديناميكي RoCE لها.

يقوم BlueField-3 DPU بتغليف البيانات في حزم الشبكة

الخطوة 3: يطبق المحول الطرفي Spectrum-4 الأيسر التوجيه الديناميكي RoCE لموازنة حزم البيانات من التدفقات الخضراء والأرجوانية، ويرسل حزم كل تدفق إلى محولات العمود الفقري المتعددة. وهذا يزيد من عرض النطاق الترددي الفعال من المعيار إيثرنت60% إلى Spectrum-X 95% (1.6 مرة).

يطبق مفتاح الورقة Spectrum-4 الأيسر التوجيه الديناميكي RoCE

الخطوة 4: قد تصل هذه الحزم خارج الترتيب إلى BlueField-3 DPU على الجانب الأيمن.

قد تصل هذه الحزم خارج الترتيب إلى BlueField-3 DPU على الجانب الأيمن.

الخطوة 5: تستخدم وحدة BlueField-3 DPU اليمنى تقنية NVIDIA لوضع البيانات المباشرة (DDP) لوضع البيانات بالترتيب الصحيح في ذاكرة المضيف/وحدة معالجة الرسومات.

يستخدم Right BlueField-3 DPU تقنية NVIDIA لوضع البيانات المباشرة (DDP).

نتائج التوجيه الديناميكي RoCE

للتحقق من فعالية التوجيه الديناميكي RoCE، استخدمنا برنامج اختبار الكتابة RDMA لإجراء اختبار أولي. في الاختبار، قمنا بتقسيم المضيف إلى عدة أزواج، وأرسل كل زوج عددًا كبيرًا من تدفقات بيانات الكتابة RDMA لبعضهما البعض لفترة زمنية معينة.

يمكن أن يؤدي التوجيه الديناميكي RoCE إلى تقليل وقت الإكمال.

يمكن أن يؤدي التوجيه الديناميكي RoCE إلى تقليل وقت الإكمال.

كما هو موضح في الشكل أعلاه، استنادًا إلى إعادة التوجيه الثابت استنادًا إلى التجزئة، يعاني منفذ الوصلة الصاعدة من التعارض، مما يؤدي إلى زيادة وقت الاكتمال وتقليل عرض النطاق الترددي وانخفاض العدالة بين التدفقات. التحول إلى التوجيه الديناميكي يحل كل هذه المشاكل.

في الرسم البياني لـ ECMP، تُظهر بعض التدفقات عرض نطاق ترددي ووقت إكمال مماثلين، بينما يواجه البعض الآخر تعارضًا، مما يؤدي إلى وقت إكمال أطول ونطاق ترددي أقل. على وجه التحديد، في سيناريو ECMP، تتمتع بعض التدفقات بأفضل وقت إكمال T يبلغ 13 ثانية، بينما يستغرق التدفق الأبطأ 31 ثانية للاكتمال، وهو أطول بحوالي 2.5 مرة من الوقت المثالي T. في الرسم البياني للتوجيه الديناميكي RoCE، جميع التدفقات تنتهي في نفس الوقت تقريبًا ولها نطاق ترددي مماثل.

التوجيه الديناميكي RoCE لأحمال عمل الذكاء الاصطناعي

لمزيد من تقييم أداء أعباء عمل RoCE من خلال التوجيه الديناميكي، أجرينا معايير الذكاء الاصطناعي المشتركة على منصة اختبار تتكون من 32 خادمًا على طوبولوجيا شبكة مكونة من طبقتين تم إنشاؤها بواسطة أربعة محولات NVIDIA Spectrum. قامت هذه المعايير بتقييم عمليات المجموعة المشتركة وأنماط حركة مرور الشبكة في أعباء عمل تدريب الذكاء الاصطناعي الموزعة مثل حركة المرور الشاملة وعمليات مجموعة التخفيض الشامل.

يعمل التوجيه الديناميكي RoCE على تحسين تقليل الذكاء الاصطناعي بالكامل

يعمل التوجيه الديناميكي RoCE على تحسين تقليل الذكاء الاصطناعي بالكامل

يعمل التوجيه الديناميكي RoCE على تحسين الذكاء الاصطناعي الشامل

يعمل التوجيه الديناميكي RoCE على تحسين الذكاء الاصطناعي الشامل

ملخص التوجيه الديناميكي RoCE

في العديد من الحالات، قد يتسبب توجيه التدفق المستند إلى التجزئة المستند إلى ECMP في حدوث ازدحام كبير ووقت إكمال غير مستقر للتدفقات، مما يؤدي إلى تدهور أداء التطبيق. يعمل التوجيه الديناميكي Spectrum-X RoCE على حل هذه المشكلة. تعمل هذه التقنية على تحسين الإنتاجية الفعلية للشبكة (الإنتاجية الجيدة) مع تقليل عدم استقرار وقت إكمال التدفقات قدر الإمكان، وبالتالي تحسين أداء التطبيق. من خلال الجمع بين التوجيه الديناميكي RoCE وتقنية NVIDIA Direct Data Placement (DDP) على BlueField-3 DPU، يمكنك تحقيق دعم شفاف للتطبيقات.

استخدام التحكم في الازدحام NVIDIA RoCE لتحقيق عزل الأداء

بسبب ازدحام الشبكة، قد تواجه التطبيقات التي تعمل في أنظمة سحابة الذكاء الاصطناعي تدهورًا في الأداء ووقت تشغيل غير مستقر. قد يكون سبب هذا الازدحام حركة مرور شبكة التطبيق أو حركة مرور شبكة الخلفية للتطبيقات الأخرى. السبب الرئيسي لهذا الازدحام هو الازدحام المتعدد، مما يعني وجود عدة مرسلي بيانات ومستقبل بيانات واحد.

لا يمكن للتوجيه الديناميكي لـ RoCE أن يحل مشكلة الازدحام هذه. تتطلب هذه المشكلة قياس حركة مرور الشبكة لكل نقطة نهاية. التحكم في الازدحام Spectrum-X RoCE عبارة عن تقنية من نقطة إلى نقطة، حيث يوفر المحول Spectrum-4 معلومات القياس عن بعد للشبكة لتمثيل حالة الازدحام في الوقت الفعلي في الشبكة. تتم معالجة معلومات القياس عن بعد هذه بواسطة BlueField-3 DPU، الذي يدير ويتحكم في معدل حقن البيانات لمرسلي البيانات لزيادة كفاءة الشبكة المشتركة. إذا لم يكن هناك تحكم في الازدحام، فقد يتسبب سيناريو متعدد إلى واحد في زيادة تحميل الشبكة أو انتشار الازدحام أو فقدان الحزمة، مما يؤدي إلى انخفاض كبير في أداء الشبكة والتطبيق.

في عملية التحكم في الازدحام، ينفذ BlueField-3 DPU خوارزمية للتحكم في الازدحام، والتي يمكنها معالجة عشرات الملايين من أحداث التحكم في الازدحام في الثانية على مستوى الميكروثانية واتخاذ قرارات سريعة ودقيقة بشأن المعدل. يوفر محول Spectrum-4 تقديرًا دقيقًا للازدحام باستخدام القياس الداخلي عن بعد لتقدير دقيق للمعدل ومؤشر استخدام المنفذ لتحقيق التعافي السريع. يسمح التحكم في الازدحام من NVIDIA لبيانات القياس عن بعد بتجاوز تأخير قائمة الانتظار للتدفقات المزدحمة مع الاستمرار في توفير معلومات قياس عن بعد متزامنة دقيقة، مما يقلل بشكل كبير من وقت الكشف والاستجابة.

يوضح المثال التالي كيف واجهت الشبكة ازدحامًا متعددًا، وكيف استخدمت Spectrum-X قياس حركة المرور والقياس الداخلي عن بعد للتحكم في ازدحام RoCE.

التدفق الذي يتأثر بازدحام الشبكة

يؤدي ازدحام الشبكة إلى تدفقات مضطربة

يوضح هذا الشكل التدفق الذي يتأثر بازدحام الشبكة. تقوم أربع وحدات DPU مصدر بإرسال البيانات إلى وحدتي DPU للوجهتين. يرسل المصدر 1 و2 و3 البيانات إلى الوجهة 1، باستخدام النطاق الترددي المتوفر للارتباط لثلاثة أخماس. يرسل المصدر 4 البيانات إلى الوجهة 2 من خلال مفتاح طرفي مشترك مع المصدر 3، مما يتسبب في أن تتلقى الوجهة 2 النطاق الترددي المتوفر للارتباط لمدة الخمسين.

إذا لم يكن هناك تحكم في الازدحام، فإن المصادر 1 و2 و3 ستتسبب في نسبة ازدحام من ثلاثة إلى واحد لأنها جميعها ترسل البيانات إلى الوجهة 1. وسيتسبب هذا الازدحام في حدوث ضغط خلفي من المفتاح الورقي المتصل بالمصدر 1 والوجهة 1. يصبح المصدر 4 تدفقًا مزدحمًا تنخفض إنتاجيته في الوجهة 2 إلى النطاق الترددي المتوفر بنسبة ثلاثة وثلاثين بالمائة (الأداء المتوقع بنسبة خمسين بالمائة). ويؤثر ذلك سلبًا على أداء تطبيقات الذكاء الاصطناعي التي تعتمد على الأداء المتوسط ​​وأسوأ الحالات.

يعمل Spectrum-X على حل مشكلة الازدحام عن طريق قياس حركة المرور والقياس عن بعد

يعمل Spectrum-X على حل مشاكل الازدحام عن طريق قياس حركة المرور والقياس عن بعد

يوضح الشكل كيف قام Spectrum-X بحل مشكلة الازدحام في الشكل 14. ويوضح نفس بيئة الاختبار: تقوم أربع وحدات DPU مصدر بإرسال البيانات إلى وحدتي DPU وجهتين. في هذه الحالة، يؤدي قياس حركة المرور للمصادر 1 و2 و3 إلى منع تعرض المفاتيح الطرفية للازدحام. يؤدي هذا إلى إزالة الضغط الخلفي على المصدر 4، مما يسمح له بتحقيق عرض النطاق الترددي المتوقع وهو الخمسين. بالإضافة إلى ذلك، يستخدم Spectrum-4 معلومات القياس عن بعد الداخلية التي تم إنشاؤها بواسطة ما حدث للتو لإعادة تعيين مسارات التدفق وسلوكيات قائمة الانتظار ديناميكيًا.

عزل أداء RoCE

تحتاج البنية التحتية السحابية للذكاء الاصطناعي إلى دعم عدد كبير من المستخدمين (المستأجرين) والتطبيقات الموازية أو أعباء العمل. يتنافس هؤلاء المستخدمون والتطبيقات على الموارد المشتركة في البنية التحتية، مثل الشبكة، مما قد يؤثر على أدائهم.

بالإضافة إلى ذلك، لتحسين أداء شبكة مكتبة الاتصالات الجماعية (NCCL) NVIDIA لتطبيقات الذكاء الاصطناعي في السحابة، يجب تنسيق ومزامنة جميع أعباء العمل الجارية في السحابة. إن المزايا التقليدية للسحابة، مثل المرونة والتوافر العالي، لها تأثير محدود على أداء تطبيقات الذكاء الاصطناعي، بينما يعد تدهور الأداء مشكلة عالمية أكثر أهمية.

تشتمل منصة Spectrum-X على العديد من الآليات التي يمكنها تحقيق عزل الأداء عند دمجها. فهو يضمن أن عبء العمل لا يؤثر على أداء عبء عمل آخر. تضمن آليات جودة الخدمة هذه عدم تسبب أي عبء عمل في ازدحام الشبكة، مما قد يؤثر على نقل بيانات أعباء العمل الأخرى.

باستخدام التوجيه الديناميكي RoCE، حقق موازنة دقيقة لمسار البيانات، وتجنب تعارضات تدفق البيانات من خلال مفتاح الورقة ومفتاح العمود الفقري، مما حقق عزل الأداء. يؤدي تمكين التحكم في الازدحام RoCE من خلال قياس حركة المرور والقياس عن بعد إلى تعزيز عزل الأداء.

بالإضافة إلى ذلك، يعتمد محول Spectrum-4 تصميمًا عالميًا مشتركًا للمخزن المؤقت لتعزيز عزل الأداء. يوفر المخزن المؤقت المشترك عدالة عرض النطاق الترددي للتدفقات ذات الأحجام المختلفة، ويحمي أحمال العمل من التأثر بالتدفقات المجاورة المزعجة التي لها نفس هدف منفذ الوجهة في السيناريوهات ذات التدفقات المتعددة التي تستهدف نفس منفذ الوجهة، ويمتص بشكل أفضل عمليات الإرسال قصيرة المدى عندما يتم استهداف تدفقات متعددة منافذ وجهة مختلفة.

اترك تعليق

انتقل إلى الأعلى