الجيل الجديد من حلول شبكة AIGC: تقنية DDC للشبكات

شهد عام 2023 الصعود الكامل لتكنولوجيا الذكاء الاصطناعي AI، ممثلة بنماذج AIGC الكبيرة مثل ChatGPT، وGPT-4، وErnie Bot وغيرها، حيث دمجت وظائف متعددة مثل كتابة النصوص، وتطوير التعليمات البرمجية، وإنشاء الشعر، وما إلى ذلك، و لقد أظهروا بشكل مثير للإعجاب قدراتهم الممتازة في إنتاج المحتوى، مما تسبب في صدمة عميقة للناس. باعتبارك متخصصًا في تكنولوجيا المعلومات، يجب أيضًا أن تثير تكنولوجيا الاتصالات التي تقف وراء نماذج AIGC الكبيرة تفكيرًا عميقًا. بدون شبكة جيدة، لا توجد طريقة للحديث عن تدريب النماذج الكبيرة. لبناء مجموعة نماذج تدريب واسعة النطاق، لا نحتاج فقط إلى المكونات الأساسية مثل خوادم GPU وبطاقات الشبكة وما إلى ذلك، ولكن أيضًا هناك حاجة إلى حل مشكلة بناء الشبكة بشكل عاجل. ما نوع الشبكة القوية التي تدعم تشغيل AIGC؟ كيف سيؤدي الوصول الكامل لموجة الذكاء الاصطناعي إلى إحداث تغييرات ثورية في الشبكة التقليدية؟

AIGC

السبب وراء قوة نماذج AIGC الكبيرة المذكورة سابقًا ليس فقط لأنها تحتوي على كمية هائلة من البيانات التي تغذيها، ولكن أيضًا لأن الخوارزميات تتطور وتتحسن باستمرار. والأهم من ذلك هو أن حجم قوة الحوسبة البشرية قد تطور إلى حد ما. يمكن للبنية التحتية القوية لطاقة الحوسبة أن تدعم بشكل كامل احتياجات الحوسبة لـ AIGC. عند تدريب النماذج الكبيرة، نظرًا لأن حجم النموذج يتجاوز عادة الذاكرة وقوة الحوسبة لوحدة معالجة رسومات واحدة، تكون هناك حاجة إلى وحدات معالجة رسوميات متعددة لمشاركة الحمل. في عملية تدريب النماذج الكبيرة، هناك ثلاث طرق لمشاركة حمل وحدة معالجة الرسومات، وهي توازي الموتر، وتوازي خطوط الأنابيب، وتوازي البيانات.

توازي البيانات:

توازي البيانات هو أسلوب توازي بسيط ومباشر، حيث يتم نسخ نسخ كاملة من النموذج على معالجات متعددة (مثل وحدات معالجة الرسومات). يحصل كل معالج أو وحدة معالجة رسومات على نسخة من النموذج بأكمله ويقوم بشكل مستقل بالنشر للأمام والخلف على مجموعات فرعية مختلفة من البيانات. بعد كل خطوة تدريب، يجب دمج أو مزامنة تحديثات وزن النموذج من جميع المعالجات، وهو ما يتم عادةً عن طريق شكل من أشكال عمليات الاتصال الجماعي (مثل التخفيض الشامل). يسمح توازي البيانات بتدريب النموذج على مجموعات بيانات أكبر، حيث يتم تقسيم البيانات إلى دفعات صغيرة متعددة، تتم معالجة كل منها على معالج مختلف.

تخيل مكتبة كبيرة حيث تحتاج إلى تصنيف جميع الكتب. إن توازي البيانات يشبه توظيف العديد من أمناء المكتبات، كل منهم مسؤول عن تصنيف جزء من الكتب. في حالة التدريب على النموذج، تحصل كل وحدة معالجة رسومات على نسخة من النموذج بأكمله ولكنها تعالج فقط جزءًا من مجموعة البيانات بأكملها. بعد انتهاء جميع وحدات معالجة الرسومات من المهام الخاصة بها، فإنها تتبادل المعلومات لتحديث أوزان النموذج بشكل متزامن.

التوازي الموتر:

عادةً ما يتم استخدام توازي الموتر عندما يكون النموذج كبيرًا جدًا بحيث لا يمكن احتواؤه في ذاكرة معالج واحد. في استراتيجية الموازاة هذه، يتم تعيين أجزاء مختلفة من النموذج (مثل الموترات المختلفة أو مجموعات المعلمات في طبقات الشبكة العصبية) لمعالجات مختلفة. وهذا يعني أن كل معالج مسؤول فقط عن حساب جزء من النموذج. لإكمال الانتشار الأمامي والخلفي للنموذج بأكمله، يتعين على المعالجات تبادل نتائجها الوسيطة بشكل متكرر، مما قد يؤدي إلى ارتفاع عبء الاتصالات. يتطلب توازي الموتر اتصالات عالية السرعة بين المعالجات، لتقليل زمن الوصول لهذه التبادلات.

لنفترض أن توازي البيانات هو أن العديد من أمناء المكتبات يتعاملون مع جزء من الكتب. في هذه الحالة، يكون توازي الموتر مثل أن يكون كل أمين مكتبة مسؤولاً عن جزء من خطوات عمل التصنيف. في التدريب النموذجي، تكون كل وحدة معالجة رسومات مسؤولة عن جزء من الحساب في النموذج، على سبيل المثال، تكون وحدة معالجة الرسومات واحدة مسؤولة عن حساب النصف الأول من طبقات النموذج، وتكون وحدة معالجة الرسومات الأخرى مسؤولة عن النصف الثاني. بهذه الطريقة، يمكن حساب كل طبقة من النموذج عبر وحدات معالجة الرسومات المتعددة.

توازي خطوط الأنابيب:

موازاة خطوط الأنابيب هي إستراتيجية موازية تقوم بتعيين طبقات أو أجزاء مختلفة من النموذج لمعالجات مختلفة وتنفذ العمليات الحسابية بطريقة متوازية. في موازاة خطوط الأنابيب، يتم تقسيم بيانات الإدخال إلى دفعات صغيرة متعددة، تمر كل منها عبر كل طبقة من النموذج بالتسلسل. عندما تنتهي دفعة صغيرة من حساب الطبقة الأولى، يتم تمريرها على الفور إلى الطبقة التالية، بينما تبدأ الطبقة الأولى في معالجة الدفعة الصغيرة التالية. يمكن لهذه الطريقة أن تقلل من وقت الخمول للمعالجات، ولكنها تتطلب إدارة دقيقة لخط الأنابيب، لتجنب إنشاء أكشاك كبيرة جدًا، حيث قد تقوم بعض المعالجات بإيقاف عملها مؤقتًا بسبب انتظار نتائج الحساب التابعة.

يشبه توازي خطوط الأنابيب العمال على خط تجميع المصنع، حيث يؤدي كل منهم مهمة محددة ثم يمرر المنتج شبه النهائي إلى العامل التالي. في التدريب النموذجي، يتم تقسيم النموذج إلى عدة أجزاء، يتم تنفيذ كل منها بشكل تسلسلي على وحدات معالجة الرسومات المختلفة. عندما تنتهي وحدة معالجة الرسومات من الجزء الخاص بها من الحساب، فإنها تمرر النتيجة المتوسطة إلى وحدة معالجة الرسومات التالية لمواصلة الحساب.

في النشر العملي، يجب أن يأخذ تصميم الشبكة في الاعتبار متطلبات عرض النطاق الترددي وزمن الوصول لهذه الاستراتيجيات الموازية لضمان كفاءة وفعالية التدريب النموذجي. في بعض الأحيان، يتم الجمع بين هذه الاستراتيجيات الثلاث المتوازية لتحسين عملية التدريب بشكل أكبر. على سبيل المثال، قد يستخدم النموذج الكبير توازي البيانات على وحدات معالجة رسومات متعددة لمعالجة مجموعات فرعية مختلفة من البيانات، بينما يستخدم توازي الموتر داخل كل وحدة معالجة رسومات للتعامل مع أجزاء مختلفة من النموذج.

AIGC ذكي

دعونا نلقي نظرة على الطلب على قوة حوسبة الذكاء الاصطناعي من خلال التدريب على النماذج الكبيرة. ومع الترقية المستمرة للنماذج الكبيرة، يزداد أيضًا الطلب على طاقة الحوسبة للتدريب على النماذج، حيث يتضاعف كل ثلاثة أشهر. يستخدم نموذج GPT-3 (175 مليار معلمة، مجموعة تدريب 45 تيرابايت، يستهلك 3640 PFlops/s-Days من طاقة الحوسبة)، ChatGPT3، 128 خادم A100، وإجمالي 1024 بطاقة A100 للتدريب، لذا تتطلب عقدة خادم واحدة 4 شبكات 100 جيجا. القنوات؛ بينما ChatGPT4 وChatGPT5 والنماذج الكبيرة الأخرى، ستكون متطلبات الشبكة أعلى.

لقد تطور AIGC حتى الوقت الحاضر، وارتفعت معايير نموذج التدريب من 100 مليار إلى 10 تريليون. لإكمال مثل هذا التدريب واسع النطاق، وصل عدد وحدات معالجة الرسومات التي تدعم الطبقة الأساسية أيضًا إلى مقياس 10,000 بطاقة.

لذا فإن السؤال هو، ما هو العامل الأكبر الذي يؤثر على استخدام وحدة معالجة الرسومات؟

الجواب هو الشبكة

باعتبارها مجموعة حوسبة تحتوي على عشرات الآلاف من وحدات معالجة الرسومات، يتطلب تفاعل البيانات مع مجموعة التخزين نطاقًا تردديًا ضخمًا. بالإضافة إلى ذلك، فإن وحدات معالجة الرسومات ليست مستقلة عند إجراء العمليات الحسابية التدريبية، ولكنها تستخدم التوازي المختلط. هناك الكثير من تبادل البيانات بين وحدات معالجة الرسومات، الأمر الذي يتطلب أيضًا نطاقًا تردديًا ضخمًا.

إذا لم تكن الشبكة قوية، فسيكون نقل البيانات بطيئًا، وسيتعين على وحدة معالجة الرسومات انتظار البيانات، مما يقلل الاستخدام. سيؤدي الانخفاض في الاستخدام إلى زيادة وقت التدريب والتكلفة وتدهور تجربة المستخدم.

قامت الصناعة بإنشاء نموذج لحساب العلاقة بين إنتاجية النطاق الترددي للشبكة وزمن وصول الاتصالات واستخدام وحدة معالجة الرسومات، كما هو موضح في الشكل التالي:

استخدام GPU

عرض النطاق الترددي واستخدام GPU

الكمون الديناميكي واستخدام GPU

يمكنك أن ترى أنه كلما زادت قوة إنتاجية الشبكة، زاد استخدام وحدة معالجة الرسومات؛ كلما زاد زمن الوصول الديناميكي للاتصالات، انخفض استخدام وحدة معالجة الرسومات.

ما نوع الشبكة التي يمكن أن تدعم تشغيل AIGC؟

للتعامل مع المتطلبات العالية للحوسبة العنقودية للذكاء الاصطناعي على الشبكة، اقترحت الصناعة حلولاً مختلفة. في الاستراتيجيات التقليدية، نرى عادةً ثلاث تقنيات: Infiniband، وRDMA، ومفاتيح الإطارات.

الشبكات اللانهائية

للمحترفين الذين هم على دراية باتصالات البيانات، بتقنية InfiniBand الشبكات ليست غير مألوفة. تم الترحيب بها باعتبارها أفضل طريقة لبناء شبكة عالية الأداء، مما يضمن عرض نطاق ترددي عالي للغاية، وعدم الازدحام، وزمن وصول منخفض. الشبكة المستخدمة بواسطة ChatGPT وGPT-4 هي شبكة Infiniband. ومع ذلك، فإن عيب هذه التقنية هو أنها باهظة الثمن، وتكلف عدة مرات أكثر من شبكات إيثرنت التقليدية. بالإضافة إلى ذلك، هذه التكنولوجيا مغلقة نسبيًا، ولا يوجد سوى مورد واحد ناضج في الصناعة، مما يحد من اختيار المستخدم.

RDMA في Infiniband

شبكة آر دي إم إيهجي 

يعد RDMA، الذي يرمز إلى Remote Direct Memory Access، نوعًا جديدًا من آليات الاتصال. في نظام RDMA، يمكن للبيانات التواصل مباشرة مع بطاقة الشبكة، متجاوزة وحدة المعالجة المركزية ونظام التشغيل المعقد، الأمر الذي لا يحسن الإنتاجية بشكل كبير فحسب، بل يضمن أيضًا زمن وصول أقل.

في وقت سابق، كان يتم تنفيذ RDMA بشكل أساسي على شبكة InfiniBand. والآن، تم نقله تدريجيًا إلى شبكة Ethernet. يعتمد مخطط الشبكات السائد الحالي على بروتوكول RoCE v2 لبناء شبكة تدعم RDMA. ومع ذلك، فإن تقنيات PFC وECN في هذا المخطط، على الرغم من إنشاؤها لتجنب ازدحام الارتباط، قد تتسبب في توقف المرسل مؤقتًا أو إبطاء سرعته عند تشغيله بشكل متكرر، مما يؤثر على عرض النطاق الترددي للاتصال.

شبكة RDMA

تبديل الإطار

كانت بعض شركات الإنترنت تأمل في استخدام محولات الإطارات لتلبية احتياجات الشبكات عالية الأداء. ومع ذلك، يواجه هذا المخطط تحديات مثل قابلية التوسع غير الكافية، والاستهلاك العالي للطاقة في الجهاز، ونطاقات الأخطاء الكبيرة، لذا فهو مناسب فقط لنشر مجموعة حوسبة الذكاء الاصطناعي على نطاق صغير.

الجيل الجديد من شبكة AIGC: تقنية DDC

نظرًا للقيود المختلفة للمخططات التقليدية، ظهر حل جديد - DDC (الهيكل الموزع المفصل). يقوم DDC "بتفكيك" مفتاح الإطار التقليدي، وتعزيز قابليته للتوسع، وتصميم مقياس الشبكة بمرونة وفقًا لحجم مجموعة الذكاء الاصطناعي. ومن خلال هذه الطريقة المبتكرة، يتغلب DDC على قيود المخططات التقليدية ويوفر بنية شبكة أكثر كفاءة ومرونة لحوسبة الذكاء الاصطناعي.

تبديل الإطار

من منظور إنتاجية النطاق وعرض النطاق الترددي، استوفت DDC بالكامل متطلبات الشبكة للتدريب على نماذج الذكاء الاصطناعي واسعة النطاق. ومع ذلك، لا يقتصر تشغيل الشبكة على هذين الجانبين فحسب، بل يحتاج أيضًا إلى التحسين من حيث زمن الوصول وموازنة التحميل وكفاءة الإدارة وما إلى ذلك. وتحقيقا لهذه الغاية، يعتمد DDC الاستراتيجيات الفنية التالية:

  • آلية إعادة التوجيه المستندة إلى الخلية + VOQ، تعمل على مكافحة فقدان الحزم بشكل فعال

عندما تواجه الشبكة حركة مرور متقطعة، فقد يتسبب ذلك في معالجة جهاز الاستقبال ببطء، مما يؤدي إلى الازدحام وفقدان الحزمة. يمكن لآلية إعادة التوجيه المستندة إلى VOQ+Cell التي تعتمدها DDC أن تحل هذه المشكلة بشكل جيد. العملية المحددة هي كما يلي:

سيقوم المرسل أولاً بتصنيف الحزم وتخزينها في VOQs بعد استلامها. قبل إرسال الحزم، سيرسل NCP أولاً رسالة ائتمان لتأكيد ما إذا كان لدى المتلقي مساحة تخزين مؤقتة كافية. فقط عندما يؤكد جهاز الاستقبال أن لديه قدرة معالجة، سيتم تقسيم الحزم إلى خلايا وموازنة التحميل ديناميكيًا على العقد النسيجية. إذا كان المتلقي غير قادر مؤقتًا على المعالجة، فسيتم تخزين الحزم مؤقتًا في VOQs الخاصة بالمرسل ولن يتم إعادة توجيهها مباشرة. تستفيد هذه الآلية بشكل كامل من ذاكرة التخزين المؤقت، والتي يمكن أن تقلل إلى حد كبير أو حتى تتجنب فقدان الحزمة، وبالتالي تحسين استقرار الاتصال بشكل عام، وتقليل زمن الوصول، وزيادة استخدام عرض النطاق الترددي وكفاءة إنتاجية الأعمال.

آلية إعادة التوجيه المستندة إلى الخلية + VOQ
  • نشر PFC بقفزة واحدة، لتجنب الجمود تمامًا

تُستخدم تقنية PFC للتحكم في حركة المرور في شبكات RDMA غير المفقودة، والتي يمكنها إنشاء قنوات افتراضية متعددة لروابط Ethernet وتحديد الأولويات لكل قناة. ومع ذلك، لدى PFC أيضًا مشاكل حالة توقف تام.

في شبكة DDC، نظرًا لأن جميع NCPs وNCF تعتبر أجهزة كاملة، لا يوجد محول متعدد المستويات، وبالتالي يتم تجنب مشكلة الجمود الخاصة بـ PFC تمامًا.

رسم تخطيطي لآلية عمل PFC

رسم تخطيطي لآلية عمل PFC

40 200G
  • نظام التشغيل الموزع، مما يعزز الموثوقية

في بنية DDC، يتم التحكم مركزيًا في وظيفة الإدارة بواسطة NCC، لكن هذا قد يشكل نقطة واحدة لخطر الفشل. لتجنب هذه المشكلة، يستخدم DDC نظام تشغيل موزعًا، والذي يسمح لكل NCP وNCF بالإدارة بشكل مستقل، وله مستوى تحكم ومستوى إدارة مستقلان. وهذا لا يؤدي إلى تحسين موثوقية النظام بشكل كبير فحسب، بل يسهل أيضًا نشره.

الاستنتاج: تلبي DDC متطلبات الشبكة للتدريب على نماذج الذكاء الاصطناعي واسعة النطاق من خلال استراتيجياتها التقنية الفريدة، كما تعمل أيضًا على تحسين العديد من التفاصيل، مما يضمن إمكانية تشغيل الشبكة بشكل مستقر وفعال في ظل ظروف معقدة مختلفة.

اترك تعليق

انتقل إلى الأعلى