توفر FiberMall حلول InfiniBand الشاملة

بعد انفجار ChatGPT في مجال التكنولوجيا ، كان الناس يناقشون ما ستكون عليه "الخطوة التالية" للذكاء الاصطناعي ، وقد ذكر العديد من العلماء تعدد الوسائط. في الآونة الأخيرة ، أصدرت شركة OpenAI النموذج الكبير GPT-4 متعدد الوسائط الذي تم تدريبه مسبقًا. تحقق GPT-4 قفزات كبيرة في الجوانب التالية: التعرف القوي على الرسم البياني ، ورفع حد إدخال النص إلى 25,000 كلمة ، وتحسين كبير في دقة الإجابة ، والقدرة على إنشاء كلمات ، والنص الإبداعي ، وتحقيق تغييرات في الأسلوب.

لا يمكن فصل هذه التكرارات الفعالة عن تدريب نموذج الذكاء الاصطناعي واسع النطاق ، والذي يتطلب موارد حسابية كبيرة وشبكات نقل بيانات عالية السرعة. من بينها ، شبكة IB (InfiniBand) الشاملة هي شبكة حوسبة عالية الأداء ومناسبة بشكل خاص للحوسبة عالية الأداء والتدريب على نموذج الذكاء الاصطناعي. في هذه الورقة ، سوف نقدم ما هو تدريب نموذج AIGC ، ولماذا هناك حاجة إلى شبكة IB من طرف إلى طرف وكيفية استخدام نموذج ChatGPT لتدريب AIGC.

ما هي AIGC؟

يشير AIGC ، المحتوى الذي يتم إنشاؤه بواسطة AI ، إلى المحتوى الذي يتم إنشاؤه تلقائيًا بواسطة الذكاء الاصطناعي ، والذي يمكن استخدامه للرسم والكتابة والفيديو والعديد من الأنواع الأخرى لإنشاء المحتوى. 2022 AIGC تتطور بسرعة عالية ، والتي يستمر نموذج التعلم العميق في تحسينها ، والترويج لنموذج مفتوح المصدر ، وإمكانية تسويق استكشاف النماذج الكبيرة ، والتي تصبح تطوير "تسريع" AIGC. خذ ChatGPT ، روبوت محادثة ، على سبيل المثال ، يمكنه كتابة المقالات وإنشاء الروايات والرموز ، وكان متصلاً بالإنترنت لمدة شهرين فقط ، مع 2 مليون مستخدم شهريًا. نظرًا لكونها "ذكية" غير متوقعة ، تعتبر AIGC "المعطل التالي لصناعة التكنولوجيا" ، "ثورة كبيرة في إنتاجية المحتوى".

AIGC

نموذج اللغة الكبير (LLM) و ChatGPT

نموذج اللغة الكبيرة عبارة عن تقنية ذكاء اصطناعي يمكنها اكتساب وفهم اللغة الطبيعية. يعتمد عادةً على خوارزميات التعلم العميق التي تتعلم كميات كبيرة من البيانات النصية لاكتساب المعرفة اللغوية ويمكنها إنشاء نص بلغة طبيعية ، مثل المحادثات والمقالات وما إلى ذلك. -Trained Transformer) الذي طورته OpenAI لإنشاء نص لغة طبيعية معبرة لغويًا والتفاعل مع المستخدمين من خلال التدريب المسبق وضبط كميات كبيرة من البيانات النصية. وبالتالي ، يمكن القول أن ChatGPT عبارة عن روبوت محادثة يعتمد على تقنية نمذجة اللغة الكبيرة. إنها تعزز الفهم اللغوي القوي وقدرات التوليد لنماذج اللغة الكبيرة ، وبالتالي تمكين إنشاء وفهم نص اللغة الطبيعية في المحادثات. مع تطور تقنيات التعلم العميق ، تستمر قدرات وحجم النماذج اللغوية الكبيرة في الازدياد. في حين أن نماذج اللغة الأصلية (مثل نماذج N-gram) يمكن أن تأخذ في الاعتبار فقط معلومات سياقية محدودة ، فإن نماذج اللغات الكبيرة الحديثة (مثل BERT و GPT-3 وما إلى ذلك) قادرة على النظر في معلومات سياقية أطول بكثير ولديها قدرات تعميم وتوليد أقوى. عادةً ما يتم تدريب نماذج اللغة الكبيرة باستخدام الشبكات العصبية العميقة ، مثل الشبكات العصبية المتكررة (RNN) ، والذاكرة طويلة وقصيرة المدى (LSTM) ، والوحدات المتكررة ذات البوابات (GRU) ، والمحولات. في التدريب ، يتم تدريب النماذج بطريقة غير خاضعة للإشراف أو شبه خاضعة للإشراف باستخدام مجموعة بيانات نصية كبيرة الحجم. على سبيل المثال ، يتم تدريب نماذج BERT من خلال مهام مثل أقنعة التنبؤ ، والجمل التالية ، وما إلى ذلك ، بينما يستخدم GPT-3 نهج التعلم على نطاق واسع تحت الإشراف الذاتي. نماذج اللغات واسعة النطاق لديها مجموعة واسعة من التطبيقات في مجال معالجة اللغة الطبيعية ، مثل الترجمة الآلية ، وتوليد اللغة الطبيعية ، وأنظمة الأسئلة والأجوبة ، وتصنيف النص ، وتحليل المشاعر ، وما إلى ذلك.

ما هي الاختناقات الحالية في تدريب ماجستير؟

عند تدريب نماذج لغوية كبيرة ، يلزم وجود شبكات عالية السرعة وموثوقة لنقل كميات كبيرة من البيانات. على سبيل المثال ، أصدرت شركة OpenAI الإصدار الأول من نموذج GPT (GPT-1) ، والذي بلغ حجم النموذج 117 مليون معلمة. بعد ذلك ، أصدرت OpenAI على التوالي نماذج أكبر مثل GPT-2 و GPT-3 مع 150 مليون و 1.75 تريليون معلمة على التوالي. من المستحيل تمامًا تدريب مثل هذه المعلمات الكبيرة على جهاز واحد وتتطلب اعتمادًا كبيرًا على مجموعات حوسبة GPU. يكمن الاختناق الحالي في كيفية حل مشكلة الاتصال الفعال بين العقد في مجموعة التدريب.

الاختناقات الحالية في تدريب ماجستير

واحدة من أكثر خوارزميات اتصال GPU شيوعًا هي Ring-Allreduce ، التي تتمثل فكرتها الأساسية في جعل وحدات معالجة الرسومات تشكل حلقة والسماح بتدفق البيانات داخل الحلقة. يتم ترتيب وحدات معالجة الرسومات الموجودة في الحلقة بمنطق حيث يكون لكل وحدة معالجة رسومية جار واحد يسار وواحد أيمن ، وسوف ترسل البيانات فقط إلى جارتها اليمنى وتتلقى البيانات من جارتها اليسرى. تستمر الخوارزمية في خطوتين: أولاً تقليل التشتت ثم الكل. في خطوة تقليل التشتت ، ستتبادل وحدات معالجة الرسومات البيانات بحيث يمكن لكل وحدة معالجة رسومات الحصول على كتلة من النتيجة النهائية. في الخطوة الأولى ، ستتبادل وحدات معالجة الرسومات هذه الكتل حتى تحصل جميع وحدات معالجة الرسومات على النتيجة النهائية الكاملة.

خاتم-ألريدس

في الأيام الأولى ، لم يكن هناك NVLink داخل الجهاز الفردي ، ولم يكن هناك RDMA على الشبكة ، وكان النطاق الترددي منخفضًا نسبيًا. لم يكن هناك فرق كبير في عرض النطاق الترددي بين التوزيع بآلة واحدة والتوزيع متعدد الأجهزة ، لذلك كان ذلك كافياً لبناء حلقة كبيرة. ولكن الآن بعد أن أصبح لدينا NVLink داخل الجهاز الفردي ، فليس من المناسب استخدام نفس الطريقة. نظرًا لأن عرض النطاق الترددي للشبكة أقل بكثير من NVLink ، إذا استخدمنا حلقة كبيرة مرة أخرى ، فسيؤدي ذلك إلى سحب النطاق الترددي العالي لـ NVLink بشكل خطير إلى مستوى الشبكة. ثانيًا ، أصبحت الآن بيئة متعددة بطاقات NIC. من المستحيل أيضًا الاستفادة الكاملة من عدة بطاقات NIC إذا تم استخدام حلقة واحدة فقط. لذلك ، يوصى بحلقة من مرحلتين في مثل هذا السيناريو. أولاً ، تتم مزامنة البيانات بين وحدات معالجة الرسومات داخل جهاز واحد باستخدام ميزة النطاق الترددي العالي من NVLink. ثم تستخدم وحدات معالجة الرسومات بين أجهزة متعددة بطاقات NIC متعددة لإنشاء حلقات متعددة لمزامنة البيانات من قطاعات مختلفة. أخيرًا ، تتم مزامنة وحدات معالجة الرسومات داخل الجهاز الفردي مرة أخرى ، واستكمالًا في النهاية مزامنة البيانات لجميع وحدات معالجة الرسومات ، وهنا علينا أن نذكر NCCL.

NCCL

تقوم مكتبة الاتصالات الجماعية NVIDIA (NCCL) بتنفيذ عمليات الاتصال الأولية متعددة الجرافيكس والعقدة المحسّنة لوحدات معالجة الرسومات والشبكات NVIDIA.

متعدد العقدة متعددة GPU

1 GPU-> عدة وحدات معالجة الرسومات المتعددة

يوفر NCCL إجراءات لتجميع الكل ، وتقليل الكل ، والبث ، والتقليل ، وتقليل التشتت ، والإرسال والاستقبال من نقطة إلى نقطة. تم تحسين هذه الإجراءات من أجل النطاق الترددي العالي وزمن الانتقال المنخفض من خلال الشبكات الداخلية وشبكات NVIDIA Mellanox عبر وصلات PCIe و NVLink عالية السرعة.

لماذا تستخدم شبكة InfiniBand شاملة؟

Ethernet هو بروتوكول شبكة مستخدم على نطاق واسع ، لكن معدل الإرسال ووقت الاستجابة لا يفي بمتطلبات تدريب النموذج الكبير. في المقابل ، فإن شبكة InfiniBand من طرف إلى طرف هي شبكة حوسبة عالية الأداء قادرة على توفير معدلات نقل تصل إلى 400 جيجابت في الثانية وزمن انتقال ميكروثاني ، وهو أعلى بكثير من أداء إيثرنت. وهذا يجعل شبكات InfiniBand هي تقنية الشبكة المفضلة لتدريب النماذج على نطاق واسع. بالإضافة إلى ذلك ، تدعم شبكة InfiniBand الشاملة آليات تكرار البيانات وتصحيح الأخطاء التي تضمن نقل البيانات بشكل موثوق. هذا مهم بشكل خاص في تدريب النماذج واسعة النطاق ، لأنه عند التعامل مع الكثير من البيانات ، يمكن أن تتسبب أخطاء نقل البيانات أو فقدان البيانات في مقاطعة عملية التدريب أو حتى فشلها. مع الزيادة الهائلة في عدد عقد الشبكة وزيادة القدرة الحسابية ، أصبح الأمر أكثر أهمية من أي وقت مضى للحوسبة عالية الأداء للتخلص من اختناقات الأداء وتحسين إدارة النظام. بتقنية InfiniBand تعتبر تقنية إدخال / إخراج واعدة للغاية يمكنها تعزيز اختناق الأداء في هياكل الإدخال / الإخراج الحالية ، كما هو موضح في الشكل. إن infiniBand هو بروتوكول اتصال اتصال داخلي واسع الانتشار وذو زمن انتقال منخفض وعالي النطاق الترددي مع تكاليف معالجة منخفضة ، وهو مثالي لنقل أنواع متعددة من حركة المرور (التجميع ، والتواصل ، والتخزين ، والإدارة) على اتصال واحد. في عام 1999 ، طورت IBTA (InfiniBand Trade Association) معايير InfiniBand ذات الصلة ، والتي تحدد بنية الإدخال / الإخراج للخوادم المترابطة وأجهزة البنية التحتية للاتصالات وأنظمة التخزين والأنظمة المدمجة في مواصفات InfiniBand ™. InfiniBand هي تقنية ناضجة ومثبتة وتستخدم على نطاق واسع في مجموعات الحوسبة عالية الأداء.

مخطط معماري لربط InfiniBand

مخطط معماري لربط InfiniBand

وفقًا لبروتوكول الربط البيني InfiniBand ، يجب أن يكون لكل عقدة محول قناة مضيفة (HCA) لتعيين الروابط مع الأجهزة المضيفة والحفاظ عليها. تحتوي المحولات على منافذ متعددة وتقوم بإعادة توجيه حزم البيانات من منفذ إلى آخر ، مما يكمل نقل البيانات داخل الشبكات الفرعية.

يتم استخدام مدير الشبكة الفرعية (SM) لتكوين شبكته الفرعية المحلية والتأكد من استمرار تشغيلها ، بمساعدة حزمة مدير الشبكة الفرعية (SMP) ووكيل مدير الشبكة الفرعية (SMA) على كل جهاز InfiniBand. يكتشف مدير الشبكة الفرعية الشبكة ويهيئها ، ويعين معرفات فريدة لجميع الأجهزة ، ويحدد MTU (وحدة النقل الدنيا) ، وينشئ جداول توجيه التبديل بناءً على خوارزميات التوجيه المحددة ، كما تقوم SM بإجراء عمليات مسح ضوئي دورية للشبكة الفرعية لاكتشاف أي هيكل يغير ويهيئ الشبكة وفقًا لذلك. شبكات InfiniBand offعرض نطاق ترددي أعلى وزمن وصول أقل وقابلية أكبر للتوسع من بروتوكولات اتصالات الشبكة الأخرى. بالإضافة إلى ذلك ، نظرًا لأن InfiniBand يوفر التحكم في التدفق المستند إلى الائتمان (حيث لا ترسل عقدة المرسل بيانات أكثر من عدد الاعتمادات المنشورة في المخزن المؤقت للاستقبال في الطرف الآخر من الارتباط) ، فإن طبقة النقل لا تتطلب آلية فقدان الحزمة مثل خوارزمية نافذة TCP لتحديد العدد الأمثل للحزم التي يتم إرسالها. يتيح ذلك لشبكات InfiniBand تقديم معدلات نقل بيانات عالية للغاية للتطبيقات ذات زمن انتقال منخفض للغاية واستخدام منخفض جدًا لوحدة المعالجة المركزية. ينقل InfiniBand البيانات من أحد طرفي القناة إلى الطرف الآخر باستخدام RDMA التكنولوجيا (الوصول المباشر إلى الذاكرة عن بُعد) ، وهو بروتوكول ينقل البيانات مباشرة بين التطبيقات عبر الشبكة دون تدخل نظام التشغيل ، بينما يستهلك موارد وحدة المعالجة المركزية منخفضة للغاية على كلا الجانبين (نقل نسخة صفرية). يقوم التطبيق في أحد طرفيه بقراءة الرسالة مباشرة من الذاكرة وتم نقل الرسالة بنجاح. يزيد الحمل المنخفض لوحدة المعالجة المركزية من قدرة الشبكة على نقل البيانات بسرعة ويسمح للتطبيقات بتلقي البيانات بشكل أسرع.

حلول شبكات InfiniBand الشاملة من FiberMall

فايبر مول offحل شامل يعتمد على مفاتيح NVIDIA Quantum-2 وبطاقات ConnectX InfiniBand الذكية والمرنة 400Gb / ثانية InfiniBand ، استنادًا إلى فهمنا لاتجاهات الشبكات عالية السرعة والخبرة الواسعة في تطبيقات مشاريع HPC و AI ، لتقليل التكاليف والتعقيد مع تقديم أداء فائق في الحوسبة عالية الأداء (HPC) والذكاء الاصطناعي والبنية التحتية السحابية فائقة النطاق مع تقليل التكلفة والتعقيد.

حلول شبكة InfiniBand لمركز بيانات FiberMall

حلول شبكة InfiniBand لمركز بيانات FiberMall

اترك تعليق

انتقل إلى الأعلى