خوادم الذكاء الاصطناعي: تقنية شريحة الربط البيني للواجهة

وفقًا لبيانات TrendForce، بلغت شحنات خوادم الذكاء الاصطناعي حوالي 130,000 ألف وحدة، وهو ما يمثل حوالي 1% من شحنات الخوادم العالمية. وبالتطلع إلى عام 2023، أطلقت Microsoft وMeta وBaidu وByteDance على التوالي منتجات وخدمات تعتمد على الذكاء الاصطناعي التوليدي وزادت الطلبات بشكل نشط. ومن المقدر أن يصل معدل النمو السنوي لشحنات خوادم الذكاء الاصطناعي في عام 2023 إلى 15.4%، ومع الطلب المستقبلي على ChatGPT لخوادم الذكاء الاصطناعي، من المتوقع أن تنمو خوادم الذكاء الاصطناعي بمعدل سنوي مركب قدره 12.2% من عام 2023 إلى 2027. .

تم إطلاق DGX H100 في عام 2022 وهو أحدث إصدار لنظام DGX من NVIDIA، بالإضافة إلى أساس NVIDIA DGX SuperPOD. تم تجهيز خوادم DXG بـ 8 وحدات معالجة رسوميات H100، و640 مليار ترانزستور، و offأداء ذكاء اصطناعي أعلى بـ 6 مرات من الجيل السابق بدقة FP8 الجديدة، مما يوفر عرض نطاق ترددي يبلغ 900 جيجابايت/ثانية.

مخطط معماري لربط الرقاقة الداخلية لخادم NVIDIA DGX H100

المصدر: NVIDIA

داخل خادم DGX H100، الكتل الزرقاء هي بطاقات شبكة IP، والتي يمكن أن تعمل كبطاقات شبكة وتلعب أيضًا دور توسيع PCIe Switch، لتصبح الجسر بين وحدة المعالجة المركزية ووحدة معالجة الرسومات (H100). ويستخدم معيار PCle 5.0 داخليًا. بالإضافة إلى ذلك، تم تصنيع CX7 إلى بطاقتين على شكل شرائح بطاقة شبكة لتوصيلها بالخادم، وتتكون كل بطاقة من 2 شرائح CX4 ومخرجات 7 منافذ وحدة بصرية OSFP بسرعة 2 جيجا.

يتم تحقيق الاتصال البيني بين وحدات معالجة الرسومات (H100) بشكل أساسي عن طريق شرائح NV Switch. تعمل كل وحدة معالجة رسومات في DGXH100 على تمديد 18 رابط NVLinks إلى الخارج، مع عرض نطاق ترددي ثنائي الاتجاه يبلغ 50 جيجابايت/ثانية لكل رابط، بإجمالي 18*50 جيجابايت/ثانية = 900 جيجابايت/ثانية عرض نطاق ثنائي الاتجاه، مقسم إلى 4 محولات NV مدمجة، بحيث يتوافق كل محول NV مع 4-5 وحدات بصرية OSFP (إجمالي 18). كل الوحدة الضوئية OSFP يستخدم 8 قنوات ضوئية، بمعدل نقل 100 جيجابت في الثانية لكل قناة، وبذلك يصل المعدل الإجمالي 800Gbps، مما يتيح نقل البيانات بسرعة عالية.

التوصيل البيني للمكونات مثل وحدة المعالجة المركزية ووحدة معالجة الرسومات: محول PCIE وشريحة المؤقت

يستخدم PCIe Switch، المعروف أيضًا باسم محول PCIe أو محور PCIe، بشكل أساسي لتوصيل أجهزة PCIe، وبروتوكول الاتصال الخاص بشريحة PCIe Switch وجهازها هو PCIe. نظرًا لأن اتصال رابط PCIe هو نوع من نقل البيانات من طرف إلى طرف، يحتاج Switch إلى توفير إمكانات التوسع أو التجميع، للسماح لمزيد من الأجهزة بالاتصال بمنفذ PCle، لحل مشكلة عدم كفاية رقم قناة PCIe. حاليًا، لم يتم استخدام PCIe Switch على نطاق واسع في أنظمة التخزين التقليدية فحسب، بل تم أيضًا تعميمه تدريجيًا في بعض منصات الخوادم، لتحسين سرعة نقل البيانات.

ترقية تقنية ناقل PCIe، وزيادة سرعة محول PCIe مع كل جيل. يعد ناقل PCIe بديلاً تسلسليًا عالي السرعة لحافلة PCI. في عام 2001، أعلنت إنتل عن الجيل الثالث من تقنية الإدخال/الإخراج لتحل محل ناقل PCI، والتي تسمى "3GIO". في عام 2002، كانت هذه التكنولوجيا offتمت إعادة تسميتها رسميًا "PCI Express" بعد مراجعتها من قبل مجموعة PCI Special Interest Group (PCI-SIG)، بمناسبة ولادة PCIe. في عام 2003، كان PCIe 1.0 offتم إصداره رسميًا، وهو يدعم معدل نقل يبلغ 250 ميجابايت/ثانية لكل قناة ومعدل نقل إجمالي يبلغ 2.5 جيجا بايت/ثانية. في عام 2007، أعلنت PCI-SIG عن إطلاق مواصفات PCI Express Base 2.0. استنادًا إلى PCIe 1.0، تمت مضاعفة معدل النقل الإجمالي إلى 5 جيجا بايت/ثانية، وزاد معدل النقل لكل قناة من 250 ميجابايت/ثانية إلى 500 ميجابايت/ثانية. في عام 2022، PCI-SIG offتم إصدار مواصفات PCIe 6.0 رسميًا، مما أدى إلى زيادة إجمالي عرض النطاق الترددي إلى 64 GT/s.

PCle 1.0 إلى 6.0

المصدر: ويكيبيديا

ومع تزايد تطبيق PCIe في الخوادم، ارتفع أيضًا الطلب في السوق على PCIe Switch. وفقًا لإحصائيات وتوقعات QYResearch، وصلت مبيعات سوق شرائح PCIe العالمية إلى 790 مليون دولار أمريكي في عام 2021، ومن المتوقع أن تصل إلى 1.8 مليار دولار أمريكي في عام 2028، بمعدل نمو سنوي مركب (CAGR) يبلغ 11.9%.

تبديل PCle

المصدر: Asmedia وBroadCom وMicrochip

تعد الصين أكبر سوق لمحول PCIe. مع تزايد الطلب على تخزين البيانات الضخمة ونقلها في الخوادم، هناك حاجة إلى عدد كبير من حلول الربط البيني عالية السرعة لتحقيق نقل هائل للبيانات في مجالات البيانات الضخمة والحوسبة السحابية والذكاء الاصطناعي وما إلى ذلك. الحل، PCIe Switch لديه طلب كبير في السوق الصينية.

في خوادم الذكاء الاصطناعي، يلزم وجود شريحة Retimer واحدة على الأقل لضمان جودة الإشارة عند توصيل وحدة معالجة الرسومات ووحدة المعالجة المركزية. على وجه التحديد، ستقوم العديد من خوادم الذكاء الاصطناعي بتكوين شرائح Retimer متعددة، مثل Astera Labs، التي تقوم بتكوين أربع شرائح Retimer في مسرع الذكاء الاصطناعي.

مؤقت الذكاء الاصطناعي

المصدر: مختبرات أستيرا

يعد PCIe Retimer سوقًا في المحيط الأزرق يضم ثلاث شركات مصنعة رائدة والعديد من المنافسين المحتملين. حاليًا، تعد Parade Technologies وAstera Labs وMontage Technology هم البائعين الثلاثة الرئيسيين في سوق المحيط الأزرق PCIe Retimer، ويحتلون المركز المهيمن. من بينها، قامت شركة Montage Technology بنشر PCIe في وقت سابق وهي المورد الوحيد في الصين الذي يمكنه إنتاج PCIe 4.0 Retimer بكميات كبيرة، ويتقدم تطوير PCIe 5.0 Retimer بسلاسة.

PCle

المصدر: Montage Technology وAstera Labs وParade Technologies

بالإضافة إلى ذلك، فإن الشركات المصنعة للرقائق بما في ذلك Renesas وTI وMicrochip Technology وغيرها تشارك أيضًا بنشاط في تطوير منتج PCIe Retimer. بحسب ال offمعلومات الموقع الإلكتروني الرسمية، يمكن لشركة Renesas توفير منتجين PCIe 3.0 Retimer، وهما 89HT0816AP و89HT0832P؛ يمكن أن توفر TI جهاز PCIe 16 Retimer بسرعة 8 جيجابت في الثانية و4.0 قنوات - DS160PT801؛ وبالمثل، أصدرت شركة Microchip Technology سلسلة XpressConnect من شرائح Retimer في نوفمبر 2020، والتي يمكن أن تدعم معدل PCIe 5.0 الذي يبلغ 32GT/s.

اتصال GPU-GPU: NVLink، NVSwitch

يهتم مصنعو الرقائق العالميون بالتقنيات ذات الصلة بالواجهات عالية السرعة. بالإضافة إلى NVLink من NVIDIA، توفر Infinity Fabric من AMD وCXL (Compute Express Link) من Intel أيضًا حلولاً للاتصال البيني عالي السرعة داخل الخوادم.

لقد أثار NVlink الذي يتم تحديثه باستمرار ثورة في تكنولوجيا الاتصال البيني عالي السرعة. NVLink هي تقنية ربط بيني عالية السرعة تم تطويرها بواسطة NVIDIA، والتي تهدف إلى تسريع سرعة نقل البيانات بين وحدة المعالجة المركزية ووحدة معالجة الرسومات، ووحدة معالجة الرسومات ووحدة معالجة الرسومات، وتحسين أداء النظام. من عام 2016 إلى عام 2022، تم تكرار NVLink إلى الجيل الرابع. في عام 2016، أصدرت NVIDIA شريحة الواجهة الجديدة عالية السرعة – NVLink، التي تحملها وحدة معالجة الرسوميات Pascal GP100. هذا هو الجيل الأول من NVLink. يستخدم NVLink تقنية التوصيل البيني للإشارات عالية السرعة (NVHS)، والتي تُستخدم بشكل أساسي لنقل الإشارات بين وحدة معالجة الرسومات (GPU) ووحدة معالجة الرسومات (GPU)، ووحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CPU). تنقل وحدات معالجة الرسوميات الإشارات الكهربائية ذات المعاوقة التفاضلية في نموذج ترميز NRZ (عدم العودة إلى الصفر). يمكن للوصلة الفردية من الجيل الأول من NVLink تحقيق 40 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه، ويمكن لشريحة واحدة أن تدعم أربعة روابط، أي 160 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه.

مقارنة بين أربعة جنرال nvlink

المصدر: NVIDIA

تقنية ان في لينك وقد خضع للعديد من التكرارات والتحديثات، مما أثار موجة من الابتكار في تكنولوجيا الربط البيني عالي السرعة. في عام 2017، تم إصدار الجيل الثاني من NVLink استنادًا إلى بنية Volta، والذي يمكنه تحقيق 50 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه لكل رابط، ودعم ستة روابط لكل شريحة، أي 300 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه. في عام 2020، تم إصدار الجيل الثالث من NVLink استنادًا إلى بنية Ampere، والذي يمكنه تحقيق 50 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه لكل رابط، ودعم 12 رابطًا لكل شريحة، أي 600 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه. في عام 2022، تم إصدار الجيل الرابع من NVLink المعتمد على بنية Hopper، والذي غير إشارة الإرسال إلى إشارة كهربائية معدلة PAM4، ويمكنه تحقيق 50 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه لكل رابط، ودعم 18 رابطًا لكل شريحة، أي، 900 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه.

في عام 2018، أصدرت NVDIA الجيل الأول من NVSwitch، والذي قدم حلاً لتحسين عرض النطاق الترددي، وتقليل زمن الوصول، وتمكين الاتصال بين وحدات معالجة الرسومات المتعددة داخل الخادم. تم تصنيع الجيل الأول من NVSwitch باستخدام عملية FinFET ذات 12 نانومتر من TSMC وكان يحتوي على 18 واجهة NVLink 2.0. يمكن للخادم أن يدعم 16 وحدة معالجة رسوميات V100 من خلال 12 محول NVSwitch، مما يحقق أعلى سرعة اتصال مع NVLink.

مقارنة بين ثلاثة أجيال من أداء NV Switch

المصدر: NVIDIA

حاليًا، تم تكرار NVSwitch إلى الجيل الثالث. تم تصميم الجيل الثالث من NVSwitch باستخدام عملية TSMC's 4N، وتحتوي كل شريحة NVSwitch على 64 منفذ NVLink 4.0. يمكن أن تصل سرعة الاتصال بين وحدات معالجة الرسومات إلى 900 جيجابايت/ثانية، ويمكن استخدام وحدات معالجة الرسومات المتصلة بواسطة NVLink Switch كمسرع واحد عالي الأداء يتمتع بقدرات التعلم العميق.

يؤدي الاتصال البيني عالي السرعة بين وحدة المعالجة المركزية والذاكرة الديناميكية (DRAM) إلى زيادة الطلب على شرائح واجهة الذاكرة.

الأنواع الرئيسية لوحدات ذاكرة الخادم هي RDIMM وLRDIMM، والتي لها متطلبات أعلى للاستقرار وتصحيح الأخطاء واستهلاك منخفض للطاقة مقارنة بالأنواع الأخرى من وحدات الذاكرة. شريحة واجهة الذاكرة هي الجهاز المنطقي الأساسي لوحدة ذاكرة الخادم وهي المسار الضروري لوحدة المعالجة المركزية للخادم للوصول إلى بيانات الذاكرة. وتتمثل وظيفتها الرئيسية في تحسين سرعة واستقرار الوصول إلى بيانات الذاكرة وتلبية الاحتياجات المتزايدة عالية الأداء والسعة الكبيرة لوحدة المعالجة المركزية للخادم لوحدات الذاكرة.

تصنيف وحدة الذاكرة والتطبيقات النهائية

المصدر: CSDN

تستمر سرعة شرائح واجهة الذاكرة في الزيادة من DDR4 إلى DDR5. منذ عام 2016، أصبحت DDR4 هي التقنية السائدة في سوق الذاكرة. لتحقيق سرعة نقل أعلى ودعم سعة ذاكرة أكبر، قامت منظمة JEDEC بتحديث وتحسين المواصفات الفنية لرقائق واجهة الذاكرة DDR4. في جيل DDR4، من Gen1.0 وGen1.5 وGen2.0 إلى Gen2plus، تزايدت باستمرار أعلى سرعة نقل يدعمها كل جيل فرعي من شرائح واجهة الذاكرة، وكان منتج الجيل الفرعي الأخير من DDR4، يدعم Gen2plus أقصى سرعة نقل تصل إلى 3200MT/s. مع استمرار منظمة JEDEC في تحسين تعريف مواصفات منتجات واجهة الذاكرة DDR5، تحل تقنية الذاكرة DDR5 محل تقنية الذاكرة DDR4 تدريجيًا.

حاليًا، خططت رقائق واجهة الذاكرة DDR5 لثلاثة أجيال فرعية، بمعدلات دعم تبلغ 4800MT/s، و5600MT/s، و6400MT/s على التوالي. تتوقع الصناعة أنه قد يكون هناك جيل أو جيلين فرعيين آخرين في المستقبل.

تنقسم شرائح واجهة الذاكرة إلى نوعين حسب وظائفها، وهما المخزن المؤقت للتسجيل (RCD) والمخزن المؤقت للبيانات (DB). يتم استخدام RCD لتخزين إشارات العنوان والأوامر والتحكم مؤقتًا من وحدة التحكم في الذاكرة، ويتم استخدام DB لتخزين إشارات البيانات مؤقتًا من وحدة التحكم في الذاكرة أو حبيبات الذاكرة.

DDR4 ، DDR5

المصدر: تكنولوجيا المونتاج

توفر ترقية وحدات الذاكرة DDR5 فرصًا جديدة لرقائق واجهة الذاكرة والرقائق الداعمة للوحدات. وفي عام 2016، بلغ حجم سوق شرائح واجهة الذاكرة العالمية حوالي 280 مليون دولار أمريكي، ووصل إلى حوالي 570 مليون دولار أمريكي في عام 2018، بمعدل نمو سنوي قدره 40% على مدى ثلاث سنوات. ستؤدي ترقية DDR5 إلى رفع حجم شرائح واجهة الذاكرة في السوق إلى مستوى جديد. بالمقارنة مع DDR4، نظرًا لارتفاع معدل الدعم والتصميم الأكثر تعقيدًا لـ DDR5، فإن السعر المبدئي للجيل الفرعي الأول من رقائق واجهة الذاكرة DDR5 أعلى من سعر رقائق واجهة الذاكرة DDR4. وفي الوقت نفسه، مع زيادة معدل اختراق ذاكرة DDR5 في الخوادم وأجهزة الكمبيوتر تدريجيًا، من المتوقع أن يحقق حجم سوق رقائق واجهة الذاكرة ذات الصلة بـ DDR5 نموًا سريعًا.

تواجه صناعة شرائح واجهة الذاكرة حواجز عالية، وقد تم تشكيل نمط ثلاثي الأرجل. تعد رقائق واجهة الذاكرة صناعة كثيفة الاستخدام للتكنولوجيا، ولا يمكن استخدامها إلا على نطاق واسع بعد التحقق منها بدقة من قبل الشركات المصنعة لوحدة المعالجة المركزية والذاكرة وتصنيع المعدات الأصلية في جميع الجوانب، ومن الصعب إدخال لاعبين جدد. ومع تزايد الصعوبة التقنية، انخفض عدد مشغلات شرائح واجهة الذاكرة من أكثر من 10 في جيل DDR2 إلى 3 فقط في جيل DDR4. لقد تم تطهير الصناعة، وتم تشكيل نمط ثلاثي الأرجل. في جيل DDR5، لا يوجد سوى ثلاثة موردين في العالم يمكنهم توفير منتجات منتجة بكميات كبيرة من الجيل الفرعي الأول من DDR5، وهم Montage Technology وRenesas Electronics (IDT) وRambus.

اترك تعليق

انتقل إلى الأعلى