كيفية بناء مجموعة مع 128 DGX H100؟

تم تجهيز NVIDIA DGX H100، الذي تم إصداره في عام 2022، بـ 8 بطاقات شبكة ConnectX-7 أحادية المنفذ، تدعم عرض النطاق الترددي NDR 400Gb/s، ووحدتي Bluefield-2 DPU ثنائي المنفذ (3Gb/s) يمكنها دعم شبكات IB/Ethernet. . يظهر المظهر في الشكل التالي.

إدارة النظام داخل النطاق

يحتوي DGX H100 على 4 منافذ QSFP56 لشبكة التخزين وشبكة الإدارة داخل النطاق؛ بالإضافة إلى ذلك، يوجد منفذ إيثرنت 10 جيجا لإدارة نظام التشغيل عن بعد ومنفذ إيثرنت 1 جيجا لإدارة النظام عن بعد.

من شكل طوبولوجيا الشبكة الداخلية للخادم، يوجد 4 منافذ OSFP للاتصال بشبكة الحوسبة (المنافذ الأرجوانية)، والكتل الزرقاء هي بطاقات الشبكة، والتي يمكن أن تعمل كبطاقات شبكة وتلعب أيضًا دور توسيع محول PCIe ، ليصبح الجسر بين وحدة المعالجة المركزية ووحدة معالجة الرسومات.

وحدة المعالجة المركزية‏:

إذا تم اعتماد نظام التوصيل البيني لمجموعة NVIDIA SuperPOD NVLink، فسيتم ربط 32 H100 من خلال محولات NVLink الخارجية. ترتبط وحدات معالجة الرسوميات الثمانية الموجودة داخل الخادم بأربع وحدات NVSwitch، وتتوافق كل وحدة NVSwitch مع 8-4 الوحدات الضوئية OSFP، إجمالي 18 OSFP، ثم يتم توصيل OSFPs بـ 18 محول NVLink خارجي. (في الوقت الحالي، لا تحتوي أجهزة H100 المتوفرة في السوق على وحدات OSFP الـ 18 هذه) لا تناقش هذه المقالة طريقة شبكة NVLink ولكنها تركز على طريقة شبكة IB. وفقًا لوثيقة التصميم المرجعي لـ NVIDIA: في مجموعة خوادم DGX H100، تشكل كل 32 وحدة DGX H100 وحدة SU، ويتم وضع كل 4 وحدات DGX H100 في حامل منفصل (تشير التقديرات إلى أن طاقة كل حامل تقترب من 40 كيلو وات)، ويتم وضع المفاتيح المختلفة في رفين مستقلين. لذلك، تحتوي كل وحدة SU على 10 رفوف (8 لوضع الخوادم و2 لوضع المحولات). تحتاج شبكة الحوسبة فقط إلى استخدام محولات ذات طبقتين من نوع Spine-Leaf (Mellanox QM9700)، وتظهر طوبولوجيا الشبكة في الشكل التالي.

العمود الفقري

استخدام المحول: في المجموعة، تشكل كل 32 DGX H100 وحدة SU (توجد 8 محولات أوراقية في كل وحدة SU)، وهناك 4 وحدات SU في مجموعة خادم 128 H100، لذلك يوجد إجمالي 32 محولًا ورقيًا. يحتاج كل DGX H100 في SU إلى اتصال بجميع مفاتيح الأوراق الثمانية. نظرًا لأن كل خادم يحتوي فقط على 8 منافذ OSFP للاتصال بشبكة الحوسبة، بعد توصيل وحدات بصرية 4G بكل منفذ، يتم توسيع منفذ OSFP واحد إلى منفذي QSFP من خلال منفذ التوسيع، مما يحقق اتصال كل DGX H800 مع 100 مفاتيح أوراق. يحتوي كل مفتاح Leaf على 8 منفذًا للوصلة الصاعدة التي تتصل بـ 16 مفتاحًا رئيسيًا.

استخدام الوحدة الضوئية: الوحدات الضوئية 400 جيجا مطلوبة لمنافذ الوصلة الهابطة لمفتاح Leaf، والطلب هو 3284. يتم استخدام الوحدات الضوئية 800 جيجا لمنافذ الوصلة الصاعدة لمفتاح Leaf، والطلب هو 1684. يتم استخدام الوحدات الضوئية 800 جيجا لـ منافذ الوصلة الهابطة لمفتاح العمود الفقري. لذلك، في مجموعة الخادم 128 H800، يتم استخدام شبكة الحوسبة وحدات بصرية 800G 1536 و400G الوحدات الضوئية 1024.

اترك تعليق

انتقل إلى الأعلى