تحليل أحدث أجهزة NVIDIA: B100/B200/GH200/NVL72/SuperPod

نبذة

لقد قدمنا ​​سابقًا لفترة وجيزة أحدث إصدار من وحدة معالجة الرسومات Blackwell من NVIDIA، ولكن قد يساء فهم بعض المحتوى بسهولة، مثل الغموض أو المفاهيم الغامضة في NVIDIA offمقدمة خاصة. بالإضافة إلى ذلك، فقد رأينا بعض سوء الفهم حول قدرات الجيل الجديد من وحدات معالجة الرسومات، مثل الاعتقاد بأنها تتمتع بتحسين الأداء بعشرات المرات. لذلك، قررنا تلخيص البيانات المختلفة بشكل شامل للسماح للجميع بإجراء مقارنة أكثر شمولاً وعدالة.

في هذه المقالة، قمنا بجمع معلومات الأجهزة بشكل شامل عن وحدات معالجة الرسوميات Blackwell من NVIDIA، بما في ذلك B100 وB200 وGH200 وNVL72، بالإضافة إلى SuperPod-576 وبطاقات الشبكة ConnectX-800G المقابلة ومحولات Quantum-X800 IB وSpectrum. -مفاتيح إيثرنت X800، ومقارنتها مع السلسلة السابقة. تجدر الإشارة إلى أن بعض محتوى المقال عبارة عن بيانات قمنا باستنتاجها بناءً على معلومات مختلفة، مثل الأجزاء الحمراء في بعض الجداول، وستخضع البيانات النهائية offالورقة البيضاء الرسمية (التي لم تتم رؤيتها بعد). بالإضافة إلى ذلك، لا يشمل هذا المحتوى المتعلق بالنظام البيئي للبرنامج.

تطور

أصدرت NVIDIA أحدث وحدات معالجة الرسوميات ذات بنية Blackwell في 19 مارس 2024، وأهمها وحدات معالجة الرسومات B200 وB100 وGB200، بالإضافة إلى GB200-NVL72 وGB200-SuperPod المقابلة. تظهر العلاقة بين وحدات معالجة الرسومات المختلفة في الشكل أدناه.

تطور

GPU واحد

يوضح الجدول أدناه أقوى وحدات معالجة الرسوميات في سلسلة Ampere وHopper وأحدث سلسلة Blackwell. ويمكن ملاحظة أنه يتم تعزيز الذاكرة وقوة الحوسبة وNVLink تدريجيًا. (ملاحظة: أصدرت NVIDIA أيضًا حلاً خاصًا حيث يتم توصيل إصدارين من H100 PCIe من خلال NVBridge، يسمى H100 NVL، ولكن بما أنهما لا يزالان وحدتي معالجة رسوميات، فلن تتم مناقشة التفاصيل هنا.)

A100 -> H100: زادت قوة الحوسبة الكثيفة لـ FP16 بأكثر من 3 مرات، بينما زاد استهلاك الطاقة فقط من 400 واط إلى 700 واط.

H200 -> B200: زادت قوة الحوسبة الكثيفة FP16 بأكثر من مرتين، بينما زاد استهلاك الطاقة فقط من 2 واط إلى 700 واط.

تبلغ قوة الحوسبة الكثيفة لـ B200 FP16 حوالي 7 أضعاف قوة A100، بينما يبلغ استهلاك الطاقة 2.5 مرة فقط.

تدعم وحدات معالجة الرسومات Blackwell دقة FP4، مع قوة حوسبة ضعف قوة FP8. تقارن بعض البيانات الواردة في تقارير NVIDIA قوة الحوسبة FP4 مع قوة الحوسبة FP8 الخاصة ببنية Hopper، وبالتالي فإن نسبة التسارع ستكون مبالغ فيها أكثر.

تجدر الإشارة إلى أن:

يستخدم GB200 شريحة B200 الكاملة، في حين أن B100 وB200 هما الإصداران المبسطان المقابلان.

يستخدم GB200 شريحة B200 الكاملة

خوادم HGX

HGX هو خادم عالي الأداء من NVIDIA، يحتوي عادةً على 8 أو 4 وحدات معالجة رسوميات، مقترنة عادةً بوحدات المعالجة المركزية Intel أو AMD، ويستخدم NVLink وNVSwitch لتحقيق الاتصال البيني الكامل (عادةً ما تكون 8 وحدات معالجة رسوميات هي الحد الأعلى للتوصيل البيني الكامل لـ NVLink، باستثناء NVL وسوبر بود).

من HGX A100 -> HGX H100 وHGX H200، زادت قوة الحوسبة الكثيفة FP16 بمقدار 3.3 مرة، بينما أصبح استهلاك الطاقة أقل من مرتين.

من HGX H100 وHGX H200 -> HGX B100 وHGX B200، زادت قوة الحوسبة الكثيفة FP16 بنحو 2 مرات، في حين أن استهلاك الطاقة مماثل، على الأكثر لا يزيد عن 50%.

تجدر الإشارة إلى أن:

لم تتم ترقية شبكة HGX B100 وHGX B200، ولا تزال بطاقة شبكة IB تبلغ 8x400 جيجابت/ثانية.

إتش جي إكس بي 100 و إتش جي إكس بي 200

NVL وسوبر بود

بالإضافة إلى خوادم GPU من سلسلة HGX، تمتلك NVIDIA أيضًا حلولًا للخزائن والمجموعات الكاملة، كل ذلك باستخدام أحدث حلول Grace CPU + GPU، والمتوافقة مع أنظمة التبريد السائلة. يوضح الجدول أدناه خزانات NVL وSuperPod المقابلة لبنية Hopper وبنية Blackwell.

NVL32 -> NVL72: زاد عدد وحدات معالجة الرسوميات من 32 إلى 72، وزادت قوة الحوسبة الكثيفة FP16 من 32P إلى 180P، أي ما يقرب من 6 مرات، بينما زاد استهلاك الطاقة أيضًا من 40 كيلو واط (لم يتم رؤية رقم محدد، البيانات المقدرة) إلى 120 كيلو واط ، ما يقرب من 3 مرات.

GH200 SuperPod -> GB200 SuperPod: زاد عدد وحدات معالجة الرسومات من 256 إلى 576، وزادت قوة الحوسبة الكثيفة FP16 من 256P إلى 1440P، أي ما يقرب من 6 مرات، ولم يتم العثور على استهلاك الطاقة المقابل.

يتم استخدام أحدث بطاقات الشبكة ConnectX-8 IB ذات النطاق الترددي 800 جيجابت/ثانية في NVL72 وGB200 SuperPod، بينما لا يزال HGX B100 وHGX B200 يستخدمان بطاقات الشبكة ConnectX-7 IB ذات النطاق الترددي 400 جيجابت/الثانية.

تجدر الإشارة إلى أن:

أعلنت NVIDIA أن GB200 SuperPod يتكون من 8 NVL72، في حين أن GH200 SuperPod لا يتكون من 8 NVL32.

لم تتم رؤية عدد صواني L1 NVSwitch وصواني L2 NVSwitch في GB200 SuperPod وهي بيانات تقديرية.

GB200 سوبربود

بلاكويل GPU

يستخدم كل من Blackwell GPU وH100 GPU تقنية المعالجة TSMC 4N. يحتوي H100 على 80 مليار ترانزستور، بينما تحتوي وحدة معالجة الرسوميات Blackwell على 208 مليار ترانزستور. ومع ذلك، فإن H100 عبارة عن حزمة أحادية القالب (وحدة شبه موصلة كاملة واحدة)، في حين أن وحدة معالجة الرسومات Blackwell عبارة عن حزمة متعددة القوالب تحتوي على قالبين.

تتمتع كل وحدة معالجة رسومات Blackwell GPU بحوالي 1.25 مرة من القوة الحسابية لـ H100، وتمتلك القالبتان معًا حوالي 2.5 مرة من القوة الحسابية لـ H100. ويمكن ملاحظة ذلك أيضًا من خلال عدد الترانزستورات.

ويبلغ عرض النطاق الترددي للاتصال بين القالبين 10 تيرابايت/ثانية.

تستخدم الذاكرة HBM3e، حيث يبلغ حجم كل شريحة 24 جيجابايت وحد عرض النطاق النظري 1.2 تيرابايت/ثانية، مع عرض نطاق ترددي فعلي يبلغ 1 تيرابايت/ثانية. تحتوي وحدة معالجة الرسومات Blackwell بأكملها على 8 من شرائح الذاكرة هذه.

باختصار، المواصفات الرئيسية لوحدة معالجة الرسومات Blackwell الكاملة هي:

قوة حوسبة متفرقة (قوة حوسبة كثيفة * 2):

FP16: يتخبط 5P (2*2.5P)

FP8/FP6/INT8: يتخبط 10P (2*5P)

FP4: يتخبط 20P (2*10P)

ذاكرة:

الحجم: 192 جيجابايت (8*24 جيجابايت)

عرض النطاق الترددي: 8 تيرابايت/ثانية (8 * 1 تيرابايت/ثانية)

بلاكويل GPU

جي إتش 200 و جي بي 200

GH200

إن GH200 هو مزيج NVIDIA من وحدة معالجة الرسوميات H200 التي تم إصدارها العام الماضي ووحدة المعالجة المركزية Grace. يتم إقران كل وحدة معالجة مركزية من Grace مع وحدة معالجة رسوميات H200 واحدة، ويمكن أن تحتوي وحدة معالجة الرسومات H200 على ذاكرة تصل سعتها إلى 96 جيجابايت أو 144 جيجابايت. يتم ربط وحدة المعالجة المركزية Grace ووحدة معالجة الرسوميات Hopper عبر NVLink-C2C بنطاق ترددي يبلغ 900 جيجابايت/ثانية. بالإضافة إلى HBM3e، تحتوي وحدة المعالجة المركزية Grace أيضًا على ذاكرة LPDDR480X خارجية بسعة 5 جيجابايت، على الرغم من أن عرض النطاق الترددي المقابل أقل عند 500 جيجابايت/ثانية.

GH200

GB200

على عكس GH200، يتكون كل GB200 من وحدة معالجة مركزية Grace واحدة ووحدتي معالجة رسوميات Blackwell، مما يضاعف قوة حساب وحدة معالجة الرسومات والذاكرة. لا تزال وحدة المعالجة المركزية ووحدات معالجة الرسومات متصلة ببعضها البعض بسرعة 1 جيجابايت/ثانية عبر NVLink-C2C. استهلاك الطاقة المقابل هو 900 واط.

يشتمل GB200 على ذاكرة HBM384e بسعة 3 جيجابايت وذاكرة LPDDR480X بسعة 5 جيجابايت، بإجمالي 864 جيجابايت من الذاكرة السريعة.

GB200
ذاكرة سريعة

HGX H100/H200 وHGX B100/B200

HGX H100 وHGX H200

كما هو موضح، يتمتع جهاز H200 بنفس قوة الحوسبة التي يتمتع بها جهاز H100، ولكن بذاكرة أكبر. يزداد الحد الأقصى للذاكرة لـ 8 وحدات معالجة رسومات من 640 جيجابايت إلى 1.1 تيرابايت. تبلغ قوة حساب FP16 المتفرقة لـ 8 وحدات معالجة رسومية 16P، وFP8 المتفرقة 32P. يبلغ عرض النطاق الترددي للاتصال من GPU إلى GPU 900 جيجابايت / ثانية لكليهما.

إتش جي إكس إتش 100
إتش جي إكس إتش 200

إتش جي إكس بي 100 و إتش جي إكس بي 200

يتوافق الطرازان B100 وB200 مع الطرازين السابقين H100 وH200 على التوالي، ولكن بدون وحدة المعالجة المركزية Grace، لذا يمكن استخدامهما مع وحدات المعالجة المركزية Intel أو AMD.

ذاكرة B100 وB200 أكبر من H100 وH200. الحد الأقصى للذاكرة لـ 8 وحدات معالجة رسوميات هو 1.5 تيرابايت (ملاحظة: أظهر موقع NVIDIA في البداية 1.4 تيرابايت، وهو ما لا يتطابق مع 192 جيجابايت*8، وتم تصحيحه لاحقًا إلى 1.5 تيرابايت، بينما تشير ورقة بيانات DGX B200 بوضوح إلى 1440 جيجابايت، أو 180 جيجابايت لكل وحدة معالجة رسومات).

تبلغ قوة الحوسبة لـ B100 حوالي 3/4 من B200. قوة الحوسبة المتفرقة FP16 لـ 8xB100 هي 28P، ولـ 8xB200 هي 36P، لذا فإن 8xB200 هي 2.25 مرة من 8xH100/H200. وهذا يعني أن قوة حساب FP16 المتفرقة لجهاز B200 واحد هي 4.5P. تجدر الإشارة إلى أن قوة الحوسبة الفعلية لـ B200 تبلغ 90% من B200 الكامل (في GB200).

اتش جي اكس بي 200
اتش جي اكس بي 100

تُظهر الصورة بيانات ورقة بيانات DGX B200.

ورقة بيانات DGX B200

أضافت نواة Tensor من Blackwell دعمًا لـ FP6 وFP4، وتبلغ قوة حساب FP4 ضعف قوة FP2، و8 أضعاف قوة FP4. لم تعد نوى CUDA الخاصة بـ Blackwell تدعم INT16، وبدءًا من Hopper، لم تعد تدعم INT8 أيضًا.

أضافت Tensor Cores من Blackwell دعمًا لتنسيق بيانات Microscaling، وهو ما قد يكون الطريقة التي تدعم بها FP8، وFP6، وFP4، وINT8.

تنسيق البيانات المصغر
أسماء التنسيق

الجيل الثالث من NVSwitch

يحتوي الجيل الثالث من NVSwitch على 64 منفذ NVLink، كل منها بمسارين. الحد الأقصى لعرض النطاق الترددي هو 2*64 جيجابايت/ثانية=50 تيرابايت/ثانية.

الجيل الثالث من NVSwitch

الجيل الرابع من NVSwitch

تحتوي شريحة NVSwitch على 72 منفذ NVLink، كل منها بمسارين، مع عرض نطاق ترددي ثنائي الاتجاه يبلغ 2 × 2 × 2 جيجابايت/ثانية = 200 جيجابايت/ثانية، بإجمالي 100 تيرابايت/ثانية. تتوافق روابط NVLinks بسرعة 7.2 تيرابايت/ثانية الموجودة في الصورة مع 1.8 منفذًا.

الجيل الرابع من NVSwitch

يستخدم الطرازان B100 وB200 الجيل الخامس من NVLink والجيل الرابع من NVSwitch. لا تزال كل وحدة معالجة رسومات في الطرازين B100 وB200 تحتوي على 18 رابط NVLink، ولكن تمت ترقية النطاق الترددي لكل رابط من 50 جيجابايت/ثانية على الجيل الرابع من NVLink (H100) إلى 100 جيجابايت/ثانية. لذا فإن الحد الأقصى لعرض النطاق الترددي من GPU إلى GPU لـ B100 وB200 هو 1.8 تيرابايت/ثانية.

الحد الأقصى لعرض النطاق الترددي لـ B100 وB200 هو 1.8 تيرابايت

يعمل الجيل الرابع من NVSwitch أيضًا على مضاعفة عرض النطاق الترددي لوحدة معالجة الرسومات إلى وحدة معالجة الرسومات إلى 1.8 تيرابايت/ثانية. يمكنه دعم ما يصل إلى 576 وحدة معالجة رسومات، بحد أقصى لعرض النطاق الترددي يبلغ 576*1.8 تيرابايت/ثانية = 1 بيتابايت/ثانية.

الحد الإجمالي لعرض النطاق الترددي هو 1PB.8TB=1PB

بطاقات الشبكة ومحولات الشبكة

بطاقة الشبكة ConnectX-8 InfiniBand

أصدرت NVIDIA أيضًا جيلًا جديدًا من بتقنية InfiniBand بطاقات الشبكة، ConnectX-8 (ConnectX-800G)، مع عرض نطاق ترددي للاتصالات يبلغ 800 جيجابت/ثانية. استخدم الطرازان السابقان H100 وH200 بطاقة شبكة ConnectX-7، مع عرض نطاق ترددي للاتصالات يبلغ 400 جيجابت/ثانية، بينما استخدم A100 بطاقة الشبكة ConnectX-6 مع عرض نطاق ترددي يبلغ 200 جيجابت/ثانية.

بطاقة الشبكة ConnectX-8 IB

ومع ذلك، لم تستخدم NVIDIA بطاقة الشبكة ConnectX-800G الجديدة في HGX B100/B200، وبدلاً من ذلك استمرت في استخدام الجيل السابق ConnectX-7، كما هو موضح في الصور (NVIDIA تطلق DGX SuperPOD من Blackwell لحوسبة الذكاء الاصطناعي الفائقة التوليدية في مقياس تريليون معلمة ومنصة NVIDIA Blackwell تصلان إلى مرحلة جديدة من الحوسبة).

أنظمة DGX B200
NVIDIA offهو HGX B200

بلوفيلد-3 دي بي يو/سوبر نيك

يدعم BlueField-3 اتصالات Ethernet وIB بسرعات تصل إلى 400 جيجابت/ثانية ويمكن دمجه مع مسرعات الشبكة وأجهزة التخزين، المبرمجة باستخدام NVIDIA DOCA. مع BlueField-3، هناك BlueField-3 DPU وBlueField-3 SuperNIC المطابقين. يمكن لـ BlueField-3 SuperNIC توفير الوصول المباشر للذاكرة عن بعد عبر Ethernet (RoCE) بين خوادم وحدة معالجة الرسومات بسرعات تصل إلى 400 جيجابت/ثانية، ودعم منفذ واحد بسرعة 400 جيجابت/ثانية أو منفذ مزدوج بسرعة 200 جيجابت/ثانية. الجيل السابق من BlueField-2 SuperNIC يدعم فقط منفذ واحد بسرعة 200 جيجابت/ثانية أو منفذ مزدوج بسرعة 100 جيجابت/ثانية.

بلوفيلد-3 دي بي يو
بلوفيلد-2 سوبرنيك

كوانتوم-X800 آي بي سويتش

يعد Quantum-X800 هو الجيل الجديد من محولات NVIDIA Quantum IB القادرة على تحقيق 800Gb / ثانية اتصالات شاملة مع زمن وصول منخفض للغاية، تدعم بشكل أساسي بطاقة الشبكة NVIDIA ConnectX-8. يمكن أن يوفر المحول Quantum-X800 Q3400-RA (4U) المقابل 144 منفذًا بسرعة 800 جيجابت/ثانية، كما هو موضح في الصورة، باستخدام تبريد الهواء ولكنه يدعم أيضًا التبريد السائل.

كوانتوم-X800 آي بي سويتش

محول إيثرنت Spectrum-X800

يعد Spectrum-X800 هو الجيل الجديد من محولات NVIDIA Spectrum Ethernet، بما في ذلك نوعين: SN5600 وSN5400، وكلاهما يستخدم تصميم 2U.

محول إيثرنت Spectrum-X800

كما هو موضح في الجدول، يمكن لـ SN5600 دعم ما يصل إلى 800 جيجابت / ثانية لكل منفذ، مع 64 منفذًا وعرض نطاق إجمالي يبلغ 51.2 تيرابايت / ثانية، بينما يمكن لـ SN5400 دعم ما يصل إلى 400 جيجابت / ثانية لكل منفذ، مع 64 منفذًا وإجمالي عرض النطاق الترددي عرض النطاق الترددي 25.6 تيرابايت/ثانية.

SN5600

GH200 NVL32 و GH200-SuperPod

علبة حساب GH200

يعتمد درج الحوسبة GH200 على تصميم NVIDIA MGX (حجم 1U)، مع وحدتين GH2 لكل درج حوسبة، أي 200 وحدة معالجة مركزية Grace و2 وحدة معالجة رسومات H2.

علبة NVSwitch

يحتوي الجيل الأول من NVSwitch Tray على شريحتين NVSwitch من الجيل الثالث، بإجمالي 2 منفذ NVLink وأقصى عرض نطاق للاتصال يبلغ 128 تيرابايت/ثانية.

جي إتش 200 إن في إل 32

تحتوي كل خزانة على 16 صينية حوسبة GH200 و9 أدراج NVSwitch، مما يؤدي إلى إجمالي 32 وحدة معالجة رسومات GH200 و18 محول NVSwitch. تحتوي وحدات معالجة الرسوميات الـ 32 GH200 على 32×18=576 NVLinks، ومن الناحية النظرية، ستكون هناك حاجة إلى 576/64=9 NVSwitches فقط لتحقيق الاتصال البيني الكامل، ولكن هذا التصميم يتضمن 18 NVSwitches.

جي إتش 200 إن في إل 32

GH200 سوبربود

يتكون GH200 SuperPod من 256 وحدة معالجة رسوميات GH200 في تكوين مترابط بالكامل، ولكنه لا يتكون من 8 وحدات NVL32. بدلاً من ذلك، فهي مكونة من 32 شريحة 8-Grace Hopper Superchips.

كما هو موضح في الشكل 7، تشتمل كل شريحة 8-Grace Hopper Superchip على ما يلي:

8*صواني حوسبة قادوسية (8U)، تحتوي كل منها على:

1 * وحدة معالجة الرسومات GH200

1 * بطاقة شبكة ConnectX-7 IB، 400Gb / ثانية

1*200 جيجابايت/ثانية بطاقة إيثرنت

3*صواني NVSwitch (3U)، بإجمالي 6*NVSwitches

8- جريس هوبر سوبر تشيب

تظهر اتصالات NVLink في الشكل 6، حيث يحتوي كل GH200 وكل NVSwitch على 3 اتصالات NVLink. يستخدم هذا 24 منفذًا لكل NVSwitch في هذا الاتجاه. بالإضافة إلى ذلك، يحتوي كل NVSwitch على 24 منفذًا متصلاً بـ L2 NVSwitch، ليصبح المجموع 48 منفذًا مستخدمًا لكل NVSwitch. (ملاحظة: بعض منافذ NVSwitch زائدة عن الحاجة، ومن الناحية النظرية ستكون هناك حاجة إلى 4.5 محولات NVSwitch فقط، لذلك تم اختيار 3 منافذ NVSwitch.)

اتصالات NVLink

كما هو موضح في الشكل 8، يتكون GH200 SuperPod من 32 شريحة 8-Grace Hopper Superchips. يحتوي المستوى L1 على 32 × 3 = 96 صينية NVSwitch (192 محولة NVSwitch)، ويحتوي المستوى L2 على 36 صينية NVSwitch (64 محولة NVSwitch). يحتوي كل صينية L1 NVSwitch على 24 × 2 = 48 منفذًا متصلاً بأدراج L2 NVSwitch، لذا يلزم وجود 36 صينية L2 NVSwitch.

طوبولوجيا nvlink

كما هو موضح في الشكل 12، فإن وحدات معالجة الرسومات الـ 256 GH200 مترابطة أيضًا من خلال مفتاح IB ثنائي الطبقة.

طوبولوجيا إدارة النسيج

يظهر الشكل 200 الاتصال الكامل لـ GH5 SuperPod.

اتصال كامل بـ GH200 SuperPod

GB200 NVL72 وGB200 SuperPod

علبة حساب GB200

تعتمد علبة الحوسبة GB200 أيضًا على تصميم NVIDIA MGX (حجم 1U)، حيث تحتوي كل علبة حوسبة على 2 وحدة GB200، وهي عبارة عن 2 وحدة معالجة مركزية Grace و4 وحدات معالجة رسوميات Blackwell، كما هو موضح في الصورة.

علبة حساب GB200

يدعم كل درج حساب GB200 ذاكرة سريعة بسعة 1.7 تيرابايت (ملاحظة: من المحتمل أن يكون "HBM3e" الموجود في الصورة خطأ مطبعي، ويجب أن يكون "Fast Memory"، وليس "HMB3e"). إذا كان يشير إلى الذاكرة لكل وحدة معالجة رسومات Blackwell، فيجب أن تكون 192 جيجابايت × 4 = 768 جيجابايت. من المحتمل أن يتضمن 1.7 تيرابايت 480 جيجابايت إضافية من LPDDR5X لكل جيجابايت 200، بإجمالي 768 جيجابايت + 480 جيجابايت × 2 = 1728 جيجابايت.

عقدة حساب بلاكويل
ذاكرة سريعة بسعة 1.7 تيرابايت

علبة NVSwitch

كما هو موضح في الصورة، يحتوي الجيل الجديد من NVSwitch Tray أيضًا على شريحتي NVSwitch (حجم 2U)، بإجمالي 1 منفذ NVLink (144 منفذ NVLink لكل شريحة NVSwitch). يحتوي كل منفذ على نطاق ترددي يبلغ 72 جيجابايت/ثانية، ويدعم الحد الإجمالي لعرض النطاق الترددي الذي يبلغ 100 تيرابايت/ثانية. يمكن لنظام NVSwitch من الجيل الرابع أن يدعم ما يصل إلى 14.4 وحدة معالجة رسوميات، وبالتالي يمكن أن يصل الحد الإجمالي لعرض النطاق الترددي إلى 576 * 576 تيرابايت/ثانية = 1.8 بيتابايت/ثانية. (ملاحظة: المنافذ الثمانية الموجودة في الصورة ليست منافذ NVLink، كل منها يتوافق مع 1 رابط NVLink.)

المنافذ الثمانية الموجودة في الصورة ليست منافذ NVLink، كل منها يتوافق فعليًا مع 8 رابط NVLink

يظهر أدناه نظام NVSwitch المستخدم في NVL72، والذي يحتوي على 9 صواني NVSwitch. تتوافق المنافذ الـ 72 الموجودة في الصورة مع المنافذ الموجودة في الصورة السابقة، وليس منافذ NVLink، مع نطاق ترددي يبلغ 1.8 تيرابايت/ثانية (18 × 100 جيجابايت/ثانية NVLinks).

نظام NVSwitch المستخدم في NVL72

GB200 NVL72

يحتوي جهاز GB200 NVL72 على 18 GB200 Compute Tray، لذا فهو يحتوي على 36 وحدة معالجة مركزية Grace و72 وحدة معالجة رسومات. يبلغ إجمالي ذاكرة وحدة معالجة الرسومات 72 * 192 جيجابايت = 13.8 تيرابايت، والذاكرة السريعة لوحدة المعالجة المركزية LPDDR5X هي 480 جيجابايت × 36 = 17 تيرابايت، وبالتالي فإن إجمالي الذاكرة السريعة هو 30 تيرابايت. ويتضمن أيضًا 9 صواني NVSwitch.

NVIDIA أيضًا offيحتوي على تكوين NVL36، الذي لا يزال يحتوي على 18 GB200 Compute Tray، ولكن كل صينية حوسبة تحتوي على GB200 واحد فقط، لذا فإن إجمالي 18 وحدة معالجة مركزية Grace و36 وحدة معالجة رسومات B200. تظهر قوة الحوسبة المقابلة في الصورة. لذا فإن الـ 30 تيرابايت المذكورة هي على الأرجح 13.5 تيرابايت HBM3e + 17 تيرابايت LPDDR5X.

NVIDIA أيضًا offهو تكوين NVL36

تظهر قوة الحوسبة المقابلة في الشكل أدناه:

قوة الحوسبة المقابلة

لذلك يجب أن يكون 30 تيرابايت HBM3e هنا أيضًا 13.5 تيرابايت HBM3e + 17 تيرابايت LPDDR5X:

30 تيرابايت HBM3e

GB200 سوبربود

يتكون GB200 SuperPod من 8 وحدات NVL72، بإجمالي 576 وحدة معالجة رسومات Blackwell. لتحقيق الاتصال البيني الكامل، على غرار وحدات معالجة الرسوميات 256 GH200 السابقة، يتطلب الأمر نظام NVSwitch Tray ذو مستويين (حد عرض النطاق النظري 576 * 1.8 تيرابايت/ثانية = 1 بيتابايت/ثانية):

تحتوي علبة NVSwitch من الطبقة الأولى على نصف منافذها متصلة بوحدات معالجة الرسوميات Blackwell البالغ عددها 576، لذا يلزم وجود 576 * 18 / (144/2) = 144 صينية NVSwitch (المنفذ المتبقي 144 * 72).

تحتوي صواني NVSwitch من الطبقة الثانية على جميع منافذها متصلة بمنافذ NVSwitch المتبقية من الطبقة الأولى، لذا يلزم وجود 144 * 72 / 144 = 72 صواني NVSwitch. يتم توصيل كل صينية NVSwitch من الطبقة الثانية بجميع صواني NVSwitch من الطبقة الأولى (منفذان لكل اتصال).

صواني NVSwitch من الدرجة الثانية

تحليل بيانات الأداء

أداء DGX GB200

تدعي NVIDIA أن DGX B200 (المتوافق مع HGX B200) يتمتع بتحسين 3x في أداء التدريب وتحسين 15x في أداء الاستدلال مقارنة بالجيل السابق DGX H100 (HGX H100). ومع ذلك، هذا بشروط مسبقة معينة. بالنظر فقط إلى قوة الحوسبة FP16 أو FP8 من HGX H100 إلى HGX B200، زادت قوة الحوسبة بمقدار 2.25 مرة. لكن حجم الذاكرة أكبر، وعرض النطاق الترددي للذاكرة أعلى بحوالي 2.3 مرة، كما تضاعف عرض النطاق الترددي NVLink أيضًا. لذا فإن التحسن الإجمالي بمقدار 3 أضعاف في سرعة التدريب يتماشى مع التوقعات.

أداء DGX GB200

كما هو موضح في الصورة، تم قياس سرعة التدريب 3x على أنظمة 4096 HGX B200 مقابل أنظمة 4096 HGX H100، لتدريب نموذج GPT-MoE-1.8T.

تم قياس سرعة التدريب 3x على 4096 نظام HGX B200

كما هو موضح في الصورة، تم قياس سرعة الاستدلال 15x على 8 أنظمة HGX B200 مقابل 8 أنظمة HGX H100، باستخدام نموذج GPT-MoE-1.8T للاستدلال (استدلال نموذج GPT عادة ما يكون مرتبطًا بالإدخال/الإخراج، لذا يعد عرض النطاق الترددي للذاكرة أمرًا بالغ الأهمية ؛ لدعم التزامن العالي، يعد حجم الذاكرة الكبير مهمًا أيضًا؛ وبما أن النموذج كبير، فغالبًا ما يتم استخدام استراتيجيات مثل Tensor Parallel، لذا يعد عرض النطاق الترددي NVLink أمرًا بالغ الأهمية أيضًا). لقد حققوا 3.5 رمزًا/ثانية و58 رمزًا/ثانية على التوالي. العوامل التي تؤثر على استنتاج GPT عديدة، وبالنسبة لهذين النظامين، يتم تحديد التحسينات من خلال:

  • عرض النطاق الترددي لـ VRAM (8×3.35 تيرابايت/ثانية -> 8×8 تيرابايت/ثانية)
  • حجم VRAM (8 × 141 جيجابايت -> 8 × 192 جيجابايت)
  • عرض النطاق الترددي NVLink (7.2 تيرابايت/ثانية -> 14.4 تيرابايت/ثانية)
  • تضاعفت قوة الحوسبة (16P -> 36P)
  • FP8 -> FP4 (x2)
في الوقت الحقيقي استنتاج نموذج اللغة الكبيرة

كما هو موضح في الصورة الأخيرة، قدم Jensen Huang مقارنة أكثر تفصيلاً في كلمته الرئيسية عن GTC، موضحًا أن التحسن يبلغ حوالي 3x فقط عند مقارنة B200 FP8 وH200 FP8 (مع TP، EP، DP، PP يمثل Tensor Parallel، Expert Parallel، موازية البيانات، وموازية خطوط الأنابيب). يعد التحسين باستخدام GB200 في FP4 مهمًا جدًا (على الأرجح بسبب اتصال NVLink الكامل في NVL72).

مقارنة B200 FP8 وH200 FP8

استهلاك طاقة التدريب GPT-MoE-1.8T

في كلمته الرئيسية عن GTC، ناقش Jensen Huang أيضًا استهلاك الطاقة لتدريب نموذج GPT-MoE-1.8T، مقارنة بين وحدات معالجة الرسوميات Hopper وBlackwell:

  • تبلغ قدرة خزانة NVL32 الواحدة 40 كيلووات، لذا فإن 8000 وحدة معالجة رسوميات ستكون حوالي 10 ميجاوات، بالإضافة إلى استهلاك الطاقة الأخرى، على الأرجح حوالي 15 ميجاوات.
  • تبلغ قدرة خزانة NVL72 الواحدة 120 كيلووات، لذا فإن 2000 وحدة معالجة رسوميات ستكون حوالي 3.3 ميجاوات، بالإضافة إلى استهلاك الطاقة الأخرى مثل محولات الشبكة، بإجمالي حوالي 4 ميجاوات.
8000 وحدات معالجة الرسومات
2000 وحدات معالجة الرسومات

اترك تعليق

انتقل إلى الأعلى