NVIDIA's Blackwell تقدم تطويرًا لـ DAC وLACC و1.6T OSFP-XD

الجيل الجديد من منصة بلاكويل

في 19 مارس 2024، كشفت NVIDIA عن جيل جديد من منصة بنية Blackwell في GTC.

تشتمل هذه المنصة الجديدة على شريحة الذكاء الاصطناعي الجديدة GB200، ومحرك Transformer من الجيل الثاني (باستخدام تقنية Blackwell Tensor الأساسية الخاصة بها لمضاعفة قدرات استدلال الذكاء الاصطناعي وأحجام النماذج)، وحل NVLink من الجيل الخامس (المصمم لتسريع تريليونات من المعلمات ونماذج الذكاء الاصطناعي المعقدة) ، قادر على ربط ما يصل إلى 576 وحدة معالجة رسومات، مما يوفر زيادة بمقدار 9 أضعاف في إنتاجية وحدة معالجة الرسومات)، ومحرك RAS (الموثوقية والتوافر وقابلية الخدمة) (تحديد الأخطاء المحتملة مبكرًا، وتقليل وقت التوقف عن العمل، وتعزيز قدرات الاسترداد والصيانة الذكية)، وخدمات الأمان الذكية ( حماية نماذج الذكاء الاصطناعي وبيانات العملاء دون المساس بالأداء العام، ودعم الجيل التالي من بروتوكولات تشفير الواجهة الأصلية المصممة خصيصًا للصناعات ذات متطلبات خصوصية البيانات العالية مثل الرعاية الصحية والتمويل).

الشكل 1: NVIDIA تكشف عن الجيل التالي من منصة Blackwell

NVIDIA تكشف عن الجيل التالي من منصة Blackwell
المصدر: https://www.nvidia.com

يعمل الجيل الخامس من NVIDIA NVLink على تحسين قابلية التوسع بشكل كبير لمجموعات كبيرة من وحدات معالجة الرسومات المتعددة، مع عرض نطاق إجمالي يبلغ 1.8 تيرابايت/ثانية لكل وحدة معالجة رسومات Blackwell أحادية النواة. يمكن لكل وحدة معالجة رسومات Blackwell Tensor Core أن تدعم ما يصل إلى 18 اتصال NVLink بسرعة 100 جيجابايت/ثانية، مما يوفر نطاقًا تردديًا إجماليًا يصل إلى 1.8 تيرابايت/ثانية. أداء عرض النطاق الترددي هذا هو ضعف أداء الجيل السابق من منتج NVIDIA H200 و14 مرة أداء تقنية PCIe 5.0. تعمل منصة الخادم GB200 NVL72 على الاستفادة من أحدث تقنيات NVIDIA من NVIDIA offتوفر قابلية توسع أكبر لنماذج الذكاء الاصطناعي الكبيرة الأكثر تعقيدًا في العالم.

الشكل 2: أداء بنية شبكة NVLink من الجيل الخامس لـ NVIDIA

أداء بنية شبكة NVLink من الجيل الخامس من NVIDIA
المصدر: https://www.nvidia.com

منصة تبديل IB الجديدة من NVIDIA Quantum-X800 التي تدعم مجموعات من آلاف البطاقات

طرحت NVIDIA أول نظام شامل في العالم 800 جرام انفيني باند منصة تبديل الشبكة، Quantum-X800، المصممة لنماذج الذكاء الاصطناعي الكبيرة بمقياس تريليون معلمة. تدعم منصة التبديل NVIDIA IB الجديدة تقنية الحوسبة داخل الشبكة القائمة على الأجهزة، وبروتوكول تقليل التجميع الهرمي القابل للتطوير SHARP v4، والتوجيه التكيفي، والتحكم في ازدحام الشبكة بناءً على المراقبة عن بعد. ويتكون من ثلاثة مكونات أساسية:

محول NVIDIA Quantum-X800 Q3400-RA 4U InfiniBand: أول محول في العالم يستخدم تقنية أحادية القناة 200 جيجابايت/ثانية مما يعزز أداء الشبكة وسرعة النقل بشكل كبير. يوفر هذا المحول 144 منفذًا بسرعة 800 جيجابايت/ثانية لكل منها، ويتم تسهيل ذلك بواسطة 72 وحدة بصرية 1.6T OSFP-XD (متصلة عبر مدير النسيج الموحد UFM من NVIDIA). من خلال الاستفادة من الأداء العالي لمحول Quantum-X800 Q3400 الجديد، يمكن لهيكل الشبكة المكون من طبقتين توصيل ما يصل إلى 10,368 بطاقة واجهة شبكة (NIC) مع زمن وصول منخفض للغاية مع الحفاظ على الحد الأقصى من محلية الشبكة. يستخدم المفتاح Q3400 نظام تبريد الهواء وهو متوافق مع الرفوف القياسية مقاس 19 بوصة؛ نفيديا أيضا offيوفر وضع التبريد السائل المتوازي Q3400-LD المناسب لرفوف 21 بوصة لمشروع الحوسبة المفتوحة (OCP).

الشكل 3: منصة تبديل IB من الجيل الجديد من NVIDIA Quantum-X800

منصة تبديل IB من الجيل الجديد من NVIDIA Quantum-X800
المصدر: https://www.nvidia.com

بطاقة واجهة الشبكة NVIDIA ConnectX-8 SuperNIC: باستخدام أحدث جيل من بنية محول الشبكة من NVIDIA، offشبكة 800 جيجابت/ثانية وعزل أداء شامل، مصمم خصيصًا لإدارة سحابات الذكاء الاصطناعي متعددة المستأجرين بكفاءة. يوفر ConnectX-8 SuperNIC سرعة نقل بيانات تبلغ 800 جيجابت/ثانية عبر PCIe 6.0، offتوفير ما يصل إلى 48 قناة نقل لمختلف التطبيقات بما في ذلك تبديل PCIe الداخلي لنظام NVIDIA GPU. بالإضافة إلى ذلك، تدعم بطاقة SuperNIC الجديدة أحدث تقنيات الحوسبة داخل الشبكة من NVIDIA، MPI_Alltoall، ومحركات الأجهزة المطابقة لعلامات MPI، بالإضافة إلى التحسينات الهيكلية مثل الخدمة عالية الجودة والتحكم في ازدحام الشبكة. يدعم ConnectX-8 SuperNIC موصلات OSFP224 أحادية المنفذ وموصلات QSFP112 ثنائية المنفذ، المتوافقة مع عوامل الشكل المختلفة بما في ذلك OCP3.0 وCEM PCIe x16. كما أنه يدعم التوسعة المساعدة NVIDIA مقبس مباشر 16 قناة.

الشكل 4: بطاقة واجهة شبكة IB الجديدة من NVIDIA ConnectX-8 SuperNIC

بطاقة واجهة شبكة IB جديدة من NVIDIA ConnectX-8 SuperNIC
المصدر: https://www.nvidia.com

كابلات وأجهزة الإرسال والاستقبال LinkX: تشتمل مجموعة منتجات التوصيل البيني لمنصة Quantum-X800 من NVIDIA على أجهزة إرسال واستقبال مع كابلات التوصيل المباشر السلبية (DAC) والكابلات النحاسية النشطة الخطية (LACC)، مما يوفر مرونة أعلى لبناء طبولوجيا الشبكة المفضلة. يشتمل حل التوصيل البيني هذا على وجه التحديد على أجهزة إرسال واستقبال اتصال أحادية الوضع 2xDR4/2xFR4 وكابلات DAC السلبية وكابلات نحاسية خطية نشطة LACC.

الشكل 5: كابلات وأجهزة الإرسال والاستقبال NVIDIA LinkX

كابلات وأجهزة الإرسال والاستقبال NVIDIA LinkX
المصدر: https://www.nvidia.com

حل نفيديا GB200 NVL72

الحل NVIDIA GB200NBL72 offيوفر زيادة في سرعة الاستدلال بمقدار 30 مرة، وزيادة في سرعة التدريب بمقدار 4 مرات، وتحسينًا في كفاءة الطاقة بمقدار 25 مرة، وتحسينًا بمقدار 18 مرة في أداء معالجة البيانات لنماذج الذكاء الاصطناعي ذات تريليون معلمة.

الشكل 6: NVIDIA تطلق حل GB200 NVL72

NVIDIA تطلق حل GB200 NVL72
المصدر: https://www.nvidia.com
  1. فيما يتعلق بأداء الاستدلال، يستخدم حل GB200 NVL72 أحدث جيل من محرك Transformer الذي يدعم FP4 AI ويستخدم الجيل الخامس من NVLink لتوفير تحسين بمقدار 30 مرة في أداء الاستدلال لنموذج اللغة الكبير (LLM) للنماذج الكبيرة ذات تريليون معلمة. إنه يحقق دقة وإنتاجية أعلى باستخدام تنسيق Tensor Core microformat الجديد وينفذ مجموعة كبيرة من وحدات معالجة الرسومات المكونة من 72 وحدة معالجة رسومات في خزانة واحدة من خلال التبريد السائل.
  2. بالنسبة لأداء التدريب، يعمل محرك Transformer من الجيل الثاني بدقة FP8 على تسريع نماذج اللغة الكبيرة وسرعات التدريب واسعة النطاق بمقدار 4x. يوفر سرعة اتصال بين GPU إلى GPU تبلغ 1.8 تيرابايت/ثانية من خلال الجيل الخامس من NVLink باستخدام شبكات تبديل InfiniBand وبرنامج NVIDIA Magnum IO.
  3. فيما يتعلق بكفاءة الطاقة، فإن GB200 NVL72 المبرد بالسائل يقلل بشكل كبير من استهلاك الطاقة في مركز البيانات. تعمل تقنية التبريد السائل على تحسين كثافة الحوسبة مع تقليل مساحة حامل الخادم، مما يتيح اتصال GPU ذو النطاق الترددي العالي وزمن الوصول المنخفض ضمن بنيات نطاق NVLink الكبيرة. بالمقارنة مع الجيل السابق من كابينة NVIDIA H100 المبردة بالهواء، فإن كابينة GB200 المبردة بالسائل توفر تحسينًا في الأداء بمقدار 25 مرة مع نفس استهلاك الطاقة مع تقليل استخدام المياه بشكل فعال.
  4. فيما يتعلق بأداء معالجة البيانات، والاستفادة من أداء الذاكرة ذات النطاق الترددي العالي في بنية NVIDIA Blackwell، وتقنية NVLink-C2C، ومحركات إلغاء الضغط المخصصة، يعزز GB200 سرعات استعلام قاعدة البيانات المهمة بمقدار 18x مقارنة بوحدات المعالجة المركزية (CPUs) مع تقليل تكاليف التكلفة الإجمالية للملكية بمقدار 5x.

الشكل 7: حل NVIDIA GB200 NVL72 مع أداء استدلالي أفضل 30 مرة وأداء تدريب أفضل 4 مرات وكفاءة طاقة أفضل 25 مرة

حل NVIDIA GB200 NVL72
المصدر: https://www.nvidia.com

تشتمل الخزانة الفردية GB200 NVL72 من NVIDIA على 9 محولات L1 NV Switch و18 عقدة حسابية. تتكون كل عقدة حسابية من درج GPU أحادي الطبقة في الخزانة، حيث يحتوي كل درج على وحدتين. تتكون كل وحدة من وحدتي معالجة رسومات Blackwell ووحدة معالجة مركزية Grace واحدة، بإجمالي 2 وحدات معالجة رسوميات لكل درج. تحتوي الخزانة على 2 عقدة حسابية (1 في الجزء العلوي و4 في النصف السفلي)، بإجمالي 18 وحدة معالجة رسوميات Blackwell و10 وحدة معالجة مركزية Grace. يحقق الأداء الحسابي 9PFLOPS (FP72)/36PFLOPS (FP1440/FP4)/720PFLOPS (INT8)، مع ذاكرة GPU بحد أقصى تبلغ 6 تيرابايت (HBM720e). تشتمل معلمات التوصيل البيني على 8 منفذ OSFP أحادي المنفذ ConnectX-13.5 VPI (400 جرام انفيني باند)، مع عدم تحديث معلمات الأداء لبطاقة الشبكة ConnectX-8 بعد. يمكن لأداء شريحة GB200 AI تحقيق 40PFLOPS (FP4)/20PFLOPS (FP8/FP6)/10PFLOPS (INT8)، مع ذاكرة GPU بحد أقصى 384 جيجابايت (HBM3e).

الشكل 8: NVIDIA تعلن عن شريحة GB200 Superchip AI

NVIDIA تعلن عن شريحة GB200 Superchip AI
المصدر: https://www.nvidia.com

NVIDIA تطلق شريحة GB200 Superchip AI

معلمات الأداء التفصيلية لشريحة NVIDIA GB200 NVL72 وGB200 AI

تحليل متطلبات بنية شبكة GB200 من الجيل التالي من NVIDIA للتوصيل النحاسي والوحدات الضوئية

يتمتع الاتصال النحاسي بمزايا فعالة من حيث التكلفة في عصر المحولات سعة 224 جيجابايت

يتمتع الاتصال النحاسي بمزايا السعر/الأداء واستهلاك الطاقة في اتجاه التجميع عالي الكثافة للمحولات والخوادم، ومن المتوقع أن يكون اتصال الكابلات النحاسية هو الحل الأفضل لمرحلة عصر المحولات بسرعة 224 جيجابت/ثانية. يكمن التغيير المهم في حل GB200 من NVIDIA في التوصيل البيني بين المحولات وعقد الحوسبة في خزانة واحدة، والاتصال الداخلي للمحولات عن طريق توصيل الكابل النحاسي بدلاً من اتصال كابل الوحدة الضوئية PCB السابق. تنقسم وصلات GB200 إلى ثلاث فئات رئيسية:

(1) اتصال بين الخزانات GB200 NVL72 (كابل خارجي): غالبًا ما تتطلب مراكز البيانات الكبيرة عددًا كبيرًا من الخزانات للحوسبة المتوازية، وإذا كانت الخزانات بحاجة إلى أن تكون متصلة بالشبكة خارجيًا، فسيتم توصيلها من خلال مفتاح TOR بكابل DAC/AOC (كما هو موضح في الشكل 10). بالنسبة لعدد كبير من الخزانات، يجب تثبيت التوصيل البيني الخارجي في الخزانة أعلى معدات الكابلات للتوصيل المنظم، غالبًا ما يكون طول الكابل طويلًا، ويكون الكابل النحاسي أكثر من 2 إلى 4 أمتار بعد عدم إمكانية تلبية متطلبات الاتصال، وبالتالي فإن التوصيل البيني لمسافات طويلة للاستخدام الرئيسي لكابلات الألياف الضوئية للاتصال، لا يمكن توصيل الكابلات النحاسية في هذا الارتباط بالكامل استبدال كابلات الألياف الضوئية.

الشكل 9: مخطط التوصيل البيني NVIDIA GB200 NVL72 بين الخزانات

مخطط التوصيل البيني NVIDIA GB200 NVL72 بين الخزانات
المصدر: https://www.nvidia.com

(2) وصلة خزانة واحدة GB200 NVL72 (الكابلات الداخلية للخزانة) - تم استبدالها جميعًا بكابلات نحاسية: في الشكل 10، يتم توصيل ثماني عقد حوسبة وتسعة محولات داخليًا من خلال الكابلات النحاسية في المنطقة الصفراء من الشكل 10، والشبكة تحل لوحة الكترونية معززة للكابل النحاسي محل الاستخدام السابق لمفاتيح TOR وعقد الحوسبة من خلال اتصال كبل الوحدة الضوئية بلوحة الكترونية معززة PCB. بالنسبة للجيل الجديد من المحولات بقناة واحدة تبلغ 224 جيجابايت/ثانية، فإن استهلاك الطاقة للوحدات الضوئية 800G/1.6T عادة ما يكون أكثر من 16 وات، وإذا كان نظام اتصال GB200 NVL72 يعتمد على الاتصال السابق للوحدات الضوئية، فإنه سوف يسبب مشاكل ارتفاع استهلاك الطاقة. تستهلك التوصيلات النحاسية طاقة أقل وتكون أكثر فعالية من حيث التكلفة من الوحدات الضوئية. كما أظهر الرئيس التنفيذي لشركة Broadcom مؤخرًا دعمًا لموقف الاتصال النحاسي: "سوف تستهلك الأجهزة الضوئية في شبكة الاتصالات الكثير من الطاقة والتكلفة، لذلك في الجيل الجديد من تطوير المحولات من Broadcom لتجنب استخدام الأجهزة البصرية، ولكن قدر الإمكان استخدام برنامج الاتصال النحاسي. لن يتم استخدام الأجهزة البصرية إلا عندما لا يتمكن النقل النحاسي من تلبية الطلب.

الشكل 10: رسم تخطيطي لاتصالات عقدة التبديل والحوسبة داخل الهيكل الفردي NVIDIA GB200 NVL72

رسم تخطيطي لاتصالات العقدة والتبديل داخل الهيكل الفردي NVIDIA GB200 NVL72
المصدر: https://www.nvidia.com

الشكل 11: مخطط لوحة الكترونية معززة للكابل النحاسي NVIDIA GB200 NVL72 وموصل لوحة الكترونية معززة

NVIDIA GB200 NVL72 لوحة الكترونية معززة للكابل النحاسي وموصل لوحة الكترونية معززة
المصدر: https://www.nvidia.com

3) مفتاح NV داخلي - باستخدام كابل نحاسي لتحقيق الاتصال من موصل اللوحة الإلكترونية المعززة إلى شريحة التبديل: بالنسبة لمحول أحادي القناة بسرعة 224 جيجابت/ثانية، كما هو موضح في الجزء الأصفر من الشكل 13، تكون مساحة لوحة PCB محدودة أيضًا، لا يكفي لتغطية المنطقة بأكملها، لذلك ليس من الممكن تحقيق اتصال الارتباط على مسافة أطول، ويمكن لطريقة العبور النحاسية تحقيق الاتصال من اللوحة الإلكترونية المعززة لتبديل الشريحة.

الشكل 12: رسم تخطيطي لحل التوصيل النحاسي الداخلي لمفتاح NVIDIA GB200 NVL72

رسم تخطيطي لحل التوصيل النحاسي الداخلي لمفتاح NVIDIA GB200 NVL72
المصدر: https://www.nvidia.com

1.6T وحدة بصرية من المتوقع أن يؤدي ذلك إلى فرص كبيرة الحجم مدفوعة بحلول GB200.

ستعمل منصة Blackwell من الجيل الجديد من NVIDIA على زيادة الطلب على الوحدات الضوئية 1.6T بمعدلات نقل أعلى. وفقًا لأداء محول Quantum-X800 Q3400-RA 4U InfiniBand الذي تم إصداره حديثًا من NVIDIA، وهو أول محول في العالم مزود بتقنية أحادية القناة 200 جيجابايت/ثانية، مما يوفر 144 منفذًا بسرعات اتصال تبلغ 800 جيجابايت/ثانية، والتي يتم تحقيقها بواسطة 72 1.6T OSFP الوحدات البصرية. لذلك، من المتوقع أن يؤدي التطبيق التدريجي للجيل الجديد من المحولات في حلول GB200 إلى زيادة الطلب على الوحدات الضوئية 1.6T.

لا تزال منصة بلاكويل في سيناريوهات تطبيق مجموعة GPU واسعة النطاق بحاجة إلى وحدات بصرية لتحقيق الاتصال البيني بين الخزانات، وسيتم الحفاظ على الطلب على الوحدات الضوئية 800G.

(1) خزانة فردية GB200 (تتوافق مع 72 وحدة معالجة رسومات): لن يتطلب الجيل الجديد من برنامج الخزانة الفردية GB200 وحدات بصرية لتحقيق التوصيل البيني.

(2) بين 1-8 مجموعات GB200 NVL72 (المقابلة لـ 72-576 وحدة معالجة رسوميات)، لا تزال هناك حاجة إلى بعض الوحدات الضوئية 800G لتحقيق الاتصال البيني بين الخزانات. إذا كانت هناك حاجة إلى نقل 20% من البيانات عبر الخزانات، فإن إجمالي عرض نطاق النقل أحادي الاتجاه NVLink البالغ 7200 جيجا بايت يتوافق مع وحدة معالجة رسومات واحدة ونسبة الطلب على الوحدة الضوئية 800 جيجا بايت تبلغ 1:2.

(3) أكثر من 8 مجموعات GB200 NVL72 واسعة النطاق (المقابلة لأكثر من 576 وحدة معالجة رسوميات)، من المتوقع تكوين شبكة InfiniBand Layer 3، وفقًا لنسبة الطلب على وحدة معالجة الرسومات والوحدات الضوئية 800G 1:2.5، و الطبقة الثانية 1:2، ومن المتوقع أن تكون نسبة الطلب الإجمالية GB200 هي 1:4.5.

اترك تعليق

انتقل إلى الأعلى