NVIDIA تكشف عن Blackwell B200 GPU، Quantum-X800 Q3400 InfiniBand Switch، ConnectX-8 SuperNIC

وبعد خمس سنوات، عاد حدث تكنولوجيا حوسبة الذكاء الاصطناعي الشهير عالميًا، مؤتمر NVIDIA GTC السنوي، بشكل كبير إلى التنسيق الشخصي. اليوم، ألقى المؤسس والرئيس التنفيذي لشركة NVIDIA، جنسن هوانغ، خطابًا رئيسيًا لمدة ساعتين كشف فيه عن أحدث شريحة ذكاء اصطناعي رائدة - وحدة معالجة الرسومات Blackwell.

افتتاح

خلال هذا المؤتمر، عرضت NVIDIA تأثيرًا مثيرًا للإعجاب في الصناعة من خلال الجمع بين كبار خبراء الذكاء الاصطناعي وقادة الصناعة. وشهد الحدث إقبالاً غير مسبوق حيث تجاوز عدد الحضور الشخصي عشرة آلاف. 

أكثر من عشرة آلاف حاضر شخصيًا

في 18 مارس الساعة 1:00 ظهرًا بالتوقيت المحلي (4:00 صباحًا يوم 19 مارس في بكين)، الخطاب الرئيسي الأكثر انتظارًا لـ GTC offبدأت رسميا. بعد عرض فيلم قصير عن الذكاء الاصطناعي، دخل جنسن هوانغ إلى المسرح الرئيسي مرتديًا سترته الجلدية السوداء المميزة، متفاعلًا مع الجمهور.

جنسن هوانغ

بدأ بالتأمل في رحلة NVIDIA التي استمرت 30 عامًا في تسريع الحوسبة، وتسليط الضوء على المعالم البارزة مثل تطوير نموذج الحوسبة الثوري CUDA، وتقديم أول حاسوب فائق الذكاء الاصطناعي DGX إلى OpenAI، ثم تحويل التركيز بشكل طبيعي إلى الذكاء الاصطناعي التوليدي.

رحلة NVIDIA التي استمرت 30 عامًا

وبعد الإعلان عن شراكات مهمة مع شركات EDA الرائدة، ناقش التطور السريع لنماذج الذكاء الاصطناعي التي أدت إلى زيادة الطلب على الطاقة الحاسوبية للتدريب، مشددًا على الحاجة إلى وحدات معالجة رسوميات أكبر. وذكر أن "الحوسبة المتسارعة وصلت إلى نقطة حرجة، وفقدت الحوسبة للأغراض العامة زخمها"، مسلطًا الضوء على التقدم الكبير في الحوسبة المتسارعة عبر مختلف الصناعات. بعد ذلك، ظهرت سلسلة من المكونات الرئيسية بدءًا من وحدات معالجة الرسومات والرقائق الفائقة وحتى أجهزة الكمبيوتر العملاقة والأنظمة العنقودية بسرعة على الشاشة الكبيرة قبل أن يصدر جنسن هوانغ إعلانًا رئيسيًا: شريحة الذكاء الاصطناعي الرائدة الجديدة تمامًا - وصلت وحدة معالجة الرسومات Blackwell!

لقد وصلت وحدة معالجة الرسوميات Blackwell

يتفوق هذا الابتكار الأحدث في مجال GPU على سابقه Hopper GPU من حيث التكوين والأداء. قام Jensen Huang بمقارنة وحدات معالجة الرسومات Blackwell وHopper، حيث عرض حجم Blackwell الأكبر بكثير. بعد هذه المقارنة، طمأن هوبر بطريقة فكاهية قائلاً: "لا بأس يا هوبر. أنت جيد جدًا، أيها الولد الطيب. فتاة جيدة." أداء بلاكويل استثنائي بالفعل! سواء كان ذلك FP8 أو دقة FP6 وFP4 الجديدة، جنبًا إلى جنب مع مقياس النموذج وعرض النطاق الترددي HBM الذي يمكن استيعابه - كل ذلك يتجاوز جيل Hopper السابق.

بلاكويل GPU

على مدار 8 سنوات، بدءًا من بنية Pascal وحتى بنية Blackwell، قامت NVIDIA بزيادة أداء حوسبة الذكاء الاصطناعي بمقدار 1000 مرة!

قامت NVIDIA بزيادة أداء حوسبة الذكاء الاصطناعي بمقدار 1000 مرة

هذه مجرد البداية حيث يكمن طموح Jensen Huang الحقيقي في إنشاء أقوى بنية تحتية للذكاء الاصطناعي قادرة على تحسين حسابات وحدة معالجة الرسومات على مستوى تريليون معلمة. بشكل عام، كشفت NVIDIA عن ستة إعلانات رئيسية في مؤتمر GTC لهذا العام:

  1. مقدمة لوحدة معالجة الرسومات Blackwell: زاد أداء التدريب بمقدار 2.5 مرة، وتم تحسين أداء الاستدلال الدقيق لـ FP4 بمقدار 5 مرات مقارنة بـ FP8 السابق؛ ترقية الجيل الخامس من NVLink بسرعة اتصال بيني تبلغ ضعف سرعة هوبر؛ قابلة للتطوير حتى 576 وحدة معالجة رسوميات لمعالجة اختناقات الاتصال في نماذج الخبراء المختلطة ذات تريليون معلمة.
  2. مقدمة لهندسة بلاكويل: مُحسّنة لحسابات وحدة معالجة الرسومات على مستوى تريليون معلمة؛ أطلقت محولات شبكة جديدة من سلسلة X800 بإنتاجية تصل إلى 800Gb / ثانية; قدمت شريحة GB200 الفائقة، ونظام GB200 NVL72، ونظام DGX B200، والكمبيوتر العملاق DGX SuperPOD AI من الجيل التالي.
ستة إعلانات رئيسية
  • إطلاق العشرات من خدمات الذكاء الاصطناعي المصغرة للمؤسسات التي توفر طريقة جديدة لحزم البرامج وتقديمها لسهولة نشر نماذج الذكاء الاصطناعي المخصصة باستخدام وحدات معالجة الرسومات.
  • الإعلان عن منصة حساب الطباعة الحجرية المتطورة cuLitho من TSMC وSynopsys: يعمل cuLitho على تسريع حساب الطباعة الحجرية بمقدار 40-60 مرة باستخدام خوارزميات الذكاء الاصطناعي التوليدية المحسنة لتوفير دعم كبير لتطوير عمليات 2 نانومتر والمزيد من التقدم.
  • إطلاق نموذج قاعدة الروبوت البشري Project GR00T والكمبيوتر الآلي الجديد Jetson Thor؛ ترقيات كبيرة لمنصة الروبوت Isaac تقود التطورات الاستخباراتية المتجسدة. تفاعل Jensen Huang أيضًا مع زوج من روبوتات NVIDIA الصغيرة من Disney Research.
  • التعاون مع Apple لدمج منصة Omniverse في Apple Vision Pro وتوفير Omniverse Cloud API لأدوات البرامج الرقمية الصناعية المزدوجة.

ظهور شريحة جديدة للذكاء الاصطناعي: 20.8 مليار ترانزستور، وأداء تدريبي 2.5x، وأداء استدلالي 5x

مع دخول حقبة جديدة من الذكاء الاصطناعي التوليدي، أدى النمو الهائل في متطلبات حوسبة الذكاء الاصطناعي إلى ظهور وحدة معالجة الرسوميات Blackwell، متجاوزة سابقتها وحدة معالجة الرسوميات Hopper باعتبارها النقطة المحورية في منافسة الذكاء الاصطناعي. تتم تسمية كل جيل من معماريات NVIDIA GPU على اسم أحد العلماء، وتشيد البنية الجديدة، Blackwell، بديفيد بلاكويل، أول عضو أمريكي من أصل أفريقي في الأكاديمية الوطنية للعلوم وإحصائي وعالم رياضيات متميز. كان بلاكويل معروفًا بتبسيط المشكلات المعقدة، وكان لاختراعاته المستقلة مثل "البرمجة الديناميكية" و"نظرية التجديد" تطبيقات واسعة في مختلف المجالات العلمية والهندسية.

ديفيد بلاكويل
ديفيد بلاكويل

وذكر هوانغ أن الذكاء الاصطناعي التوليدي هو التكنولوجيا المميزة لهذا العصر، وأن بلاكويل هي المحرك الذي يقود هذه الثورة الصناعية الجديدة. تتميز وحدة معالجة الرسوميات Blackwell بستة تقنيات أساسية:

الذكاء الاصطناعي التوليدي هو التكنولوجيا المميزة
  1. يُطلق عليها لقب "أقوى شريحة في العالم": يدمج 20.8 مليار ترانزستور باستخدام عملية TSMC 4NP مخصصة، باتباع مفهوم تصميم "chiplet" مع بنية ذاكرة موحدة + تكوين ثنائي النواة، وربط وحدتي معالجة رسوميات مقيدتين بقوالب الطباعة الحجرية من خلال واجهة NVHyperfuse بين الشرائح بسرعة 10 تيرابايت/ثانية لتشكيل وحدة معالجة رسومات موحدة مع ذاكرة HBM192e بسعة 3 جيجابايت، ونطاق ترددي للذاكرة يبلغ 8 تيرابايت/ثانية، وقدرة تدريب AI لبطاقة واحدة تصل إلى 20PFLOPS.
أقوى شريحة في العالم

بالمقارنة مع جيل هوبر السابق، فإن دمج بلاكويل لقالبين يؤدي إلى حجم أكبر مع 12.8 مليار ترانزستور إضافي مقارنة بوحدة معالجة الرسوميات هوبر. في المقابل، كان جهاز H100 السابق يحتوي فقط على ذاكرة HBM80 بسعة 3 جيجابايت وعرض نطاق ترددي يبلغ 3.35 تيرابايت/ثانية، بينما يتميز جهاز H200 بذاكرة HBM141e بسعة 3 جيجابايت وعرض نطاق ترددي يبلغ 4.8 تيرابايت/ثانية.

  • محرك المحولات من الجيل الثاني: الجمع بين دعم قياس الموتر الصغير الجديد وخوارزميات إدارة النطاق الديناميكي المتقدمة مع أطر عمل TensorRT-LLM وNeMo Megatron لتزويد Blackwell بقدرات استدلال الذكاء الاصطناعي بدقة FP4، ودعم الحساب المزدوج ومقياس النموذج مع الحفاظ على الدقة العالية للنماذج المختلطة الخبراء.
محرك المحولات من الجيل الثاني

وبموجب دقة FP4 الجديدة، يصل أداء الذكاء الاصطناعي لوحدة معالجة الرسومات Blackwell إلى خمسة أضعاف أداء Hopper. لم تكشف NVIDIA عن أداء أنوية CUDA الخاصة بها؛ لم يتم الكشف بعد عن مزيد من التفاصيل حول الهندسة المعمارية.

يصل أداء الذكاء الاصطناعي لوحدة معالجة الرسومات Blackwell GPU إلى خمسة أضعاف أداء Hopper
  • الجيل الخامس من NVLink: لتسريع الأداء لنماذج تريليون المعلمة والنماذج المختلطة الخبراء، الجديد NVLink يوفر لكل وحدة معالجة رسومات عرض نطاق ترددي ثنائي الاتجاه يبلغ 1.8 تيرابايت/ثانية، مما يدعم الاتصال السلس عالي السرعة بين ما يصل إلى 576 وحدة معالجة رسومات مناسبة لنماذج اللغات الكبيرة المعقدة.
الجيل الخامس من NVLink

تشتمل شريحة NVLink Switch الواحدة على 50 مليار ترانزستور باستخدام عملية TSMC 4NP، مما يربط أربع وصلات NVLink بسرعة 1.8 تيرابايت/ثانية.

تشتمل شريحة NVLink Switch الواحدة على 50 مليار ترانزستور
  • محرك راس: يتضمن Blackwell GPU محركًا مخصصًا يضمن الموثوقية والتوافر وقابلية الصيانة مع دمج الميزات على مستوى الشريحة باستخدام الصيانة التنبؤية القائمة على الذكاء الاصطناعي لتشخيص مشكلات الموثوقية والتنبؤ بها لزيادة وقت تشغيل النظام إلى أقصى حد، وتعزيز قابلية التوسع لعمليات نشر الذكاء الاصطناعي واسعة النطاق التي تعمل بشكل مستمر لأسابيع أو حتى أشهر دون انقطاع، مما يقلل من تكاليف التشغيل.
  • الذكاء الاصطناعي الآمن: تعمل إمكانات الحوسبة السرية المتقدمة على حماية نماذج الذكاء الاصطناعي وبيانات العملاء دون المساس بالأداء الذي يدعم بروتوكولات تشفير الواجهة المحلية الجديدة.
  • محرك تخفيف الضغط: دعم أحدث التنسيقات لتسريع استعلامات قاعدة البيانات وتوفير أعلى أداء لتحليل البيانات ومهام علوم البيانات. AWS، وDell، وGoogle، وMeta، وMicrosoft، وOpenAI، وOracle، وTesla، وxAI كلها جاهزة لاعتماد منتجات Blackwell. صرح ماسك، الرئيس التنفيذي لشركة Tesla وxAI، بصراحة: "في مجال الذكاء الاصطناعي حاليًا، لا يوجد شيء أفضل من أجهزة NVIDIA."

تختلف سلسلة Blackwell بشكل ملحوظ عن التركيز على أداء الشريحة الواحدة في الإصدارات السابقة، حيث تركز بشكل أكبر على الأداء العام للنظام مع تمييز غير واضح في أسماء رموز GPU حيث يشار إلى معظمها بشكل جماعي باسم "Blackwell GPU". وفقًا لشائعات السوق قبل هذا الإصدار، قد يكون سعر B100 حوالي 30,000 دولار بينما يمكن أن يصل سعر B200 إلى حوالي 35,000 دولار؛ مع الأخذ في الاعتبار استراتيجية التسعير هذه حيث ارتفعت الأسعار بأقل من 50% مقارنة بالأجيال السابقة ولكن أداء التدريب تحسن بمقدار 2.5 مرة مما يشير إلى فعالية تكلفة أعلى بشكل ملحوظ. إذا ظل التسعير مستقرًا نسبيًا مع هذه الزيادات المتواضعة في الأسعار ولكن مع تحسينات كبيرة في أداء التدريب؛ ستكون القدرة التنافسية في السوق لوحدات معالجة الرسوميات من سلسلة Blackwell هائلة.

مقدمة لمفاتيح الشبكة الجديدة وأجهزة الكمبيوتر العملاقة المزودة بتقنية الذكاء الاصطناعي المُحسّنة لحوسبة وحدة معالجة الرسومات على مستوى تريليون معلمة

تتضمن منصة Blackwell، بالإضافة إلى HGX B100 الأساسي، محول NVLink وعقد الحوسبة الفائقة GB200 ومحولات الشبكة من سلسلة X800.

منصة بلاكويل

ومن بين هذه الأجهزة، سلسلة X800 عبارة عن محول شبكة مصمم حديثًا ومصمم خصيصًا لعمليات الذكاء الاصطناعي واسعة النطاق، والتي تهدف إلى دعم مهام الذكاء الاصطناعي التوليدية على مستوى تريليون معلمة. تعد شبكة Quantum-X800 InfiniBand من NVIDIA وSpectrum-X800 Ethernet من بين أولى المنصات الشاملة في العالم بقدرات إنتاجية تصل إلى 800 جيجابت/ثانية، وتتميز بزيادة 5 أضعاف في سعة عرض النطاق الترددي للتبادل مقارنة بمنتجات الجيل السابق. تم تعزيز القوة الحسابية للشبكة بمقدار 9x من خلال تقنية SHARP من الجيل الرابع من NVIDIA، مما أدى إلى أداء حسابي للشبكة يصل إلى 14.4TFLOPS. ومن أوائل المستخدمين الذين اعتمدوا هذه التقنية هم Microsoft Azure وOracle Cloud Infrastructure وCoreweave وغيرها.

سلسلة X800 عبارة عن محول شبكة مصمم حديثًا

تم تصميم النظام الأساسي Spectrum-X800 خصيصًا للمستأجرين المتعددين، مما يتيح عزل الأداء لأحمال عمل الذكاء الاصطناعي لكل مستأجر، وبالتالي تحسين أداء الشبكة للخدمات السحابية للذكاء الاصطناعي التوليدية ومستخدمي المؤسسات الكبيرة. نفيديا offيقدم حلاً برمجيًا شاملاً بما في ذلك مكتبات اتصالات تسريع الشبكة ومجموعات تطوير البرامج وبرامج الإدارة. تم تصميم شريحة GB200 Grace Blackwell الفائقة لتكون بمثابة معالج لمهام الذكاء الاصطناعي التوليدية على نطاق تريليون معلمة. تقوم هذه الشريحة بتوصيل وحدتي معالجة رسوميات Blackwell بوحدة المعالجة المركزية NVIDIA Grace واحدة باستخدام تقنية التوصيل البيني NVLink-C900C من الجيل الخامس بسرعة 2 جيجابايت/ثانية. ومع ذلك، لم تحدد NVIDIA الطراز الدقيق لوحدة معالجة الرسومات Blackwell.

تقوم هذه الشريحة بتوصيل وحدتي معالجة رسومات Blackwell بوحدة المعالجة المركزية NVIDIA Grace واحدة

وعرض هوانغ شريحة GB200 الفائقة، مسلطًا الضوء عليها باعتبارها الأولى من نوعها التي تستوعب مثل هذه الكثافة الحسابية العالية في مساحة صغيرة، مؤكدًا على ذاكرتها المترابطة وتطوير التطبيقات التعاونية المشابهة لـ "العائلة السعيدة".

عرض هوانغ شريحة GB200 الفائقة

يمكن لكل عقدة حسابية للرقاقة الفائقة GB200 أن تحتوي على شريحتين فائقتين GB200. يمكن لعقدة تبديل NVLink واحدة أن تدعم محولي NVLink، مما يحقق إجمالي عرض النطاق الترددي يبلغ 14.4 تيرابايت/ثانية.

يمكن لكل عقدة حسابية للرقاقة الفائقة GB200 أن تحتوي على شريحتين فائقتين GB200

تشتمل عقدة حساب Blackwell على وحدتي معالجة مركزية Grace وأربع وحدات معالجة رسوميات Blackwell، مما يوفر أداء ذكاء اصطناعي يصل إلى 80PFLOPS.

تشتمل عقدة حساب Blackwell على وحدتي معالجة مركزية Grace وأربع وحدات معالجة رسوميات Blackwell، مما يوفر أداء ذكاء اصطناعي يصل إلى 80PFLOPS.

ومع تعزيز قدرات وحدة معالجة الرسومات والشبكة، أعلن هوانج عن إطلاق وحدة حوسبة جديدة - NVIDIA GB200 NVL72 - تتميز ببنية متعددة العقد، وتبريد سائل، وأنظمة على مستوى الحامل.

نفيديا GB200 NVL72

يعمل GB200 NVL72 مثل "وحدة معالجة الرسومات العملاقة"، التي تعمل بشكل مشابه لوحدة معالجة الرسومات ذات البطاقة الواحدة ولكن مع أداء تدريب AI يصل إلى 720PFLOPS وأداء استدلال الذكاء الاصطناعي يبلغ ذروته عند 1.44EFLOPS. فهو يتميز بذاكرة سريعة تبلغ 30 تيرابايت ويمكنه التعامل مع نماذج لغوية كبيرة مع ما يصل إلى 27 تريليون معلمة، مما يعمل كمكون رئيسي في أحدث DGX SuperPOD.

GB200 NVL72

يمكن تكوين GB200 NVL72 باستخدام شرائح فائقة 36*GB200 (تشمل 72*B200 وحدة معالجة رسوميات و36*Grace CPU)، مترابطة عبر تقنية NVLink من الجيل الخامس وتتضمن BlueField-3 DPU.

يمكن تكوين GB200 NVL72 بـ 36 شريحة GB200 الفائقة

أشار Jensen Huang إلى أنه لا يوجد حاليًا سوى عدد قليل من الأجهزة ذات مستوى EFLOPS المتاحة حاليًا؛ تتكون هذه الآلة من 600,000 ألف قطعة تزن 3000 رطل وتمثل “نظام EFLOPS AI داخل رف واحد”. وأشار إلى أن تدريب نماذج GPT-MoE-1.8T سابقًا باستخدام H100 كان يتطلب 90 يومًا وحوالي 8000 وحدة معالجة رسوميات تستهلك 15 ميجاوات من الطاقة؛ بينما الآن يتطلب استخدام GB200 NVL72 فقط 2000 وحدة معالجة رسومات و4 ميجاوات من الطاقة.

جي بي تي-مو-1.8T

بالنسبة لتشغيل نموذج تريليون معلمة، خضع GB200 لتحسينات متعددة الأبعاد مما أدى إلى معدلات إنتاجية رمزية فردية لوحدة معالجة الرسومات تصل إلى 30 ضعف دقة H200 FP8.

بمعدلات تصل إلى 30 مرة دقة H200 FP8

فيما يتعلق بمهام استنتاج نموذج اللغة الكبيرة، يوفر GB200 NVL72 تعزيزًا في الأداء بمقدار 30 مرة مقارنة بنفس العدد من H100s، بتكلفة 1/25 من التكلفة واستهلاك الطاقة لسابقه.

يوفر GB200 NVL72 تعزيزًا للأداء بمقدار 30 مرة

يدعم كبار موفري الخدمات السحابية مثل AWS وGoogle Cloud وMicrosoft Azure وOracle Cloud Infrastructure وغيرهم الوصول إلى GB200 NVL72. بالإضافة إلى ذلك، قدمت NVIDIA نظام DGX B200 – وهو عبارة عن منصة موحدة للحوسبة الفائقة للذكاء الاصطناعي للتدريب على نماذج الذكاء الاصطناعي، والضبط الدقيق، ومهام الاستدلال. يمثل نظام DGX B200 الجيل السادس في سلسلة DGX التي تتميز بتصميم تقليدي مثبت على حامل مع تبريد الهواء؛ يتضمن ثمانية وحدات معالجة رسوميات B200 ومعالجي Intel Xeon من الجيل الخامس يوفران أداء 144PFLOPS AI بدقة FP4 إلى جانب سعة ذاكرة GPU هائلة تبلغ 1.4 تيرابايت وعرض نطاق ترددي للذاكرة يبلغ 64 تيرابايت/ثانية، مما يتيح سرعات استدلال في الوقت الفعلي لنماذج تريليون معلمة تصل إلى خمسة عشر مرة أسرع من سابقتها. يشتمل النظام على شبكات متقدمة مع ثماني بطاقات NIC ConnectX-7 ووحدتي DPU BlueField-3 مما يوفر لكل اتصال عرض نطاق يصل إلى 400Gb / ثانية تسهيل أداء أعلى للذكاء الاصطناعي من خلال منصات Quantum-2 InfiniBand وSpectrum-X Ethernet. قدمت NVIDIA أيضًا الجيل التالي من حاسوب الذكاء الاصطناعي الفائق من فئة مراكز البيانات – DGX SuperPOD باستخدام أنظمة DGX GB200 القادرة على التعامل مع نماذج تريليون معلمة مما يضمن التشغيل المستمر لتدريب الذكاء الاصطناعي التوليدي على نطاق واسع وأحمال عمل الاستدلال. تم إنشاء هذا الجيل الجديد من DGX SuperPOD من ثمانية أنظمة DGX GB200 أو أكثر، ويتميز ببنية توسعة فعالة على مستوى الحامل مبردة بالسوائل توفر قوة حاسوبية ذكاء اصطناعي تبلغ 11.5EFLOPS بدقة FP4 إلى جانب تخزين ذاكرة سريع بسعة 240 تيرابايت والتي يمكن توسيعها بشكل أكبر من خلال الحامل. تحسينات المستوى. يحتوي كل نظام DGX GB200 على ستة وثلاثين شريحة GB200 فائقة. بالمقارنة مع وحدات H100 التي تقوم بمهام استدلال نموذج لغة كبيرة، فإن شريحة GB200 الفائقة offزيادة في الأداء تصل إلى خمسة وأربعين ضعفًا.

ويتصور هوانغ أن مراكز البيانات ستكون "مصانع ذكاء اصطناعي" مستقبلية، حيث تستعد الصناعة بأكملها لتطورات بلاكويل.

ويتصور هوانغ أن مراكز البيانات ستكون بمثابة مصانع الذكاء الاصطناعي المستقبلية

إطلاق العشرات من خدمات الذكاء الاصطناعي الصغيرة التوليدية على مستوى المؤسسات لتخصيص ونشر مساعدي الطيارين

تواصل NVIDIA توسيع مزاياها المبنية على CUDA والنظام البيئي للذكاء الاصطناعي التوليدي من خلال تقديم العشرات من خدمات الذكاء الاصطناعي التوليدية الصغيرة على مستوى المؤسسة. تتيح هذه الخدمات للمطورين إنشاء ونشر مساعدي الذكاء الاصطناعي على عمليات تثبيت وحدة معالجة الرسومات NVIDIA CUDA.

عمليات تثبيت وحدة معالجة الرسومات NVIDIA CUDA

وذكر هوانغ أن الذكاء الاصطناعي التوليدي يغير طريقة برمجة التطبيقات، ويتحول من كتابة البرامج إلى تجميع نماذج الذكاء الاصطناعي، وتحديد المهام، وتقديم أمثلة على منتجات العمل، ومراجعة الخطط، والنتائج المتوسطة. يعمل NVIDIA NIM كمرجع للخدمات الدقيقة للاستدلال من NVIDIA، والتي تم إنشاؤها من مكتبات الحوسبة السريعة من NVIDIA ونماذج الذكاء الاصطناعي التوليدية. تدعم هذه الخدمات الصغيرة واجهات برمجة التطبيقات المتوافقة مع معايير الصناعة، وتعمل على عمليات تثبيت CUDA واسعة النطاق من NVIDIA، كما تم تحسينها لوحدات معالجة الرسومات الجديدة.

وذكر هوانغ أن الذكاء الاصطناعي التوليدي يُحدث تغييرًا في طريقة برمجة التطبيقات

يمكن للشركات الاستفادة من هذه الخدمات الصغيرة لإنشاء ونشر تطبيقات مخصصة على منصاتها مع الاحتفاظ بالملكية الكاملة والتحكم في ملكيتها الفكرية. خدمات نيم الصغيرة offحاويات AI للإنتاج مسبقة الصنع مدعومة ببرنامج الاستدلال من NVIDIA، مما يتيح للمطورين تقليل أوقات النشر من أسابيع إلى دقائق. يمكن لخدمات NIM الصغيرة نشر نماذج من NVIDIA وAI21 وAdept وCohere وGetty Images وShutterstock، بالإضافة إلى نماذج مفتوحة من Google وHugging Face وMeta وMicrosoft وMistral AI وStable AI.

خدمات نيم الصغيرة

سيتمكن المستخدمون من الوصول إلى خدمات NIM الصغيرة من Amazon SageMaker وGoogle Kubernetes Engine وMicrosoft Azure AI، المدمجة مع أطر عمل الذكاء الاصطناعي الشائعة مثل Deepset وLangChain وLlamaIndex. لتسريع تطبيقات الذكاء الاصطناعي، يمكن للشركات الاستفادة من خدمات CUDA-X الصغيرة بما في ذلك NVIDIA Riva للذكاء الاصطناعي المخصص للكلام والترجمة، وNVIDIA cuOpt لتحسين المسار، وNVIDIA Earth-2 لمحاكاة المناخ والطقس عالية الدقة. من المقرر إطلاق سلسلة من خدمات NVIDIA NeMo الصغيرة لتطوير النماذج المخصصة قريبًا.

سلسلة من خدمات NVIDIA NeMo الصغيرة

يمكن للمطورين تجربة خدمات NVIDIA الصغيرة بحرية على ai.nvidia.com. يمكن للمؤسسات نشر خدمات NIM الصغيرة على مستوى الإنتاج باستخدام منصة AI Enterprise 5.0 من NVIDIA.

تطوير خوارزميات الذكاء الاصطناعي التوليدية: التعاون مع أفضل اللاعبين في صناعة أشباه الموصلات لإشعال ثورة جديدة في حوسبة الطباعة الحجرية الضوئية

في مؤتمر GTC العام الماضي، كشفت NVIDIA عن تطور رائد بعد أربع سنوات من الأبحاث السرية التي تستهدف صناعة أشباه الموصلات: الاستفادة من مكتبة الحوسبة الضوئية الضوئية cuLitho لتسريع حسابات الطباعة الحجرية الضوئية بمقدار 40-60 مرة، متجاوزة الحدود المادية لإنتاج 2 نانومتر وأكثر رقائق متقدمة. المتعاونون في هذا المشروع هم لاعبون رئيسيون في صناعة أشباه الموصلات - شركة NVIDIA العالمية العملاقة لرقائق الذكاء الاصطناعي، ومسبك أشباه الموصلات الرائد TSMC، وشركة Synopsys العملاقة في EDA.

EDA ملخص العملاق

تعد الطباعة الحجرية الحاسوبية أمرًا أساسيًا في تصنيع الرقائق. اليوم، بناءً على العمليات المتسارعة لـ cuLitho، تمت مضاعفة سرعة سير العمل من خلال خوارزميات الذكاء الاصطناعي التوليدية. على وجه التحديد، تتطلب العديد من التغييرات في عمليات تصنيع الرقاقات تصحيح القرب البصري (OPC)، مما يزيد من التعقيد الحسابي ويسبب اختناقات في التطوير. يمكن لحوسبة CuLitho المتسارعة والذكاء الاصطناعي التوليدي التخفيف من هذه المشكلات. يمكن أن يؤدي تطبيق الذكاء الاصطناعي التوليدي إلى إنشاء حلول أو أساليب قناع مثالية تقريبًا لمعالجة مشكلات حيود الضوء قبل استخلاص القناع النهائي من خلال الأساليب التقليدية الصارمة جسديًا - وبالتالي تسريع عملية OPC بأكملها بمقدار مرتين. في عمليات تصنيع الرقائق، تعد الطباعة الحجرية الحسابية هي عبء العمل الأكثر كثافة الذي يستهلك مليارات الساعات سنويًا على وحدات المعالجة المركزية. بالمقارنة مع الأساليب المعتمدة على وحدة المعالجة المركزية، فإن حساب الطباعة الحجرية الضوئية المتسارع بواسطة وحدة معالجة الرسومات من CuLitho يعزز بشكل كبير عمليات تصنيع الرقائق. من خلال تسريع العمليات الحسابية، يمكن لـ 2 نظام NVIDIA H350 أن يحل محل 100 نظام وحدة المعالجة المركزية (CPU) مما يعزز معدلات الإنتاجية بشكل كبير، ويسرع الإنتاج مع تقليل التكاليف ومتطلبات المساحة واستهلاك الطاقة. صرح رئيس TSMC، Wei Zhejia، مسلطًا الضوء على قفزة الأداء الكبيرة التي تم تحقيقها من خلال دمج الحوسبة المسرّعة بوحدة معالجة الرسومات في سير عمل TSMC، "نحن نقوم بنشر NVIDIA cuLitho في TSMC". عند اختبار cuLitho على سير العمل المشترك بين الشركتين، حققوا تسارعًا بمقدار 40,000 مرة في عمليات المنحنى وتحسينًا بمقدار 45 مرة تقريبًا في عمليات مانهاتن التقليدية.

مقدمة لنموذج قاعدة الروبوت الآلي الجديد والكمبيوتر: التحديث الرئيسي لمنصة Isaac Robot

بالإضافة إلى الذكاء الاصطناعي التوليدي، فإن NVIDIA متفائلة أيضًا بشأن الذكاء المتجسد وكشفت عن النموذج الأساسي العالمي للروبوت البشري Project GR00T والكمبيوتر الآلي الجديد Jetson Thor استنادًا إلى Thor SoC. قال جنسن هوانغ: "يعد تطوير نموذج قاعدة روبوت بشري عالمي أحد أكثر المواضيع إثارة في مجال الذكاء الاصطناعي اليوم." يمكن للروبوتات المدعومة بـ GR00T فهم اللغة الطبيعية، وتقليد تنسيق التعلم السريع، والمرونة، وغيرها من المهارات من خلال مراقبة السلوك البشري للتكيف مع العالم الحقيقي والتفاعل معه. أظهر هوانغ رينكسون كيف يمكن للعديد من هذه الروبوتات إكمال مهام مختلفة.

مشروع نموذج القاعدة العالمية للروبوت البشري GR00T

يتميز Jetson Thor ببنية معيارية محسنة للأداء واستهلاك الطاقة والحجم. تتضمن شركة SoC هذه وحدة معالجة الرسومات Blackwell من الجيل التالي مع محرك Transformer لتشغيل نماذج الذكاء الاصطناعي التوليدية متعددة الوسائط مثل GR00T. تعمل NVIDIA على تطوير منصة ذكاء اصطناعي شاملة لشركات الروبوتات البشرية الرائدة مثل 1X، وAgility Robotics، وApptronik، وBoston Dynamics، وFiger AI، وFourier Intelligence، وSanctuary AI، وUnitree Robotics، وXPENG Robotics.

بالإضافة إلى ذلك، قامت NVIDIA بإجراء ترقيات كبيرة على منصة الروبوت Isaac، بما في ذلك النماذج الأساسية للذكاء الاصطناعي التوليدي وأدوات المحاكاة والبنية التحتية لسير عمل الذكاء الاصطناعي. سيتم طرح هذه الميزات الجديدة في الربع القادم. أصدرت NVIDIA أيضًا مجموعة من نماذج الروبوتات المدربة مسبقًا والمكتبات والأجهزة المرجعية مثل Isaac Manipulator للأذرع الآلية التي تتمتع بالمرونة وقدرات الذكاء الاصطناعي المعيارية، إلى جانب سلسلة من النماذج الأساسية والمكتبات المسرّعة بوحدة معالجة الرسومات مثل Isaac Perceptor. offتوفير ميزات متقدمة مثل إعدادات الكاميرات المتعددة وإعادة البناء ثلاثي الأبعاد وإدراك العمق.

أحدث تطوير لمنصة Omniverse: التقدم إلى Apple Vision Pro، وتقديم Cloud API

أعلنت شركة NVIDIA عن دمج منصة Omniverse مع Apple Vision Pro.

أعلنت شركة NVIDIA عن دمج منصة Omniverse مع Apple Vision Pro.

ستقوم NVIDIA باستهداف التطبيقات الرقمية الصناعية المزدوجة offإيه Omniverse Cloud في شكل واجهة برمجة التطبيقات (API). يمكن للمطورين الاستفادة من واجهة برمجة التطبيقات هذه لدفق المحتوى الرقمي الصناعي التفاعلي إلى سماعات الرأس VR.

سوف نفيديا offإيه Omniverse Cloud في شكل واجهة برمجة التطبيقات (API).

من خلال الاستفادة من واجهة برمجة التطبيقات (API)، يمكن للمطورين بسهولة دمج تقنية Omniverse الأساسية مباشرةً في تطبيقات برامج التصميم والأتمتة الرقمية المزدوجة الحالية أو في سير عمل المحاكاة لاختبار الآلات المستقلة والتحقق من صحتها مثل الروبوتات أو السيارات ذاتية القيادة. يعتقد جنسن هوانغ أن جميع المنتجات المصنعة سيكون لها توائم رقمية، وأن Omniverse هو نظام تشغيل يمكنه بناء وتشغيل توائم رقمية واقعية ماديًا. ويعتقد أن "Omniverse والذكاء الاصطناعي التوليدي هما من التقنيات الأساسية اللازمة لرقمنة سوق الصناعات الثقيلة التي تصل قيمتها إلى 50 تريليون دولار".

يعد كل من الكون الشامل والذكاء الاصطناعي التوليدي من التقنيات الأساسية

يمكن استخدام واجهات برمجة تطبيقات Omniverse Cloud الخمس الجديدة بشكل فردي أو مجتمعة: USD Render (يولد عرض RTX متتبع للأشعة بالكامل لبيانات OpenUSD)، وUSD Write (يتيح للمستخدمين تعديل بيانات OpenUSD والتفاعل معها)، وUSD Query (يدعم استعلامات المشهد و المشاهد التفاعلية)، وUSD Notify (تتبع تغييرات الدولار الأمريكي وتقديم التحديثات)، وقناة Omniverse (ربط المستخدمين والأدوات والعالم للتعاون عبر المشهد).

يمكن استخدام واجهات برمجة تطبيقات Omniverse Cloud الخمس الجديدة بشكل فردي أو مجتمعة

ستكون Omniverse Cloud API متاحة على Microsoft Azure في وقت لاحق من هذا العام كواجهة برمجة تطبيقات مستضافة ذاتيًا على وحدات معالجة الرسوميات NVIDIA A10 أو كخدمة مستضافة منشورة على NVIDIA OVX.

الخلاصة: انتهى الحدث الرئيسي ولكن يجب أن يستمر العرض

بالإضافة إلى الإعلانات المهمة المذكورة أعلاه، شارك هوانغ المزيد من التطورات خلال كلمته: أطلقت NVIDIA منصة سحابية لأبحاث 6G مدفوعة بالذكاء الاصطناعي التوليدي وOmniverse لتعزيز تطوير تكنولوجيا الاتصالات اللاسلكية في قطاع الاتصالات. أصبحت منصة السحابة الرقمية المزدوجة للمناخ Earth-2 من NVIDIA متاحة الآن لعمليات المحاكاة التفاعلية عالية الدقة لتسريع التنبؤ بالمناخ والطقس. وهو يعتقد أن التأثير الأكبر للذكاء الاصطناعي سيكون في مجال الرعاية الصحية. تتعاون NVIDIA بالفعل مع شركات أنظمة التصوير ومصنعي أجهزة التسلسل الجيني وشركات الروبوتات الجراحية الرائدة أثناء تقديم نوع جديد من البرامج البيولوجية.

وهو يعتقد أن التأثير الأكبر للذكاء الاصطناعي سيكون في مجال الرعاية الصحية

وفي صناعة السيارات، ستقوم BYD، أكبر شركة للقيادة الذاتية في العالم، بتجهيز سياراتها الكهربائية المستقبلية بمعالج NVIDIA للجيل التالي من المركبات ذاتية القيادة (AV) DRIVE Thor استنادًا إلى بنية Blackwell. من المتوقع أن يبدأ DRIVE Thor الإنتاج الضخم في وقت مبكر من العام المقبل بأداء يصل إلى 1000 TFLOPS.

من المتوقع أن يبدأ DRIVE Thor الإنتاج الضخم

صرح هوانغ: "إن جوهر NVIDIA يكمن في تقاطع رسومات الكمبيوتر والفيزياء والذكاء الاصطناعي." ومع اختتام كلمته، حدد خمس نقاط رئيسية: الصناعة الجديدة، ومنصة بلاكويل، وNIMs، وNEMO، وNVIDIA AI Foundry، وOmniverse، وIsaac Robotics.

يكمن جوهر NVIDIA في تقاطع رسومات الكمبيوتر والفيزياء والذكاء الاصطناعي.

يمثل اليوم علامة فارقة أخرى حيث تدفع NVIDIA حدود أجهزة وبرامج الذكاء الاصطناعي بينما تقدم وليمة حول التقنيات المتطورة مثل الذكاء الاصطناعي والنماذج الكبيرة و metaverse والروبوتات والقيادة الذاتية والرعاية الصحية والحوسبة الكمومية.

كانت الكلمة الرئيسية التي ألقاها جنسن هوانغ هي بلا شك أبرز الأحداث في مؤتمر GTC، ولكن الإثارة كانت مثيرة للغاية off لكل من الحضور في الموقع وعن بعد!

سيتم الكشف عن أكثر من 1000 جلسة تغطي أحدث التطورات في NVIDIA والموضوعات الساخنة في التقنيات الرائدة من خلال الخطب والدورات التدريبية ومناقشات المائدة المستديرة. أعرب العديد من الحاضرين عن إحباطهم لعدم تمكنهم من حضور جميع الجلسات بسبب ضيق الوقت، لكنهم أقروا بالمنصة التي يوفرها GTC 2024 للتبادل الفني في صناعة الذكاء الاصطناعي. ومن المتوقع أن يكون لإصدار منتجات جديدة خلال هذه الفترة ومشاركة التكنولوجيا تأثير إيجابي على البحث الأكاديمي وسلاسل الصناعة ذات الصلة. وينتظر المزيد من الاستكشاف لمزيد من التفاصيل الفنية لهندسة بلاكويل الجديدة.

اترك تعليق

انتقل إلى الأعلى