التوسع الخارجي مقابل التوسع الموسع: رؤى حول هياكل شبكات الذكاء الاصطناعي لعام 2028

بصفتنا شركة رائدة متخصصة في منتجات وحلول الاتصالات الضوئية، تلتزم FiberMall بتوفير خيارات فعّالة من حيث التكلفة لمراكز البيانات العالمية، والحوسبة السحابية، وشبكات المؤسسات، وشبكات الوصول، والأنظمة اللاسلكية. بفضل خبرتنا في شبكات الاتصالات المدعومة بالذكاء الاصطناعي، نُعد الشريك الأمثل لمن يبحثون عن حلول اتصالات ضوئية عالية الجودة وفعّالة من حيث القيمة. في هذه المدونة، سنتعمق في عالم بنى شبكات الذكاء الاصطناعي المتطور، مع التركيز على النقاش الرئيسي حول التوسع الخارجي مقابل التوسع الموسع. سنستكشف التوقعات لعام ٢٠٢٨، مع تسليط الضوء على اتجاهات الإنتاجية العالية، والنطاق الجذري العالي، والموثوقية العالية، وزمن الوصول المنخفض، واستهلاك الطاقة المنخفض، والتكلفة المنخفضة. لمزيد من المعلومات حول كيفية دعم FiberMall لاحتياجات شبكات الذكاء الاصطناعي لديكم من خلال الترابطات الضوئية المتقدمة، تفضلوا بزيارة موقعنا الإلكتروني الرسمي أو التواصل مع فريق دعم العملاء لدينا.

تتطور شبكات الذكاء الاصطناعي بسرعة، وفهم الفرق بين التوسع والتوسع أمرٌ بالغ الأهمية لضمان جاهزية بنيتك التحتية للمستقبل. في هذه المقالة، سنتنبأ بالمشهد لعام ٢٠٢٨، مستعينين بالاتجاهات الحالية ورؤى الخبراء. سواءً كنت تتوسع رأسيًا (التوسع) أو أفقيًا (التوسع)، فإن هذه البنى ستشكل الجيل القادم من أنظمة الذكاء الاصطناعي.

جدول المحتويات

الملخص التنفيذي: توقعات هندسة شبكات الذكاء الاصطناعي المستقبلية

سيستمر مستقبل شبكات الذكاء الاصطناعي في التطور نحو "ثلاثة مستويات عالية وثلاثة مستويات منخفضة": موثوقية عالية، وإنتاجية عالية، ونطاق ترددي مرتفع؛ وتكلفة منخفضة، وزمن وصول منخفض، واستهلاك منخفض للطاقة.

تحدث تغييرات شبكات الذكاء الاصطناعي بسرعة مذهلة. قبل عام واحد فقط، لم تكن DeepSeek محط الأنظار، لكن شبكاتها المحلية العملاقة شهدت الآن تحولات هائلة. من عام 2025 إلى عام 2028، من يدري ما هي النماذج الكبيرة الأكثر تطورًا التي ستظهر خلال تلك السنوات الثلاث؟ يُعدّ التنبؤ بمتطلبات شبكات الذكاء الاصطناعي قبل ثلاث سنوات أمرًا صعبًا. من ناحية أخرى، يستغرق تطوير رقائق تبديل الذكاء الاصطناعي دورة مدتها ثلاث سنوات، لذا يجب أن تكون لدينا رؤية واضحة لشبكات الذكاء الاصطناعي في عام 2028 لتحديد متطلبات الرقائق ومواصفاتها.

في صيف عام ٢٠٢٥، يحاول المؤلف التنبؤ باتجاهات هندسة شبكات الذكاء الاصطناعي لعام ٢٠٢٨. في هذه البيئة سريعة الوتيرة، التي يحركها الابتكار، فإن وجود أفكار أفضل من انعدامها. قد لا يكون دقيقًا تمامًا، لكن الحصول على التوجيه التقني الصحيح بشكل تقريبي هو المفتاح - يمكننا تحسينه لاحقًا.

  • التحول من الشبكات المكونة من 3 طبقات إلى الشبكات المكونة من طبقتين، مما يتيح CLOS مكون من طبقتين لـ 2 بطاقة في سكة واحدة مع طائرات متعددة.
    • شريحة التبديل 100T ذات Radix=512 تدعم 512×512/2=128,000 بطاقة.
  • تنقسم بطاقة AI-NIC بسعة 800 جيجابايت إلى منافذ متعددة لإنشاء شبكات متعددة المستويات (من ورقة DeepSeek).
    • بطاقة واجهة شبكة 800 جيجابايت مقسمة إلى 4 منافذ بسعة 200 جيجابايت، تتصل بأربعة أسطح مستقلة. محرك QP واحد يدعم 4 منافذ مع رش حزمة.
  • دمج Scale-Out وScale-Up، مما يسمح بطبقة واحدة من CLOS لـ 100,000 بطاقة (ورق Huawei UB-Mesh).
  • الوصلات البصرية 224G هي الشكل الأساسي، مع وصلات كابلات داخل الإطار وتقارب بين الإطارات.
    • ينتهي الإطار الداخلي بـ TP (الكابلات)، ويستخدم الإطار الداخلي EP (الوصلات البصرية)؛ عرض النطاق الترددي داخل الإطار/عرض النطاق الترددي للإطار = 2-4 مرات للتقارب.
    • معدل التآكل الشهري للوحدة البصرية هو 2.9%، وهو أقل موثوقية بمقدار 100 مرة من الكابلات - ويتطلب تقنيات مفتاح الصندوق الأسود لحل المشكلة.
  • الشبكات القائمة على الإطارات: التبديل بين الإطارات لمرة واحدة CLOS، 128-8,000 بطاقة.
    • تستخدم القفزة الأولى وصلات الكابلات الخلفية، مما يعزز الموثوقية بمقدار 100 مرة.
    • يمكن لعدد قليل من الإطارات استخدام back-to-back، وnD-Mesh، وTorus، وما إلى ذلك.
  • الشبكات القائمة على الصناديق: التبديل بين الصناديق لمرة واحدة CLOS، 128-1,024 بطاقة.
    • التحدي: القفزة الأولى هي الترابط البصري، مع معدل رفرفة أعلى بمقدار 100 مرة.

دمج شبكات التوسع والتوسع الخارجي:

  • الفائدة الأساسية: تحسين الموثوقية بما يزيد عن 10 مرات.
  • فوائد أخرى: مشاركة النطاق الترددي، وخفض التكاليف، وتقليل عبء العمل المتعلق بالصيانة.
  • تعتبر الروابط الضوئية أقل موثوقية بمقدار 100 مرة من الكابل، مما يتطلب تقنية ربط عالية الموثوقية على مستوى الرابط.
  • تستخدم شبكات التوسع بشكل أساسي 224G LPO/NPO؛ ويعتبر DSP ثانويًا.
    • تعتبر LPO/NPO أمرًا بالغ الأهمية لانخفاضاتها الثلاثة: أ) توفير الطاقة بنسبة 3%؛ ب) توفير زمن انتقال يبلغ 60 نانوثانية؛ ج) توفير التكاليف.
    • CPO ليس ضروريًا ويواجه مشاكل في فصل النظام البيئي. يمكن لـ LPO/NPO استبدال CPO.
  • تلتزم شبكات التوسع الخارجي بـ DSP وDPO/LRO القابلين للتوصيل كأشكال رئيسية.
    • لن يتم استخدام LPO/XPO الخالي من DSP على نطاق واسع بسبب مشكلات التشغيل البيني.
  • تتمتع الوصلات الضوئية 224G بمزايا تكلفة ضخمة مقارنة بـ 112G، مما يجعلها سائدة.
    • 50% أقل من فوتونيات السيليكون OEs، 50% أقل من الألياف، 50% أقل من موصلات الكابلات. تكلفة 224 جيجابايت لكل بت هي 2/3 من 112 جيجابايت.
    • عرض نطاق تردد SU هو 10x SO؛ ويستخدم SU معظم الوحدات الضوئية. يمكن لوحدات معالجة الرسومات المنزلية استخدام مؤقت 8:4 لتحويل 112 جيجابت من الطاقة الكهربائية إلى 224 جيجابت من الطاقة الضوئية.

ويتناول بقية المقال هذه الاستنتاجات بالتفصيل.

حالة شبكة الذكاء الاصطناعي الحالية في عام 2025: شبكات SU/SO/VPC المستقلة

يوضح الرسم التخطيطي [1] من منتدى UEC الترابطات بين الذكاء الاصطناعي وثلاث شبكات: كما يقدم هذا المستند تعريفًا لها أيضًا.

كشفت شركة Huawei CloudMatrix384 عن هيكل الشبكة الحالي لـ 910C، مع ثلاث شبكات مستقلة أيضًا: SU (LD/ST)، وSO (RDMA)، وVPC.

شبكة التوسع

يُستخدم للاستدلال والتدريب، خاصةً لحركة البيانات المتوازية لنموذج TP وحركة البيانات المتوازية لخبراء EP. يضم DeepSeek حاليًا 256 خبيرًا في MoE، ويقترح استخدام EP كبير الحجم مزود بـ 320 بطاقة للاستدلال؛ ويضم Kimi K2 384 خبيرًا؛ ويُشاع أن DeepSeek في المستقبل سيتوسع ليشمل 1,024 خبيرًا في MoE. الممثلون الحاليون: NVLink 72 بطاقة؛ Huawei CloudMatrix 384 بطاقة (كما هو موضح أدناه):

هيكل بطاقة Huawei CloudMatrix 384

شبكة التوسع الخارجي

مخصص بشكل أساسي لتدريب DP/PP المتوازي. يصل حجم التدريب الحالي إلى 100,000 بطاقة. تستخدم الشبكات AI-NIC أو بطاقة واجهة الشبكة المتكاملة في رقائق الذكاء الاصطناعي. يمكن أن يكون توزيع البيانات هرميًا: يتقارب أولًا مع ReduceScatter في العقد الفائقة، ثم ينتقل إلى Scale-Out، مما يقلل بشكل أكبر من احتياجات عرض النطاق الترددي للأنظمة الأساسية (SO). النماذج الحالية: HPN 7.0 (ورقة Sigcomm '24 [3])، وشبكة Tencent Xingmai (ورقة Sigcomm '25 [4])، وتتميز بـ: نظام تشغيل ثلاثي الطبقات (CLOS)، وثمانية قضبان، وبطاقة واجهة شبكة (NIC) بطبقتين (3x8G).

مخطط شبكة HPN 7.0

شبكة VPC

شبكة VPC عبارة عن وحدة معالجة مركزية (DPU) على وحدة معالجة مركزية (CPU) لشبكة VxLAN وما إلى ذلك، متصلة بوحدة تخزين خارجية. حاليًا، هناك ثلاث شبكات منفصلة؛ وسيتم دمجها مستقبلًا، على سبيل المثال، ثلاث شبكات في اثنتين أو ثلاث شبكات في واحدة. عادةً ما تكون شبكة DCN الحالية: TOR+Spine+Core 3-layer CLOS.

شبكة الواجهة الأمامية

مبادئ تصميم شبكات الذكاء الاصطناعي المستقبلية

مبدأ "ثلاثة ارتفاعات وثلاثة انخفاضات"

3 إيجابيات: إنتاجية عالية، وموثوقية عالية، وأساس مرتفع. 3 سلبيات: تكلفة منخفضة، زمن انتقال منخفض، طاقة منخفضة.

مبدأ محلية البيانات: يتقارب عرض النطاق الترددي للترابط تدريجيًا

صيغة تقريبية من خبراء النماذج الكبيرة: TP = 5x EP = 50x DP = 100x PP.

التنفيذ المادي:

  • عرض النطاق الترددي للرف > عرض النطاق الترددي للعقدة الفائقة > عرض النطاق الترددي للتوسع الخارجي للمجموعة.
  • ينتهي TP في الرف مع كابلات منخفضة التكلفة وأقصى نطاق ترددي.
  • ينتهي EP في عقدة فائقة مع وحدات بصرية LPO/NPO، ونطاق ترددي متوسط، وتكلفة/طاقة متوازنة.
  • DP/PP في Scale-Out، الحد الأدنى من النطاق الترددي، وأقل تكلفة. DP الهرمي: ReduceScatter في العقدة الفائقة أولاً، ثم Scale-Out.

مبدأ هندسة التبديل المبسطة: مجموعة من ثلاث طبقات إلى طبقتين؛ عقدة فائقة من طبقتين إلى طبقة واحدة

  • مجموعة SO: من 3 طبقات إلى طبقتين، طبقتين 2 بطاقة.
  • عقدة فائقة SU: من طبقتين إلى طبقة واحدة، طبقة واحدة 2 بطاقة.
  • "نواة بسيطة، حافة ذكية": مفاتيح الذكاء الاصطناعي هي أبسط ما يكون، والذكاء في حافة AI-NIC/IO-Die.
  • من غير المحتمل وجود هياكل متغيرة DF+ واسعة النطاق - فهي معقدة للغاية؛ فنظام CLOS بسيط ومرن.

رؤى حول هياكل الشبكات القابلة للتوسع بحلول عام 2028

تقترح شركة Tencent بطاقات من ثلاث طبقات إلى طبقتين، و3 بطاقة من طبقتين

إذا ظل التوسع الخارجي مستقلاً، فغيّر: من ثلاث طبقات إلى طبقتين، ثم إلى 3 بطاقة ثنائية الطبقات. هذه الفكرة من زميل في Tencent. تعتمد على مفاتيح Radix=2. تدعم شريحة 2T، المُنتجة بكميات كبيرة من هواوي، Radix=100,000 لـ 512 بطاقة ثنائية الطبقات.

الرقم الأساسي = ٥١٢: سعة CLOS ثنائية الطبقات = ٥١٢ × ٥١٢/٢ = ١٣١,٠٧٢ بطاقة. سكة واحدة، بدون سكك متعددة.

لمفاتيح 100T في بطاقات ثنائية الطبقات بسعة 2 بطاقة، كل منفذ 100,000 جيجا بايت. عرض النطاق الترددي النموذجي لتوسيع وحدة معالجة الرسومات 200 جيجا بايت، أي 800 مستويات مستقلة. تُقسّم بطاقة واجهة الشبكة (AI-NIC) حركة البيانات إلى 4 مستويات، مع موازنة تحميل لكل حزمة، حيث تُشغّل نقطة وصول واحدة 4 منافذ. سكة واحدة + مستويات متعددة، مما يُسهّل استخدام MoE all4all.

من 3 طبقات إلى 2 طبقات CLOS: توفر كل وحدة معالجة رسومية وحدتين ضوئيتين (2 إلى 6، -4%)، وتوفر المفاتيح منفذين (33 إلى 2، -5%).

256 بطاقة تصل إلى نفس المفتاح بسكة واحدة: الحد الأدنى من زمن الوصول والصراعات المرورية.

يتطلب الجذر التربيعي = ٥١٢ خلطًا سلبيًا: الحد الأدنى لحبيبات الألياف ٤ لتر، ولكن مفاتيح ١٠٠ تيرا تُخرج ٥١٢ × ٢٢٤ جيجا بايت كمقابس أحادية المسار. الحلول:

  • خلط بصري خارجي: تقاطع سلبي 4×4، خسارة 1.6 ديسيبل.
  • تبديل بصري/كهربائي داخلي. يحتوي معالج هواوي ١٠٠ تي (٢×٥٠ تي) على تبديل كابلات. يحتوي معالج إنفيديا ٤٠٠ تي سي بي أو على تبديل بصري سلبي داخلي مع ٤ شرائح ١٠٠ تي، تُخرج موصلات ٥١٢×٤ لتر، كل منها إلى ٤ مفاتيح.
مخطط الخلط الكهربائي البصري

تقترح شركة DeepSeek نظامًا متعدد المنافذ متعدد المستويات، على سبيل المثال، بطاقة شبكة 800 جيجابايت إلى 4 منافذ 200 جيجابايت

ورقة DeepSeek ISCA: مستقبل التوسع الخارجي متعدد المستويات، كل بطاقة شبكة (NIC) تصل إلى أربعة مستويات للوصلة الصاعدة. في الوضع الأمثل، يُشغّل QP واحد أربعة مستويات.

شبكة مثالية متعددة المستويات

تتناسب بطاقة NIC ذات المنافذ الأربعة هذه بشكل مثالي مع بطاقات 4 ثنائية الطبقة: ينقسم مفتاح 2T إلى منافذ 100,000x100G، و512G AI-NIC إلى 200x800G للحصول على نطاق ترددي كامل. 4 منافذ إلى 200 مستويات CLOS مستقلة، كل مستوى 4 منفذ (4GE/port).

الافتراض: يعتمد التوسع المستقبلي على توزيع الحزم، وليس على توجيه تجزئة التدفق الثابت. تُوزّع بطاقة واجهة الشبكة (AI-NIC) الحزم بشكل دوري على أربعة مستويات. يدعم جهاز الاستقبال التوزيع غير المنظم، ويستخدم بروتوكول DDP لعمليات الكتابة في الذاكرة. يتم ترتيب إكمال المصدر/الوجهة باستخدام خريطة نقطية لتأكيد جميع البيانات المُستلَمة.

ملاحظة: مع Radix=512، فإن السكك المتعددة في DeepSeek ليست ضرورية.

يزيد نظام السكك المتعددة من السعة، ولكنه غير مناسب لـ MoE all2all. يشير DeepSeek إلى أن PXN من IB إلى NVLink يستهلك 20 وحدة SM لنقل البيانات. لا يستخدم استدلال DeepEP EP144 نظام السكك المتعددة.

تقترح هواوي UB-Mesh دمج التوسع والتوسع الخارجي، و100,000 بطاقة من طبقة واحدة

يدمج نظام هواوي UB-Mesh بين التوسع الخارجي والتوسع العلوي، مما يُقلل من حجم الشبكة. ليس مجرد كلام، بل مكونات مُطورة مثل شريحة HRS 50T (512×112 جيجابت)، وهي أول شريحة في العالم تجمع بين ثلاث شبكات لشبكات SU/SO، والتي أُطلقت في اليوم الوطني 2024، وستُنتج بكميات كبيرة في 2025.

بافتراض وجود عقدة فائقة تبلغ 1,024P، أضف طبقة Scale-Out (على سبيل المثال، مفتاح UBoE RoCE): يتم التوسع إلى 1,024×128=120,000؛ 1,024×256=250,000؛ 1,024×512=500,000 بطاقة.

نطاق التوسع ١٠٠ تيرا بايت: ١٢٨، ٢٥٦، ٥١٢ على التوالي. ملاحظة: العقدة الفائقة ١٠٢٤ بطاقة إلى ٩٠٠ لوصلة صاعدة ٩:١، تفاصيل بسيطة.

رؤى حول هياكل الشبكات القابلة للتوسع بحلول عام 2028

مزايا وعيوب التبديل الموسع للعقد الفائقة القائم على الإطار

المزايا:

  • موثوقية عالية: لوحة خلفية لكابل القفزة الأولى، أكثر موثوقية بمقدار 100 مرة من الوحدات البصرية - وهو أمر بالغ الأهمية للتوسع (كررها ثلاث مرات!).
  • تقارب موقع البيانات: الربط الكهربائي داخل الإطار بنطاق ترددي عالي؛ الربط البصري بين الإطارات بتقارب 2:1 أو 4:1.
  • سهولة التدرج: ٨ إطارات = ٥١٢ بطاقة، ١٦ = ١٠٢٤. يدعم UB-Mesh ١٢٨ إطارًا = ٨٠٠٠ بطاقة، خطيًا.

العيوب:

  • العديد من صواني الكابلات، والتحديات المتعلقة بالعائد والمعالجة.
  • تتطلب الخزانات المبردة بالسائل مراكز بيانات محددة.
  • التبديل على مستويين داخل الإطار/بين الإطارات: 3 قفزات، زمن انتقال مرتفع/تكلفة عالية.

تبدأ شبكات الإطارات القابلة للتوسع بإطار NVL72، وهو مفتوح المصدر لـ OCP. أنظمة OTT المحلية (Tencent ETH-X، Alibaba ALS، ByteDance Dayu) مشابهة: أ) 8-12 لوحة شبكة؛ ب) حوالي 16 لوحة حوسبة؛ ج) لوحة خلفية لدرج الكابلات لإطار CLOS أحادي المستوى داخل الإطار؛ د) منافذ توسيع لوحة الشبكة للإطارات الداخلية (من الخلف إلى الخلف أو مفتاح L1).

  1. Tencent ETH-X: 8 إطارات = 512 بطاقة
تصميم إطار ETH-X

إطار حوسبة واحد بنظام CLOS: شريحة 50T للوحة الشبكة، 64x400G داخلية إلى 64 وحدة XPU؛ 64x400GE خارجية (32 وحدة OSFP 800G) إلى مفتاح L2. قابلية توسع جيدة، ولكنها تتطلب نظام CLOS ثنائي المستوى.

  1. خزانة بايت دانس دايو: إطار واحد ١٢٨ بطاقة، وإطاران متتاليان ٢٥٦ بطاقة، وإمكانية توسيع المستوى الثاني

من ٤ إلى ٨ لوحات شبكية، كل منها بشريحة ٥٠ تيرا بايت. ذاكرة داخلية ١٢٨×٢٠٠ جيجا بايت أو ٦٤×٤٠٠ جيجا بايت؛ ذاكرة خارجية ٦٤×٤٠٠ جيجا بايت (ذاكرة بصرية ٣٢×٨٠٠ جيجا بايت). كابلات DAC متصلة. الحد الأقصى ١٢٨ رقاقة ذكاء اصطناعي/إطار، ثنائي ٢٥٦. سهولة إضافة L4 مثل ETH-X لبطاقات ٥١٢/١٠٢٤.

  1. خزانة علي بابا ALS

من "الشراكة مع UALink، خادم Alibaba Cloud Panjiu AI Infra 2.0 يظهر لأول مرة في مؤتمر OCP العالمي لعام 2024" [8]: على غرار NVL72/ETH-X، 64-80 شريحة ذكاء اصطناعي بفضل شرائح UALink 288L/320L.

  1. هواوي UB-Mesh: 512-8,000 بطاقة

لكل ورقة UB-Mesh، يحتوي كل إطار على 64 شريحة ذكاء اصطناعي. واجهة كل شريحة UBx72: 56L لشبكة X/Y، و16L خارج الإطار لشبكة nD أو CLOS لمفتاح UB الخارجي.

السعة حسب عدد الإطارات، بحد أقصى ٨٠٠٠ إطار؛ أيضًا ٢٥٦/٥١٢/١٠٢٤ إطار، بتكلفة خطية. الفرق الوحيد: يؤثر طول الألياف على زمن الوصول (١٠٠ متر = ١ ميكروثانية RTT).

عقدة فائقة قائمة على صندوق CLOS أحادي المستوى: 512-1,024 بطاقة

عيوب الإطارات؟ الحل: شبكات الصناديق. أنظمة الذكاء الاصطناعي في دوامة: من صناديق بـ 8 بطاقات إلى إطارات بـ 64 بطاقة؛ والآن نعود إلى الصناديق.

يعرف خبراء أجهزة التوجيه: تحويل بطاقات الخطوط الستة عشر إلى صناديق مكونة من 16 صندوقًا، والألياف إلى لوحة الشبكة - وهو أمر تمت مناقشته منذ فترة طويلة، ولم يتحقق في أجهزة التوجيه ولكنه ممكن في الذكاء الاصطناعي.

فوائد التبديل: من 3 طبقات إلى طبقة واحدة، وتكلفة توصيل أقل/طاقة مقارنة بالخزانات المزدوجة المتتالية.

متقابلان: لكل وحدة معالجة رسومية منفذان للتبديل + لوحة خلفية كابلات باهظة الثمن. صندوق من مستوى واحد: منفذ واحد. "ثلاث نقاط ضعف": زمن وصول منخفض، تكلفة، طاقة.

السعة حسب أساس المفتاح المركزي: 100T=512x224GE=512 بطاقة؛ 200T=1,024x224G=1,024 بطاقة.

لماذا لا نستخدم ١٠٠ تيرا بايت إلى ١٠٢٤×١١٢ جيجابايت لبطاقات ١٠٢٤؟ هذا غير مناسب لأسباب عديدة.

العيوب: موثوقية الوحدة البصرية!

بصريات القفزة الأولى: معدل انزلاق عالي. في الإطارات، كابل القفزة الأولى؛ المفتاح يتعامل مع الانزلاقات. يتميز مفتاح الاندماج هواوي 50T SU/SO بفقدان صفري للحزم.

في الصندوق، يتعامل XPU مع اللوحات الضوئية بشكل مباشر—أكثر صعوبة:

  • لا تتمتع جميع وحدات XPU بالخبرة في اللوحات البصرية.
  • تبديل 64 منفذًا بصريًا: فقدان 1، وفقدان النطاق الترددي بمقدار 1/64. فقدان منفذ XPU واحد: تأثير كبير.
  • يختلف تبديل النسخ الاحتياطي؛ النسخ الاحتياطية المحدودة، تؤثر بشكل كبير على الأداء.

ورقة بحثية من ميتا: كابل AI-NIC إلى TOR يعزز الموثوقية بمقدار 100 مرة مقارنةً بالبصريات. أحدث رف من ميتا: لوحة خلفية لكابل القفزة الأولى SU/SO.

الحالة الأولى: خلل/أعطال بصرية، معدل أعطال الكابلات ١٠٠ ضعف؛ يستخدم القطاع الكابلات كلما أمكن

يجب أن تحل الترابطات الضوئية فائقة العقدة مشكلة الموثوقية: فقدان الحزمة الضوئية (بما في ذلك اللوحات) 100x+ لوحة خلفية للكابل. بيانات OCP [11]:

البصريات والهندسة الكهربائية والميكانيكية

الأخطاء البصرية: 1) فشل الوحدة (90٪ ليزر)؛ 2) رفارف الوصلة (الأوساخ من البناء، الانحناء).

تاريخ:

  • فشل الرابط: HPN7.0: 0.057% NIC-ToR شهريًا.
  • اللوحات: OCP أعلى بمقدار 50-100x؛ خذ 50x=2.9% شهريًا.

متوافق مع الخبرة.

بطاقة NVLink الضوئية NVIDIA GH200، 256 بطاقة - غير مستخدمة؛ كابل AWS المستخدم 32 بطاقة. من المحتمل وجود مشكلة في موثوقية البطاقة الضوئية.

عقدة فائقة مكونة من 512 بطاقة: كل بطاقة 32 لتر من الألياف = 8 × 400 جيجابايت DR4.

LD/ST حساس للخسارة؛ التراجع عن نقطة التفتيش لمدة 20 دقيقة أمر غير مقبول.

UALink: كابل بحد أقصى 4 إطارات، ولا يوجد كابل بصري حتى الآن.

التوسع: تغطي إعادة إرسال نهاية RDMA (20 ثانية) 1-4 ثوانٍ من اللوحات عبر العودة إلى الخلف-N.

الحالة الثانية: هواوي CloudMatrix2 وUB-Mesh تتصدران قائمة الموثوقية البصرية

كابل NVIDIA NVL72/NVL576. بصري في وضع التوسع: واجه ضعفًا في الموثوقية بمقدار 100 مرة.

SU LD/ST لا توجد طبقة نقل كاملة؛ أغطية رئيسية. حلول هواوي المنهجية: تقليل الأعطال أكثر من ١٠٠ مرة، مطابقة/تجاوز الكابل.

CloudMatrix384: 6,912 وحدة (5,376 عقدة فائقة). 2.9% من التعديلات: 155/شهريًا=5.2/يوميًا.

الحلول: وحدات Nebula AI عالية الكفاءة، وتبديل Flex Packet-Routing 0-loss، وبرنامج NPU.

توجيه حزمة Flex (في شريحة UB-Mesh سعة 50T: 512x112G، اندماج ثلاثي، إصدار في عام 2024، انتشار واسع النطاق في عام 2025): مصافحة خاصة L1/L2 للرفارف/الأخطاء=0 خسارة.

مشاركة الحمل: 64 ألياف تفقد 1، رش الحزمة إلى 63 عبر جميع L1s - خسارة 1/64، وحدة المعالجة العصبية غير مدركة.

كابل القفزة الأولى لوحدة NPU إلى L1: لا يشعر بأي تشويش بصري، ويتميز بالموثوقية العالية.

أنظمة الصندوق: NPU البصري المباشر = يصبح L1؛ المرونة في IO-die - تعقيد أعلى.

لماذا دمج توسيع النطاق وتوسيع النطاق الخارجي؟ الميزة الرئيسية: موثوقية أعلى بعشر مرات

أول دمج ثلاثي من هواوي: دمج UB-Mesh SO/SU، 50T HRS، إنتاج ضخم. UALink/SUE ليس متوفرًا بعد؛ NVLink أقدم، بدون دمج.

الفوائد :

  • توحيد عرض النطاق الترددي SU/SO: توحيد أوراق DeepSeek لتجنب نقل بيانات 20 SM.
  • دمج الشبكات: انخفاض التكلفة والصيانة.
  • تعزيز موثوقية SO بمقدار 10 أضعاف+: إعادة استخدام كابل SU+L1/L2 عالي الموثوقية.

أمثلة:

  • كابل القفزة الأولى ETH-X: بصري 100x.
    • وحدة SO مستقلة ذات طبقتين 2 كيلو أوم: وصلة NIC الضوئية الصاعدة—100x فشل (ليزر)، 10x رفرف.
  • لوحة الشبكة ETH-X 64 البصرية: فقدان 1 = 1.6٪ من النطاق الترددي.
    • SO مستقل: 800G NIC 4x200G=3+1 نسخة احتياطية، فقدان 1=25%؛ منفذ مزدوج=50%.

يدعم UB-Mesh الدمج أو الانفصال؛ حتى دمج VPC+SO. اختيار العميل.

أفضل المنظمات غير الربحية/المنظمات غير الربحية للشركات الناشئة

تحليلات ما بعد CloudMatrix384: طاقة وحدة عالية. الكمية: وحدة معالجة رسومية منزلية 32x112G = 4x800G طرفية + 4 مفاتيح.

DPO 800G=15 واط، 8x=120 واط. LPO=6 واط، 8x=48 واط.

مقابل معالج XPU بقوة ١٢٠٠ واط: ٤-١٠٪ - نسبة عالية؟ يعتمد ذلك على.

إنخفض مؤشر أسعار المنتجين إلى 4%، وهو أمر ذو مغزى.

2028: تضاعف الترابط بين وحدات معالجة الرسوميات؛ LPO/NPO أمر بالغ الأهمية لتقليل الطاقة.

عرض: منظمة LPO/NPO مثالية للتوسع بحلول عام 2028 من خلال "3H3L":

  • تكلفة منخفضة: إزالة oDSP يوفر حوالي 100 دولار/العلامة البيضاء (3nm oDSP باهظ الثمن).
  • طاقة منخفضة: oDSP 10%؛ LPO 4%.
  • زمن انتقال منخفض: لا يوفر oDSP 60ns/الاتجاه؛ RTT 4 روابط = 240ns.
  • الموثوقية: درجة حرارة أقل بمقدار 10 درجات مئوية تضاعف الموثوقية. 800G LPO 6W مقابل oDSP 15W؛ 1.6T LPO ~10W مقابل 25W.

التغلب على عيوب LPO/NPO في SU:

  • ضعف التوافق: حلقة مغلقة داخل العقدة الفائقة، بائع واحد.
  • BER 1-2 أسوأ من حيث الترتيب: إعادة الإرسال على مستوى رابط SU؛ التصحيح اللاحق 1E-10 كافٍ.

تظل وحدات DSP القابلة للتوصيل متاحة على نطاق واسع

وحدات DSP (800G/1.6T) شائعة في SO. عيوب LPO/NPO الصعبة في SO: نطاق واسع (100 ألف بطاقة)، ​​بائعون متعددون؛ مسافات طويلة بدون إعادة إرسال على مستوى الرابط (مخازن مؤقتة كبيرة)، احتياجات أعلى لمعدل خطأ البتات (BER).

يوفر LRO 50% من طاقة DSP، ويوفر توافقًا/BER أفضل من LPO—يناسب SO 2028.

تتعاون هواوي لتوفير خدمات بصرية عالية الدقة ومنخفضة الطاقة ومنخفضة زمن الوصول.

معدل 224 جيجابايت يتفوق على معدل 112 جيجابايت بحلول عام 2028

شرائح إيثرنت 100T: 1,024L112G أو 512L224G. 2028: أيهما أكثر فعالية من حيث التكلفة؟

1.6T=8x224G; 800G=8x112G.

اليوم: 1.6T >2x800G السعر. 112G سعر معقول الآن.

توقعات 2028-30: 1.6 تريليون = 1.2-1.4 × 800 جيجا بايت (LPO/DSP). ميزة واضحة. 1.6 تريليون توفر 1,000 يوان صيني مقابل 2 × 800 جيجا بايت؛ نظام 100 تريليون: 1,000 × 64 = 64,000 يوان صيني.

إضافة ألياف مزدوجة لـ 112G. فوز 224G. 2028: من المحتمل أن تكون 1,024x224G=200T من الرقائق، وليس 112G.

وحدات معالجة الرسومات المحلية ٢٠٢٤ ١١٢ جيجابايت؟ لا مشكلة: ٩١٠B/C ٥٦ جيجابايت، لكن مفتاح ٥٠T ٥١٢ × ١١٢ جيجابايت. مُؤقت DSP ٨:٤ يُحوّل ٨ × ١١٢ جيجابايت إلى ٤ × ٢٢٤ جيجابايت.

تتعايش العقد الفائقة للصندوق والإطار

معاملبطاقة واجهة معيارية (شبكة هيكل مكونة من 64 بطاقة)العقدة الفائقة الموزعة (شبكات الكم المكونة من 8 بطاقات)
تبديل المستوياتCLOS ذو مستويينCLOS ذو مستويين
عدد منافذ التبديل1:31:1
كمية الوحدة البصرية1.21.2
مقارنة تكلفة الربط20%10%
كمونمنخفض (مفتاح قفزة واحدة)عالي (مفتاح 3 قفزات)
الموثوقيةعالي. تستخدم وحدة معالجة الرسومات (GPU) كابل طاقة بنصف شريحة شبكة؛ عند تعطل المحول، يتطلب الأمر إعادة توصيل مدخلات ومخرجات وحدة معالجة الرسومات (GPU) لمعالجة فصل المنافذ الضوئية. مع ذلك، توجد مشكلة في استبدال المحول.ضعيف. يتطلب إدخال وإخراج وحدة معالجة الرسومات (GPU) إعادة الاتصال للتعامل مع فصل المنافذ الضوئية.
حملحمولة عالية تصل إلى 8,000 بطاقةمنخفض التكلفة ويدعم تبريد الهواء
العقدةتكلفة عالية، وتتطلب غرفة تبريد سائلةمقياس صغير، يصل إلى 512 بطاقة

الصندوق: زمن انتقال منخفض/تكلفة/طاقة. 32 لتر/وحدة معالجة الرسومات: إطار 20% من تكلفة النظام؛ الصندوق 10%.

الإطار: مقياس أكبر، وموثوقية أفضل.

٢٠٢٨: كلاهما يتعايشان. يُفضّل الكثيرون الإطار لضمان موثوقية الكابل الداخلي.

المناقشات التي أجراها الخبراء: إذا تم حل مشكلة موثوقية LD/ST للغطاء البصري، فانتقل إلى الصندوق؛ وإلا فانتقل إلى الإطار.

يدعم UB كلا النظامين، ويتفوق في الصناديق بفضل تآزره مع الشبكة النهائية للوحات بدون خسائر. تكلفة تقسيم الصناديق (من ٢٠٪ إلى ١٠٪) جذابة.

في الختام، يدور الجدل حول توسيع النطاق أو توسيعه في شبكات الذكاء الاصطناعي لعام ٢٠٢٨ حول الموازنة بين الموثوقية والأداء والتكلفة. يركز توسيع النطاق على اتصالات كثيفة وموثوقة داخل العقدة الفائقة، بينما يُتيح توسيع النطاق توسعًا أفقيًا هائلًا. تقدم Fusion أفضل ما في كلا الجانبين. في FiberMall، نتصدر هذه الاتجاهات بحلولنا البصرية المصممة خصيصًا للذكاء الاصطناعي. تفضل بزيارة موقعنا الإلكتروني للاطلاع على تفاصيل وحدات LPO/NPO 2028G والمزيد.

انتقل إلى الأعلى