إيثرنت أو إيثرنوت؟

دراسة استقصائية لمواقع شبكة الذكاء الاصطناعي الخاصة بالموردين الرائدين في يوليو 2023، تم إنشاء اتحاد Ultra Ethernet (UEC)، الذي أنشأته مؤسسة Linux ومؤسسة التطوير المشتركة التابعة لها. offتم إطلاقها رسميًا، مما أدى إلى إسقاط شحنة عميقة في النظام البيئي المضطرب للتوصيل البيني لشبكة الذكاء الاصطناعي. في أغسطس 2023، في منتدى IEEE Hot Interconnects (HOTI) الدولي، والذي يركز على بنيات الأجهزة والبرامج المتقدمة وتطبيقات شبكات التوصيل البيني المختلفة، شارك ممثلون من Intel وNvidia وAMD وشركات أخرى في حلقة نقاش حول مسألة " EtherNET أو EtherNOT"، وأعربوا عن آرائهم بشأن شبكة Ethernet. تعمل أعباء عمل الذكاء الاصطناعي/تعلم الآلة الناشئة على زيادة الطلب على التوصيل البيني للشبكات عالي الأداء. منذ حوالي عشر سنوات، قدمت RDMA عبر شبكة إيثرنت المتقاربة (RoCE) نقل البيانات بزمن وصول منخفض إلى بنية إيثرنت، ولكن بالمقارنة مع تقنيات الشبكات الأخرى، بدا أن إيثرنت متخلفة في تطوير التكنولوجيا. هل تعود المعركة بين EtherNET وEtherNOT مرة أخرى؟ في عصر الإيثرنت، لدى بائعي الخدمات السحابية وبائعي المعدات والأطراف الأخرى اهتماماتهم، وهي فترة حاسمة لاتخاذ القرار. كيف سيختارون؟

وقد سبق أن تمت مناقشة موضوع "EtherNET أو EtherNOT" هذا في مؤتمر HOTI عام 2005، وكانت الخلاصة في ذلك الوقت كما يلي:

إيثرنت أو إيثرنوت

في مناقشة مؤتمر HOTI لعام 2023، فضل براد بوريس، كبير الباحثين ومهندس الأجهزة الرئيسي لمجموعة Network and Edge Group في Intel، وفرانك هيلمز، مهندس نظام GPU لمركز البيانات في AMD، شبكة Ethernet. يرى براد بوريس أنه بغض النظر عن التكنولوجيا المعتمدة، هناك حاجة إلى نظام بيئي مفتوح لتقليل تكلفة الصناعة بأكملها وتحقيق البنية التحتية البرمجية المطلوبة. ومع نضوج البروتوكول، ستكون شبكة Ethernet هي الفائز ما لم تظهر بنية قياسية مفتوحة أخرى على الفور (مثل CXL). أدرج فرانك هيلمز المراكز الأول والثاني والخامس في قائمة الحواسيب العملاقة العالمية TOP500، وهي Frontier وAurora وLUMI على التوالي، والتي تعتمد جميعها على بنية شبكة HPE Cray Slingshot-11 المستندة إلى Ethernet للاتصال. وأعرب عن اعتقاده بأن شبكة إيثرنت هي في طليعة تكنولوجيا الربط البيني. يعكس ظهور UEC (Ultra Ethernet Alliance) أيضًا أن هناك الكثير من الطلب المكبوت على Ethernet من أجل التوصيل البيني لمجموعة تدريب الذكاء الاصطناعي على نطاق واسع. يعتقد لاري دينيسون، مدير أبحاث الشبكات في NVIDIA، أنه لا تزال هناك فجوة بين Ethernet وتلبية احتياجات أعباء عمل الذكاء الاصطناعي. إذا كانت شبكة Ethernet تلبي كل هذه الاحتياجات، فهل تظل شبكة Ethernet؟ كم من الوقت يمكن تحقيقه؟ إن سوق Ethernet ضخم بالفعل، ولن يختفي، ولكن في السنوات القليلة المقبلة، لن تتمكن سرعة تطوير Ethernet من تلبية احتياجات هذا السوق. وأشار تورستن هوفلر، الأستاذ في ETH Zurich ومستشار مايكروسوفت في مجال الذكاء الاصطناعي والشبكات واسعة النطاق، إلى أن شبكة Ethernet هي حاضر ومستقبل مراكز البيانات وأجهزة الكمبيوتر العملاقة، ولكن ليست شبكة Ethernet التي نتحدث عنها الآن، تحتاج شبكة Ethernet لتطوير.

البيئة المفتوحة or قبضة الباعة في؟

تاريخيًا، كانت InfiniBand وEthernet تتنافسان على الهيمنة على سوق الذكاء الاصطناعي/الحوسبة عالية الأداء، حيث أنهما معياران مفتوحان. ومع ذلك، يتمثل الاختلاف الرئيسي في أن InfiniBand مدعوم حاليًا من Nvidia كمورد واحد، بينما تتمتع Ethernet بدعم متعدد البائعين، مما يعزز نظامًا بيئيًا حيويًا وتنافسيًا. ومع ذلك، حتى في مجال حلول شبكات AI/HPC، قد تأتي حلول Ethernet بملصق "مخصص جزئيًا"، مما قد يؤدي إلى تقييد البائع.

على سبيل المثال، يتطلب محول Jericho3 Ethernet من Broadcom أن يستخدم نسيج الشبكة بالكامل نفس شريحة التبديل عند التشغيل في وضع "النسيج المجدول بالكامل" عالي الأداء. يواجه محول Cisco's Silicon One ومفتاح Nvidia's Spectrum-X أيضًا مواقف مماثلة - فقد تتسبب متطلبات الأداء العالي في تقييد البائع. قامت بعض المؤسسات كبيرة الحجم بتصميم بطاقات NIC "مخصصة"، والتي يمكن أن تؤدي أيضًا إلى شبكات مخصصة. لذلك، حتى عند اختيار حلول Ethernet، قد يواجه المرء تطبيقات مخصصة وتقييد البائع. قد تنتقل شبكات AI/HPC إلى معيار نقل جديد ومفتوح وأكثر قوة، لتحل محل بروتوكول ROCEv2 RDMA جزئيًا أو كليًا، وهي الرؤية التي يسعى تحالف Beyond Ethernet إلى تحقيقها.

جرد تكنولوجيا الشبكات AI/ML

كيف يختار البائعون ذوو النطاق الواسع تقنيات شبكة الذكاء الاصطناعي/تعلم الآلة الخاصة بهم؟ هل هو إيثرنت أم إيثرنوت؟

الأمازون AWS

استوحت أمازون الإلهام من بروتوكول InfiniBand RD وأطلقت بروتوكول النقل Scalable Reliable Datagram (SRD) لشبكات HPC. تستخدم أمازون "حصريًا" محولات الشبكة المحسنة (ENA)، والتي تعتمد على شريحة Nitro الخاصة بها. يستخدم SRD UDP، ويدعم رش الحزم عبر روابط متعددة، ويلغي متطلبات تسليم الحزم "بالترتيب"، مما يقلل من ازدحام النسيج وزمن الوصول. عند الضرورة، تتم معالجة إعادة ترتيب الحزم بواسطة الطبقة العليا لجهاز SRD. تواصل أمازون اتباع استراتيجية شبكة AI/HPC الأصلية وربما تكون الأقل تعاونًا مع NVIDIA.

شراء مراجعات جوجل

تستخدم Google مزيجًا من وحدات TPU ووحدات معالجة الرسومات من NVIDIA. تتنافس وحدات TPU ووحدات معالجة الرسومات مع بعضها البعض ويمكن نشرها اعتمادًا على مدى ملاءمة عبء العمل. من غير المرجح أن تستخدم Google منتجات InfiniBand في شبكتها. تم تخصيص شبكة AI/ML من Google نسبيًا، وقد تم نشر بنية NVLink "المتماسكة" المماثلة لسنوات. لقد ابتكرت Google الكثير فيما يتعلق بمكدس الشبكة ونشرت أنظمة التبديل الضوئية "الأصلية" (OCS) - وهي عبارة عن محول دائرة يعتمد على الأنظمة الكهروميكانيكية الدقيقة (مرايا MEM) - في مراكز البيانات العادية ومراكز بيانات الذكاء الاصطناعي. تقوم المحولات الضوئية عادةً بإزالة طبقة من المحولات المادية، وتدعم تكوينات جذرية أعلى، وتقلل من استهلاك الطاقة وزمن الوصول. "تعكس" المفاتيح الضوئية الضوء وهي مستقلة عن بروتوكولات الشبكة وترقيات محولات الشبكة. الجانب السلبي هو أن وقت إعادة تكوين المرآة عادة ما يكون طويلاً، في نطاق عشرات المللي ثانية، لذلك تعمل محولات OCS هذه كدائرة ذات قدرة ثابتة. بالنسبة لشبكات تدريب الذكاء الاصطناعي، لا تعد هذه مشكلة كبيرة، حيث يمكن التنبؤ بأنماط حركة المرور.

مایکروسافت

مايكروسوفت هي الأكثر واقعية بين الشركات ذات الحجم الكبير، وقد اعتمدتها بتقنية InfiniBand في وقت مبكر لبناء شبكات الذكاء الاصطناعي لشريكتها OpenAI. على الرغم من أن Microsoft طورت محول الشبكة المخصص الخاص بها واستخدمت بروتوكول RDMA مخصصًا لسحابة Azure، إلا أن انفتاحها على InfiniBand واحتضان حل AI/ML المتكامل من NVIDIA والتعاون الوثيق مع OpenAI، كل ذلك يجعلها العميل المفضل لدى NVIDIA. استحوذت شركة مايكروسوفت على شركة Fungible، التي اخترعت True Fabric - وهو بروتوكول مخطط بيانات موثوق يعتمد على UDP الذي يتعامل مع حركة المرور والازدحام والتحكم في الأخطاء، ويعمل على تحسين زمن الوصول. قد تظهر بعض الابتكارات التكنولوجية لشركة Fungible في منتجات Microsoft المستقبلية ومساهماتها مفتوحة المصدر.

مييتااا

Meta هي الحصان الأسود في مسابقة الذكاء الاصطناعي، حيث يتمتع برنامج الذكاء الاصطناعي الخاص بها بالميزات البارزة التالية:

  • وهي تتبنى نهجًا مفتوح المصدر باستخدام النماذج الأساسية مثل Llama.
  • إنه يجعل الذكاء الاصطناعي سهل الاستخدام ويمكن الوصول إليه لكل مهندس برمجيات من خلال إطار عمل/نظام برنامج PyTorch.
  • إنه يؤسس لمجتمع Open Compute Project باعتباره ركيزة أساسية لابتكار الأجهزة المفتوحة.
  • إنها تنشر مجموعات GPU واسعة النطاق وتظل في طليعة ابتكارات الذكاء الاصطناعي من خلال نظام التوصيات الخاص بها (نموذج DLRM).

تعمل النماذج الأساسية للذكاء الاصطناعي من Meta ونظام PyTorch البيئي على تمكين مكتبة ضخمة مفتوحة المصدر لابتكارات الذكاء الاصطناعي، ونشر مجموعات AI/ML استنادًا إلى Ethernet وInfiniBand، وبناء ASICs لنموذج DLRM وتحويل ترميز الفيديو.

تعمل Meta على إضفاء الطابع الديمقراطي على الذكاء الاصطناعي، وعلى الرغم من أنها لم تحظ بالاعتراف الكافي بعد، إلا أن هذا الاتجاه سيتغير قريبًا.

Oracle

تدعم Oracle شبكة Ethernet بقوة ولا تستخدم InfiniBand. تستفيد Oracle Cloud Infrastructure (OCI) من وحدات معالجة الرسومات Nvidia وبطاقات NIC ConnectX لبناء مجموعة فائقة تعتمد على ROCEv2 RDMA. تقوم OCI بإنشاء شبكة RDMA منفصلة، ​​استنادًا إلى بروتوكول إشعار الازدحام المخصص لـ DC-QCN، مما يقلل من استخدام PFC، ويضبط ملفات التعريف المخصصة لأحمال عمل AI وHPC.

NVIDIA

إن وحدات معالجة الرسومات من NVIDIA وحلول AI/ML المتكاملة الخاصة بها تجعلها لاعبًا أساسيًا بلا منازع في السوق. يدمج حل NVIDIA DGX Cloud محول Quantum-2 (25.6 تيرابايت) InfiniBand مع محولات الشبكة ConnectX وBluefield. تدعم محولات الشبكة هذه كلاً من Ethernet وInfiniBand. سيتم أيضًا بيع حل InfiniBand المتكامل والمعتمد على DGX Cloud لأسواق الاتصالات والمؤسسات بواسطة NVIDIA ومصنعي المعدات الأصلية التابعين لها. ومع ذلك، تستثمر NVIDIA أيضًا بكثافة في Ethernet من خلال محول Spectrum-X الخاص بها. منذ بضع سنوات مضت، كانت InfiniBand هي البنية المفضلة لتدريب الذكاء الاصطناعي، مما يجعلها الخيار الأمثل للحل السحابي DGX المتكامل من NVIDIA. مع إطلاق محول NVIDIA Spectrum-X Ethernet (سعة 51.2 تيرابايت، أي ضعف سعة محول InfiniBand)، ستتحول NVIDIA إلى Ethernet لنشر وحدة معالجة الرسومات على نطاق واسع، للاستفادة من سرعة منفذ Ethernet العالية وفعالية التكلفة، وقابلية التوسع. يدعم محول Spectrum-X Ethernet امتدادات ROCEv2 المتقدمة - التوجيه التكيفي والتحكم في الازدحام RoCE، ودعم القياس عن بعد، والحوسبة داخل الشبكة التي تسمى جماعية (من خلال منتج SHARP من NVIDIA).

بروأدكم

بروأدكم offنقدم حلول شبكات AI/HPC شاملة، بما في ذلك شرائح التبديل ومحولات الشبكة. قدم الاستحواذ الاستراتيجي لشركة Broadcom على "Correct Networks" بروتوكول نقل يعتمد على EQDS UDP، والذي ينقل جميع أنشطة الانتظار من الشبكة الأساسية إلى مضيف الإرسال أو المحول الطرفي. يدعم هذا النهج تحسين المحول في مجموعة شرائح Jericho3/Ramon3، وهي عبارة عن "نسيج مجدول بالكامل" مجهز برش الحزم، وإعادة ترتيب المخازن المؤقتة في مفاتيح الأوراق، وإعادة توازن المسار، وإسقاط إشعار الازدحام، وآليات استعادة الأخطاء داخل النطاق التي تعتمد على الأجهزة. تم تصميم سلسلة Tomahawk (52Tbs) لتحسين سعة الشريحة الواحدة وهي ليست نسيجًا مجدولًا بالكامل. تدعم محولات Tomahawk أيضًا قوائم انتظار الحافة، بالإضافة إلى وظائف الكمون الحرجة في الأجهزة، مثل موازنة التحميل على مستوى النسيج العالمي وإعادة توازن المسار. لا يدعم Tomahawk فرز الحزم في المحولات الطرفية، لذلك يجب تنفيذ المخازن المؤقتة لإعادة ترتيب الحزم في محولات الشبكة (نقاط النهاية).

سيسكو

أطلقت شركة Cisco مؤخرًا محول Silicon One بسرعة 52 تيرابايت/ثانية، مما يدل على تعدد استخدامات حلول الشبكة الخاصة بها. المحول قابل للبرمجة P4، مما يسمح بالبرمجة المرنة لحالات استخدام الشبكة المختلفة. توفر المحولات المعتمدة على السيليكون من Cisco الدعم للبنى المجدولة بالكامل، وموازنة التحميل، وعزل أخطاء الأجهزة، والقياس عن بعد. تتعاون Cisco مع العديد من موردي بطاقات NIC لتوفير حلول كاملة لشبكات الذكاء الاصطناعي/تعلم الآلة.

وفي الختام

لقد بدأت للتو رحلة توحيد Ethernet لشبكات الذكاء الاصطناعي/الحوسبة عالية الأداء، وهي تتطلب المزيد من خفض التكلفة والطاقة من خلال النطاق والابتكار المفتوح والمنافسة بين البائعين المتعددين. يتكون تحالف Super Ethernet من أصحاب المصلحة الرئيسيين في الشبكة وهو ملتزم بإنشاء حل Ethernet مفتوح "متكامل" مصمم خصيصًا لأحمال عمل AI/HPC. كما هو مذكور أعلاه، تم نشر معظم تقنيات شبكة AI/HPC "الضرورية" بواسطة بائعي Ethernet المختلفين والمتوسعين الفائقين بطريقة أو بأخرى. ولذلك، فإن التحدي المتمثل في توحيد المعايير ليس تقنيا، بل يتعلق أكثر ببناء الإجماع.

اترك تعليق

انتقل إلى الأعلى