عندما نتعمق أكثر في مجال شبكات الحوسبة الذكاء الاصطناعي، نجد أن هناك بنيتين رئيسيتين في السوق: InfiniBand وRoCEv2.
تتنافس هاتان البنيتان الشبكيتان مع بعضهما البعض من حيث الأداء والتكلفة والتنوع وأبعاد رئيسية أخرى. سنقوم بتحليل الخصائص التقنية لهاتين البنيتين وسيناريوهات تطبيقهما في شبكات الحوسبة الذكية للذكاء الاصطناعي ومزاياهما وقيودهما. تهدف هذه المقالة إلى تقييم قيمة التطبيق المحتملة واتجاه التطوير المستقبلي لـ InfiniBand و RoCEv2 في شبكات الحوسبة للذكاء الاصطناعي، من أجل تقديم رؤى عميقة وإرشادات مهنية للصناعة.
بتقنية InfiniBand
تتم إدارة شبكات InfiniBand بشكل مركزي من خلال مدير الشبكة الفرعية (SM). وعادة ما يتم نشر SM على خادم متصل بالشبكة الفرعية ويعمل كوحدة تحكم مركزية للشبكة. وقد يكون هناك أجهزة متعددة مهيأة كأجهزة SM في شبكة فرعية، ولكن يتم تعيين جهاز واحد فقط كجهاز SM رئيسي، وهو المسؤول عن إدارة جميع المفاتيح وبطاقات الشبكة من خلال التوزيع الداخلي وتحميل رسالة بيانات الإدارة (MAD). يتم تحديد كل منفذ لبطاقة الشبكة وشريحة التبديل بواسطة معرف فريد (معرف محلي، LID) يتم تعيينه بواسطة SM لضمان تفرد ودقة الجهاز داخل الشبكة. وتشمل المسؤوليات الأساسية لـ SM الحفاظ على معلومات التوجيه الخاصة بالشبكة وحساب وتحديث جدول التوجيه لشريحة التبديل. تمكن وظيفة وكيل SM (SMA) داخل بطاقة الشبكة بطاقة الشبكة من معالجة الرسالة التي يرسلها SM بشكل مستقل دون تدخل الخادم، وبالتالي تحسين أتمتة الشبكة وكفاءتها.

مخطط معماري لشبكة InfiniBand
- آلية التحكم في تدفق شبكة InfiniBand
تعتمد شبكة InfiniBand على آلية الائتمان، وكل رابط مزود بمخزن مؤقت محدد مسبقًا. سيبدأ المرسل في إرسال البيانات فقط بعد التأكد من أن المستقبل لديه مخزن مؤقت كافٍ، ولا يمكن أن يتجاوز مقدار البيانات المرسلة الحد الأقصى لسعة المخزن المؤقت المحدد مسبقًا المتاح حاليًا للمستقبل. عندما يتلقى الطرف المستقبل رسالة، فإنه يطلق المخزن المؤقت ويبلغ الطرف المرسل بحجم المخزن المؤقت المحدد مسبقًا المتاح حاليًا، وبالتالي الحفاظ على التشغيل السلس للشبكة واستمرارية نقل البيانات.
- مميزات شبكة InfiniBand:
تعتمد شبكات InfiniBand على آليات التحكم في التدفق على مستوى الرابط لمنع إرسال البيانات الزائدة، وبالتالي تجنب تجاوز سعة المخزن المؤقت أو فقدان حزمة البيانات. وفي الوقت نفسه، يمكن لتقنية التوجيه التكيفي لشبكة InfiniBand إجراء اختيار توجيه ديناميكي بناءً على الظروف المحددة لكل حزمة بيانات، مما يحقق تحسينًا في الوقت الفعلي لموارد الشبكة وموازنة الحمل المثلى في بيئات الشبكة واسعة النطاق للغاية.
RoCEv2
بروتوكول RoCE (RDMA عبر Ethernet المتقاربة) هو بروتوكول اتصالات شبكة عنقودية يمكنه تنفيذ RDMA (الوصول المباشر عن بعد للذاكرة) على Ethernet. هناك نسختان رئيسيتان من البروتوكول: RoCEv1 وRoCEv2. كبروتوكول طبقة ارتباط، يتطلب RoCEv1 أن يكون كلا الطرفين المتصلين موجودين في نفس شبكة الطبقة 2. RoCEv2 هو بروتوكول طبقة شبكة يستخدم طبقة شبكة Ethernet وطبقة نقل UDP لاستبدال طبقة شبكة InfiniBand، وبالتالي توفير قابلية توسع أفضل. على عكس الإدارة المركزية لشبكات InfiniBand، يستخدم RoCEv2 بنية موزعة بحتة، تتكون عادةً من طبقتين، والتي تتمتع بمزايا كبيرة في قابلية التوسع ومرونة النشر.

مخطط معماري لشبكة RoCEv2
- آلية التحكم في تدفق شبكة RoCEv2
إن التحكم في التدفق بالأولوية (PFC) عبارة عن استراتيجية للتحكم في التدفق من قفزة إلى قفزة، والتي تستخدم بشكل كامل ذاكرة التخزين المؤقت للمفتاح من خلال تكوين العلامة المائية بشكل صحيح لتحقيق نقل خالٍ من الخسارة في شبكات Ethernet. عندما يتم تحميل المخزن المؤقت لمنفذ المفتاح الموجود في اتجاه مجرى النهر بشكل زائد، يطلب المفتاح من الجهاز الموجود في اتجاه مجرى النهر إيقاف الإرسال. سيتم تخزين البيانات المرسلة في ذاكرة التخزين المؤقت للمفتاح الموجود في اتجاه مجرى النهر. عندما تعود ذاكرة التخزين المؤقت إلى وضعها الطبيعي، سيطلب المنفذ استئناف إرسال حزم البيانات، وبالتالي الحفاظ على التشغيل السلس للشبكة. يحدد إشعار الازدحام الصريح (ECN) آلية للتحكم في التدفق وإشعار الازدحام من البداية إلى النهاية بناءً على طبقة IP وطبقة النقل. يتم تحقيق غرض التحكم في الازدحام من خلال إرسال معلومات ازدحام محددة إلى الخادم الموجود على المفتاح، ثم يرسلها الخادم إلى العميل لإخطار الطرف المصدر بالتباطؤ. إن إخطار الازدحام الكمي لمركز البيانات (DCQCN) عبارة عن مزيج من إخطار الازدحام الصريح (ECN) وآليات التحكم في التدفق ذي الأولوية (PFC)، وهي مصممة لدعم الاتصالات من البداية إلى النهاية بدون خسارة في إيثرنت. والمفهوم الأساسي هو استخدام إخطار الازدحام الكمي لإعلام المرسل بتقليل معدل الإرسال عند حدوث ازدحام في الشبكة، ومنع التنشيط غير الضروري لـ PFC، وتجنب تجاوز سعة المخزن المؤقت الناجم عن الازدحام الشديد. ومن خلال التحكم الدقيق في التدفق، يتمكن DCQCN من تجنب فقدان البيانات بسبب الازدحام مع الحفاظ على تشغيل الشبكة بكفاءة.
- ميزات شبكة RoCEv2: التوافق القوي وتحسين التكلفة
تستخدم شبكات RoCE تقنية RDMA لتحقيق نقل بيانات فعال دون شغل دورات وحدة المعالجة المركزية للخوادم البعيدة، وبالتالي الاستفادة الكاملة من النطاق الترددي وتعزيز قابلية توسيع الشبكة. يقلل هذا النهج بشكل كبير من زمن انتقال الشبكة ويزيد من الإنتاجية، مما يحسن الأداء العام للشبكة. ميزة أخرى مهمة لحل RoCE هي أنه يمكن دمجه بسلاسة في البنية التحتية الحالية لشبكة Ethernet، مما يعني أن الشركات يمكنها تحقيق قفزة في الأداء دون الحاجة إلى الاستثمار في معدات جديدة أو استبدال المعدات. تعد طريقة ترقية الشبكة الفعالة من حيث التكلفة هذه ضرورية لتقليل الإنفاق الرأسمالي للمؤسسة، مما يجعل RoCE الحل المفضل لتحسين أداء الشبكة في مراكز الحوسبة الذكية.
الاختلافات التقنية بين InfiniBand وRoCEv2
أدت المتطلبات المتنوعة للشبكات في السوق إلى التطوير المشترك لبنيات شبكات InfiniBand وRoCEv2. وقد أظهرت شبكات InfiniBand مزايا كبيرة في أداء خدمة طبقة التطبيق بسبب تقنياتها المتقدمة، مثل أداء إعادة التوجيه الفعال ووقت الاسترداد السريع للأخطاء وقابلية التوسع المحسّنة وكفاءة التشغيل والصيانة. وعلى وجه الخصوص، يمكنها توفير أداء ممتاز لإجمالي الشبكة في السيناريوهات واسعة النطاق.

جدول مقارنة بين شبكة InfiniBand وتقنية RoCEv2
تتميز شبكة RoCEv2 بتعدد استخداماتها وتكلفتها المنخفضة. فهي ليست مناسبة لبناء شبكات RDMA عالية الأداء فحسب، بل إنها متوافقة أيضًا بسلاسة مع البنية الأساسية الحالية لشبكة Ethernet. وهذا يمنح RoCEv2 مزايا واضحة في الاتساع والتطبيق، ويمكنها تلبية تطبيقات الشبكة بمقاييس واحتياجات مختلفة. توفر الخصائص والمزايا الخاصة بهاتين البنيتين مجموعة كبيرة من الخيارات لتصميم شبكة مراكز الحوسبة الذكية لتلبية الاحتياجات المحددة للمستخدمين المختلفين.
المنتجات ذات الصلة:
-
NVIDIA MMA4Z00-NS400 متوافق مع 400G OSFP SR4 مسطح علوي PAM4 850 نانومتر 30 متر على OM3 / 50m على وحدة الإرسال والاستقبال البصرية OM4 MTP / MPO-12 Multimode FEC $550.00
-
NVIDIA MMA4Z00-NS-FLT متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال البصرية $650.00
-
NVIDIA MMA4Z00-NS متوافق مع 800Gb / s ثنائي المنافذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال الضوئية $650.00
-
NVIDIA MMS4X00-NM متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $900.00
-
NVIDIA MMS4X00-NM-FLT متوافق مع 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $1199.00
-
NVIDIA MMS4X00-NS400 متوافق 400G OSFP DR4 Flat Top PAM4 1310nm MTP / MPO-12m SMF FEC وحدة الإرسال والاستقبال البصرية $700.00
-
Mellanox MMA1T00-HS متوافق 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 وحدة الإرسال والاستقبال الضوئية $139.00
-
NVIDIA MCA7J60-N004 متوافق مع 4 أمتار (13 قدمًا) 800 جيجابت ثنائي المنافذ OSFP إلى 2x400 جيجابت OSFP InfiniBand NDR Breakout Active Copper Cable $800.00
-
NVIDIA MCP7Y60-H01A متوافق مع 1.5 متر (5 قدم) 400 جرام OSFP إلى 2x200G QSFP56 كابل توصيل مباشر سلبي $116.00
-
Mellanox MCP1600-E00AE30 متوافق 0.5 متر InfiniBand EDR 100G QSFP28 إلى QSFP28 كابل نحاسي مباشر $25.00
-
بطاقة مهايئ NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand / VPI ، HDR100 / EDR / 100G ، ثنائي المنافذ QSFP56 ، PCIe3.0 / 4.0 x16 ، حامل طويل $828.00
-
بطاقة مهايئ NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand / VPI ، HDR100 / EDR / 100G ، منفذ واحد QSFP56 ، PCIe3.0 / 4.0 x16 ، حامل طويل $965.00