هندسة شبكة مركز البيانات
هندسة العارضة
- نوع من الهندسة المعمارية مشتق من أقدم شبكة تبديل هاتفية (مفتاح العارضة)
- يتكون من منافذ إدخال متعددة ومنافذ إخراج متعددة ومصفوفة تبديل
- مرن وفعال للغاية، ويمكنه تحقيق اتصالات عشوائية بين الأجهزة المختلفة.
العمارة كلوس
- ولد عام 1952، واقترحه شخص يدعى تشارلز كلوس.
- تصف بنية Clos بشكل أساسي بنية شبكة تبديل الدوائر متعددة المراحل
- تعد بنية Clos عبارة عن تحسين لبنية العارضة، والتي يمكن أن توفر شبكة غير قابلة للحظر. ميزة Clos هي أنه يوفر التكاليف ويزيد من الكفاءة.
هندسة شجرة الدهون
شجرة الدهون هي نوع من بنية شبكة CLOS.
بالمقارنة مع بنية الشجرة التقليدية، فإن الشجرة السمينة تشبه شجرة حقيقية، مع فروع أكثر سمكا بالقرب من الجذر. من الأوراق إلى الجذر، لا يتقارب عرض النطاق الترددي للشبكة.
الفكرة الأساسية: استخدام عدد كبير من المحولات منخفضة الأداء لبناء شبكة واسعة النطاق غير قابلة للحظر. بالنسبة لأي نمط اتصال، يوجد دائمًا مسار يسمح لهم بتحقيق النطاق الترددي لبطاقة الشبكة.
بعد إدخال بنية Fat-Tree إلى مركز البيانات، أصبح مركز البيانات عبارة عن هيكل تقليدي ثلاثي الطبقات:
طبقة الوصول: يستخدم لربط كافة العقد الحاسوبية. عادةً ما يكون على شكل مفتاح حامل (TOR، أعلى الحامل).
طبقة التجميع: يستخدم للتوصيل البيني لطبقة الوصول وكحدود للطبقتين الثانية والثالثة لمنطقة التجميع. يتم أيضًا نشر خدمات مختلفة مثل جدران الحماية وموازنة التحميل وما إلى ذلك هنا.
الطبقة الاساسية: يستخدم للتوصيل البيني لطبقة التجميع ولتنفيذ اتصال الطبقة الثالثة بين مركز البيانات بأكمله والشبكة الخارجية.
عيوب معمارية شجرة الدهون:
هدر الموارد: في البنية التقليدية المكونة من ثلاث طبقات، سيتم توصيل مفتاح الطبقة السفلية بمفتاحين من الطبقة العليا من خلال رابطين. ونظرًا لاستخدام بروتوكول STP (بروتوكول الشجرة الممتدة)، فإن رابطًا واحدًا فقط يحمل حركة المرور فعليًا. تم حظر الوصلة الصاعدة الأخرى (تستخدم فقط للنسخ الاحتياطي). وهذا يسبب إهدار عرض النطاق الترددي.
مجال خطأ كبير: يحتاج بروتوكول STP، بسبب الخوارزمية الخاصة به، إلى إعادة التقارب عندما تتغير بنية الشبكة، مما قد يتسبب بسهولة في حدوث أخطاء ويؤثر على شبكة شبكة VLAN بأكملها.
غير مناسب لحركة المرور بين الشرق والغرب: يتطلب الاتصال بين الخوادم والخوادم المرور عبر مفتاح الوصول ومفتاح التجميع والمفتاح الأساسي.
شبكة العمود الفقري
مثل بنية Fat-Tree، فهي تنتمي إلى نموذج شبكة CLOS.
بالمقارنة مع بنية الشبكة التقليدية المكونة من ثلاث طبقات، فقد تم تسطيح شبكة Spine-Leaf وتحويلها إلى بنية مكونة من طبقتين.
مفتاح الورقة، يعادل مفتاح الوصول في البنية التقليدية ثلاثية الطبقات، حيث أن TOR (أعلى الحامل) متصل مباشرة بالخادم الفعلي. فوق المفتاح الطرفي توجد شبكة الطبقة الثالثة، كل منها عبارة عن مجال بث L2 مستقل. إذا كانت الخوادم الموجودة تحت المحولين الورقيين بحاجة إلى الاتصال، فيجب إعادة توجيهها بواسطة المفتاح الرئيسي.
مفتاح العمود الفقري، أي ما يعادل المفتاح الأساسي. تقوم المفاتيح الورقية والعمودية بتحديد مسارات متعددة ديناميكيًا من خلال ECMP (المسارات المتعددة المتساوية التكلفة).
يحدد عدد منافذ الوصلة الهابطة لمفتاح العمود الفقري عدد مفاتيح الأوراق. يحدد عدد منافذ الوصلة الصاعدة للمفتاح الورقي عدد مفاتيح العمود الفقري. إنهم يحددون بشكل مشترك حجم شبكة Spine-Leaf.
مزايا شبكة العمود الفقري
استخدام عرض النطاق الترددي العالي
تعمل الوصلة الصاعدة لكل مفتاح ورقي بطريقة موازنة التحميل، مما يحقق الاستفادة الكاملة من عرض النطاق الترددي.
الكمون الشبكة يمكن التنبؤ بها
في النموذج أعلاه، يمكن تحديد عدد مسارات الاتصال بين المفاتيح الطرفية، ويلزم وجود مفتاح عمود واحد فقط لكل مسار. يمكن التنبؤ بزمن وصول الشبكة بين الشرق والغرب.
قابلية جيدة للتوسع
عندما يكون عرض النطاق الترددي غير كاف، يمكن زيادة عدد مفاتيح العمود الفقري لقياس عرض النطاق الترددي أفقيًا. عندما يزيد عدد الخوادم، يمكن أيضًا زيادة عدد المفاتيح الأساسية لتوسيع نطاق مركز البيانات. التخطيط والتوسع مريحان للغاية.
انخفاض المتطلبات للمفاتيح
يمكن أن تخرج حركة المرور من الشمال إلى الجنوب من العقد الورقية أو العقد الشوكية. يتم توزيع حركة المرور من الشرق إلى الغرب على مسارات متعددة. ليست هناك حاجة لمفاتيح عرض النطاق الترددي العالي باهظة الثمن وعالية الأداء.
أمان عالي وتوافر
تستخدم الشبكات التقليدية بروتوكول STP، والذي سوف يتقارب مرة أخرى عند فشل الجهاز، مما يؤثر على أداء الشبكة أو حتى يسبب أخطاء. في بنية Spine-Leaf، عندما يتعطل أحد الأجهزة، ليست هناك حاجة إلى التقارب مرة أخرى، وتستمر حركة المرور في المرور عبر مسارات عادية أخرى. لا يتأثر اتصال الشبكة، ويتم تقليل عرض النطاق الترددي فقط بمقدار عرض النطاق الترددي لمسار واحد. تأثير الأداء لا يكاد يذكر.
بتقنية InfiniBand
بروتوكول RDMA (الوصول المباشر للذاكرة عن بعد).
في TCP/IP التقليدي، يتم أولاً نسخ البيانات من بطاقة الشبكة إلى ذاكرة kernel، ثم نسخها إلى مساحة تخزين التطبيق، أو يتم نسخ البيانات من مساحة التطبيق إلى ذاكرة kernel ثم إرسالها إلى الإنترنت عبر بطاقة الشبكة. يتطلب وضع تشغيل الإدخال/الإخراج هذا تحويل ذاكرة kernel. فهو يزيد من طول مسار نقل تدفق البيانات، ويزيد من حمل وحدة المعالجة المركزية، ويزيد أيضًا من زمن انتقال الإرسال.
تسمح آلية تجاوز kernel الخاصة بـ RDMA بقراءة البيانات المباشرة وكتابتها بين التطبيق وبطاقة الشبكة، مما يقلل من زمن انتقال البيانات داخل الخادم إلى ما يقرب من 1us.
وفي الوقت نفسه، تسمح آلية النسخ الصفري للذاكرة الخاصة بـ RDMA للمتلقي بقراءة البيانات مباشرة من ذاكرة المرسل، وتجاوز مشاركة ذاكرة kernel، مما يقلل بشكل كبير من حمل وحدة المعالجة المركزية ويحسن كفاءة وحدة المعالجة المركزية.
خلفية InfiniBand
يعد InfiniBand (المختصر بـ IB) بروتوكولًا قويًا لتكنولوجيا الاتصالات. ترجمتها الإنجليزية هي "عرض النطاق الترددي اللانهائي". لقد وُلدت في التسعينيات لتحل محل ناقل PCI (Peripheral Component Interconnect). تم إدخال ناقل PCI بواسطة Intel في بنية الكمبيوتر الشخصي، وكانت سرعة الترقية بطيئة، مما حد بشكل كبير من أداء الإدخال / الإخراج وأصبح عنق الزجاجة للنظام بأكمله.
تاريخ تطور InfiniBand
في التسعينيات، قادت Intel وMicrosoft وSUN تطوير معيار تكنولوجيا "الجيل القادم من الإدخال/الإخراج (NGIO)"، بينما قادت IBM وCompaq وHP تطوير "Future I/O (FIO)".
في عام 1999، تم دمج منتدى مطوري FIO ومنتدى NGIO وإنشاء شبكة NGIO بتقنية InfiniBand جمعية التجارة (IBTA).
في عام 2000، تم إصدار مواصفات بنية InfiniBand الإصدار 1.0 offأطلق سراحه رسميا.
في مايو 1999، قام العديد من الموظفين الذين تركوا شركة Intel وGalileo Technology بتأسيس شركة شرائح في إسرائيل وأطلقوا عليها اسم Mellanox.
بعد تأسيس شركة Mellanox، انضمت إلى NGIO. لاحقًا، انضم ميلانوكس إلى معسكر InfiniBand. وفي عام 2001، أطلقوا أول منتج InfiniBand. يبدأ في
في عام 2003، تحول InfiniBand إلى مجال تطبيق جديد، وهو التوصيل البيني لمجموعة أجهزة الكمبيوتر.
في عام 2004، ولدت منظمة InfiniBand مهمة أخرى غير ربحية وهي OFA (تحالف الأقمشة المفتوحة).
في عام 2005، اكتشف InfiniBand سيناريو جديدًا آخر وهو توصيل أجهزة التخزين.
منذ ذلك الحين، دخلت InfiniBand مرحلة التطور السريع.
هندسة شبكة InfiniBand
InfiniBand عبارة عن بنية قائمة على القناة، وتتكون من أربعة مكونات رئيسية:
- HCA (محول القناة المضيفة)، الذي يربط المضيف بشبكة InfiniBand.
- TCA (محول القناة المستهدفة)، الذي يقوم بتوصيل الجهاز المستهدف (مثل وحدة التخزين) بشبكة InfiniBand.
- يقوم رابط InfiniBand، الذي يمكن أن يكون كبلًا أو أليافًا أو وصلة داخلية، بتوصيل محولات القناة بالمحولات أو أجهزة التوجيه.
- محول وجهاز توجيه InfiniBand، الذي يوفر الاتصال بالشبكة والتوجيه لشبكة InfiniBand.
- تُستخدم محولات القنوات لإنشاء قنوات InfiniBand. تبدأ جميع عمليات الإرسال أو تنتهي بمحولات القناة، لضمان الأمان أو العمل بمستوى معين من جودة الخدمة (جودة الخدمة).
Mellanox، التي استحوذت عليها Nvidia في عام 2020. ومنذ ذلك الحين، تم استخدامها على نطاق واسع في تدريب النماذج الكبيرة للذكاء الاصطناعي.
RoCE
ولادة RoCE
في أبريل 2010، أصدرت IBTA RoCE (RDMA عبر Ethernet المتقاربة)، والتي "نقلت" تقنية RDMA في InfiniBand إلى Ethernet. وفي عام 2014، اقترحوا نسخة أكثر نضجًا من RoCEv2. مع RoCEv2، قامت Ethernet بتضييق فجوة الأداء الفني بشكل كبير مع InfiniBand، ومع مزايا التكلفة والتوافق المتأصلة، بدأت في المقاومة.
روس V2
RoCE v1: بروتوكول RDMA يعتمد على طبقة ارتباط Ethernet (يحتاج المحول إلى دعم تقنيات التحكم في التدفق مثل PFC، لضمان النقل الموثوق في الطبقة المادية)، والذي يسمح بالاتصال بين مضيفين في نفس شبكة VLAN. RoCE V2: يتغلب على قيود RoCE v1 المرتبطة بشبكة VLAN واحدة. ومن خلال تغيير تغليف الحزمة، بما في ذلك رؤوس IP وUDP، يمكن الآن استخدام RoCE 2 عبر شبكات L2 وL3.
المنتجات ذات الصلة:
- وحدة الإرسال والاستقبال Mellanox MMA1B00-E100 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP / MPO MMF DDM $50.00
- Mellanox MMA1T00-HS متوافق 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 وحدة الإرسال والاستقبال الضوئية $300.00
- Mellanox MMS1W50-HM متوافق 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2 كم LC SMF FEC وحدة الإرسال والاستقبال البصرية $650.00
- NVIDIA MMS4X00-NS400 متوافق 400G OSFP DR4 Flat Top PAM4 1310nm MTP / MPO-12m SMF FEC وحدة الإرسال والاستقبال البصرية $1450.00
- NVIDIA MFP7E20-N050 متوافق مع 50 متر (164 قدم) 8 ألياف فقدان إدخال منخفض أنثى إلى أنثى MPO12 إلى 2xMPO12 قطبية B APC إلى APC LSZH متعدد الأوضاع OM4 50/125 $145.00
- NVIDIA MFP7E20-N015 متوافق مع 15 متر (49 قدم) 8 ألياف فقدان إدخال منخفض أنثى إلى أنثى MPO12 إلى 2xMPO12 قطبية B APC إلى APC LSZH متعدد الأوضاع OM3 50/125 $67.00
- NVIDIA MFS1S90-H015E متوافق بطول 15 مترًا (49 قدمًا) 2x200G QSFP56 إلى 2x200G QSFP56 PAM4 Breakout Active Optical Cable $830.00
- NVIDIA MMA4Z00-NS-FLT متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال البصرية $1400.00
- NVIDIA MMS4X00-NM-FLT متوافق مع 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $2000.00
- NVIDIA MFS1S50-H015V متوافق مع 15 متر (49 قدمًا) 200 جيجا InfiniBand HDR QSFP56 إلى 2x100G QSFP56 PAM4 Breakout Active Optical Cable $630.00
- NVIDIA MMA4Z00-NS متوافق مع 800Gb / s ثنائي المنافذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال الضوئية $1400.00
- NVIDIA MMS4X00-NM متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $2000.00
- بطاقة مهايئ NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand / VPI ، HDR / 200GbE ، منفذ واحد QSFP56 ، PCIe3.0 / 4.0 x16 ، حامل طويل القامة $1400.00
- Mellanox MCP7H50-H003R26 متوافق مع 3 متر (10 أقدام) Infiniband HDR 200G QSFP56 إلى 2x100G QSFP56 PAM4 $100.00
- Mellanox MFS1S50-H003E متوافق 3 متر (10 قدم) 200 جرام HDR QSFP56 إلى 2x100G QSFP56 PAM4 Breakout Active Optical Cable $605.00
- بطاقة مهايئ NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand / VPI ، NDR / 400G ، منفذ واحد OSFP ، PCIe 5.0x 16 ، حامل طويل $1650.00