Что такое IB-InfiniBand
IB, сокращение от InfiniBand (переводится как « Бесконечная пропускная способность ), является стандартом компьютерной сетевой связи для высокопроизводительных вычислений. Технология IB, характеризующаяся чрезвычайно высокой пропускной способностью и чрезвычайно низкой задержкой, используется для взаимодействия данных между компьютерами. InfiniBand также используется в качестве прямого или коммутируемого соединения между серверами и системами хранения данных, а также в качестве соединения между системами хранения данных. С ростом ИИ IB также стал популярным и в настоящее время является предпочтительным сетевым методом для высокопроизводительных кластеров серверов GPU.
Вот история развития InfiniBand:
- 1999: Ассоциация торговли InfiniBand (IBTA) выпустила архитектуру InfiniBand, которая изначально предназначалась для замены шины PCI.
- В 2000 году была официально выпущена версия 1.0 спецификации архитектуры InfiniBand. Затем в 2001 году вышла первая партия продуктов InfiniBand, и многие производители начали выпускать продукты, поддерживающие InfiniBand, включая серверы, системы хранения данных и сетевое оборудование.
- В 2003 году благодаря высокой пропускной способности и низкой задержке InfiniBand обратился к новой области применения — взаимодействию кластеров HPC-компьютеров и широко использовался в суперкомпьютерах TOP500 того времени.
- В 2004 году появилась еще одна важная некоммерческая организация InfiniBand — Open Fabrics Alliance (OFA).
- В 2005 году InfiniBand нашел новый сценарий — подключение устройств хранения данных, и с тех пор постоянно обновляется и совершенствуется.
- В 2015 году технология InfiniBand впервые превысила 50% суперкомпьютеров TOP500, достигнув 51.4%. Это первый случай, когда технология InfiniBand обогнала технологию Ethernet и стала самой популярной технологией внутреннего соединения в суперкомпьютерах.
- С 2023 года обучение больших моделей ИИ во многом зависит от высокопроизводительных вычислительных кластеров, а сети InfiniBand являются лучшим партнером для высокопроизводительных вычислительных кластеров.
Основные преимущества Mellanox и IB Network
Взаимосвязь между Mellanox и InfiniBand
В настоящее время, когда люди упоминают IB, первое, что приходит на ум, — это Mellanox. В 2019 году NVIDIA потратила 6.9 млрд долларов США на приобретение Mellanox в качестве своего суббренда. Дженсен Хуанг публично заявил: Это объединение двух ведущих мировых компаний в области высокопроизводительных вычислений. NVIDIA фокусируется на ускоренных вычислениях, а Mellanox — на взаимосвязях и хранении.
По прогнозам отраслевых организаций, размер рынка InfiniBand достигнет 98.37 млрд долларов США в 2029 году, что в 14.7 раза больше, чем 6.66 млрд долларов США в 2021 году. Благодаря высокопроизводительным вычислениям и искусственному интеллекту у InfiniBand блестящее будущее.
Архитектура и особенности сети InfiniBand
Система InfiniBand состоит из адаптеров каналов, коммутаторов, маршрутизаторов, кабелей и разъемов, как показано на следующем рисунке.
Система InfiniBand
Основные характеристики можно обобщить следующим образом:
- Низкая задержка: чрезвычайно низкая задержка и встроенная поддержка RDMA
- Высокая пропускная способность: скорость передачи данных 400 Гбит/с на порт
- Простота использования: подходит для создания крупномасштабных кластеров центров обработки данных.
Сеть IB и RDMA
Говоря о сети IB, мы должны упомянуть RDMA. RDMA (Remote Direct Memory Access) был создан для решения проблемы задержки обработки данных на стороне сервера при сетевой передаче. Он может напрямую обращаться к памяти другого хоста или сервера из памяти одного хоста или сервера без использования ЦП. Он освобождает ЦП для выполнения своей работы. Infiniband — это сетевая технология, разработанная специально для RDMA, и сеть IB изначально поддерживает RDMA.
Причина, по которой технология RDMA настолько мощна, заключается в ее механизме обхода ядра, который позволяет напрямую считывать и записывать данные между приложениями и сетевыми картами, сокращая задержку передачи данных на сервере почти до 1 мкс. Roce переносит RDMA в Ethernet.
Сравнение двух основных решений RDMA (IB и ROCEV2)
- По сравнению с традиционными центрами обработки данных требования к коммуникационной сети нового интеллектуального вычислительного центра выше, например, низкая задержка, большая пропускная способность, стабильность и масштабируемость.
- InfiniBand и ROCEV2 на базе RDMA могут удовлетворить потребности сетей связи интеллектуальных вычислительных центров.
- InfiniBand в настоящее время имеет больше преимуществ в производительности, чем ROCEV2, в то время как ROCEV2 в настоящее время имеет преимущества перед InfiniBand с точки зрения экономичности и универсальности.
Развитие и тенденции скорости связи InfiniBand
Если взять в качестве примера раннюю спецификацию SDR (единая скорость передачи данных), то исходная полоса пропускания сигнала канала 1X составляет 2.5 Гбит/с, канала 4X — 10 Гбит/с, а канала 12X — 30 Гбит/с. Фактическая полоса пропускания данных канала 1X составляет 2.0 Гбит/с (из-за кодирования 8b/10b). Поскольку канал является двунаправленным, общая полоса пропускания относительно шины составляет 4 Гбит/с. Со временем полоса пропускания сети InfiniBand продолжает расти.
Что означают DR в HDR и NDR? Каждое DR обозначает аббревиатуру каждого поколения технологии IB. DR — это общий термин для скорости передачи данных, при этом 4 канала являются основными.
На следующем рисунке показана пропускная способность сети InfiniBand от SDR, DDR, QDR, FDR, EDR до HDR и NDR. Скорость основана на 4-кратной скорости соединения. В настоящее время EDR, HDR и NDR являются основными, соответствующими серверным платформам PICE 3.0, 4.0 и 5.0.
Массовые продукты NVIDIA InfiniBand – последняя ситуация с сетевыми картами NDR
ConnectX-7 IB Card (HCA) имеет различные форм-факторы, включая одиночные и двойные порты, поддерживающие интерфейсы OSFP и QSFP112, а также скорости 200 Гбит/с и 400 Гбит/с. Сетевая карта CX-7 поддерживает x16 PCle5.0 или PCle 4.0, что соответствует спецификациям CEM. Можно подключить до 16 полос с поддержкой дополнительной вспомогательной карты, которая обеспечивает 32 полосы PCIe 4.0 с использованием технологии NVIDIA Socket Direct®.
Другие форм-факторы включают Open Compute Project (OCP) 3.0 с разъемом OSFP, OCP 3.0 с разъемом QSFP112 и CEM PCle x16 с разъемом QSFP112.
Последнее изменение NDR от Mellanox
Коммутаторы IB Mellanox делятся на два типа: коммутаторы фиксированной конфигурации и модульные коммутаторы. Понятно, что коммутаторы последней серии NDR больше не продаются с модульной конфигурацией (хотя на официальном сайте указано, что они доступны, их больше нет в продаже).
Коммутатор фиксированной конфигурации серии MQM9700 от NDR оснащен 32 физическими разъемами OSFP и поддерживает 64 порта 400 Гбит/с (которые могут быть разделены на 128 портов 200 Гбит/с). Серия коммутаторов обеспечивает общую пропускную способность в 51.2 Тбит/с в обоих направлениях (пропускная способность объединительной платы) и поразительные 66.5 млрд пакетов в секунду (скорость пересылки пакетов).
Количество интерфейсов и скоростей у подмоделей одинаковое, а различия заключаются в поддержке функции управления, в способе питания и способе отвода тепла. Обычно достаточно одного коммутатора с функциями управления.
Новейшие соединительные кабели и модули Mellanox
Кабели и трансиверы LinkX компании Mellanox обычно используются для нисходящего соединения коммутаторов ToR с сетевыми картами серверов GPU и CPU NVIDIA и устройствами хранения данных, а также для восходящего соединения в приложениях межкоммутаторных соединений по всей сетевой инфраструктуре.
Активный оптический кабель (AOC), медный кабель прямого подключения (DAC) и новый активный DAC под названием ACC, которые включают в себя интегральную схему (ИС) усиления сигнала на конце кабеля.
Новейшие соединительные кабели и модули Mellanox
Типичные соединительные линии Mellanox
Коммутаторы с коммутаторами и коммутаторы с сетевыми картами могут быть соединены между собой с помощью разных кабелей, а коммутатор с сетевой картой может обеспечивать соединение 1 к 2 или 4 к 1.
Топология сетевого адаптера Mellanox в H100
- Модуль HGX логически подключен к головке через 4 или 8 микросхем PCIE SW внутри машины H100.
- Каждое ПО PCIE соответствует двум картам GPU и двум сетевым картам, а восемь карт IB 400G разработаны так, чтобы соответствовать восьми картам H100.
- Если он полностью оснащен восемью картами IB 400G, то для добавления других сетевых карт потребуются другие соединения PCIE SW от ЦП.
Топология сетевого адаптера Mellanox в H100
Сопутствующие товары:
- Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- NVIDIA MCA7J60-N004 Совместимый кабель длиной 4 м (13 футов) 800G с двумя портами OSFP для 2x400G OSFP InfiniBand NDR Breakout Active Copper Cable $800.00
- NVIDIA MCP7Y60-H01A Совместимый пассивный кабель прямого подключения 1.5 м (5 футов) 400G OSFP к 2x200G QSFP56 $116.00
- Mellanox MCP1600-E00AE30 Совместимый 0.5-метровый InfiniBand EDR 100G медный кабель прямого подключения QSFP28-QSFP28 $25.00
- Плата адаптера NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, двухпортовый QSFP56, PCIe3.0/4.0 x16, высокий кронштейн $828.00
- Плата адаптера NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, однопортовый QSFP56, PCIe3.0/4.0 x16, высокий кронштейн $690.00