Сеть IB и продукты Mellanox

Что такое IB-InfiniBand

IB, сокращение от InfiniBand (переводится как « Бесконечная пропускная способность ), является стандартом компьютерной сетевой связи для высокопроизводительных вычислений. Технология IB, характеризующаяся чрезвычайно высокой пропускной способностью и чрезвычайно низкой задержкой, используется для взаимодействия данных между компьютерами. InfiniBand также используется в качестве прямого или коммутируемого соединения между серверами и системами хранения данных, а также в качестве соединения между системами хранения данных. С ростом ИИ IB также стал популярным и в настоящее время является предпочтительным сетевым методом для высокопроизводительных кластеров серверов GPU.

Вот история развития InfiniBand:

  • 1999: Ассоциация торговли InfiniBand (IBTA) выпустила архитектуру InfiniBand, которая изначально предназначалась для замены шины PCI.
  • В 2000 году была официально выпущена версия 1.0 спецификации архитектуры InfiniBand. Затем в 2001 году вышла первая партия продуктов InfiniBand, и многие производители начали выпускать продукты, поддерживающие InfiniBand, включая серверы, системы хранения данных и сетевое оборудование.
  • В 2003 году благодаря высокой пропускной способности и низкой задержке InfiniBand обратился к новой области применения — взаимодействию кластеров HPC-компьютеров и широко использовался в суперкомпьютерах TOP500 того времени.
  • В 2004 году появилась еще одна важная некоммерческая организация InfiniBand — Open Fabrics Alliance (OFA).
  • В 2005 году InfiniBand нашел новый сценарий — подключение устройств хранения данных, и с тех пор постоянно обновляется и совершенствуется.
  • В 2015 году технология InfiniBand впервые превысила 50% суперкомпьютеров TOP500, достигнув 51.4%. Это первый случай, когда технология InfiniBand обогнала технологию Ethernet и стала самой популярной технологией внутреннего соединения в суперкомпьютерах.
  • С 2023 года обучение больших моделей ИИ во многом зависит от высокопроизводительных вычислительных кластеров, а сети InfiniBand являются лучшим партнером для высокопроизводительных вычислительных кластеров.

Основные преимущества Mellanox и IB Network

Взаимосвязь между Mellanox и InfiniBand

В настоящее время, когда люди упоминают IB, первое, что приходит на ум, — это Mellanox. В 2019 году NVIDIA потратила 6.9 млрд долларов США на приобретение Mellanox в качестве своего суббренда. Дженсен Хуанг публично заявил: Это объединение двух ведущих мировых компаний в области высокопроизводительных вычислений. NVIDIA фокусируется на ускоренных вычислениях, а Mellanox — на взаимосвязях и хранении.

По прогнозам отраслевых организаций, размер рынка InfiniBand достигнет 98.37 млрд долларов США в 2029 году, что в 14.7 раза больше, чем 6.66 млрд долларов США в 2021 году. Благодаря высокопроизводительным вычислениям и искусственному интеллекту у InfiniBand блестящее будущее.

 Архитектура и особенности сети InfiniBand

Система InfiniBand состоит из адаптеров каналов, коммутаторов, маршрутизаторов, кабелей и разъемов, как показано на следующем рисунке.

Система InfiniBand

Система InfiniBand

Основные характеристики можно обобщить следующим образом:

  • Низкая задержка: чрезвычайно низкая задержка и встроенная поддержка RDMA
  • Высокая пропускная способность: скорость передачи данных 400 Гбит/с на порт
  • Простота использования: подходит для создания крупномасштабных кластеров центров обработки данных.

Сеть IB и RDMA

Говоря о сети IB, мы должны упомянуть RDMA. RDMA (Remote Direct Memory Access) был создан для решения проблемы задержки обработки данных на стороне сервера при сетевой передаче. Он может напрямую обращаться к памяти другого хоста или сервера из памяти одного хоста или сервера без использования ЦП. Он освобождает ЦП для выполнения своей работы. Infiniband — это сетевая технология, разработанная специально для RDMA, и сеть IB изначально поддерживает RDMA.

Причина, по которой технология RDMA настолько мощна, заключается в ее механизме обхода ядра, который позволяет напрямую считывать и записывать данные между приложениями и сетевыми картами, сокращая задержку передачи данных на сервере почти до 1 мкс. Roce переносит RDMA в Ethernet.

Сравнение двух основных решений RDMA (IB и ROCEV2)

  • По сравнению с традиционными центрами обработки данных требования к коммуникационной сети нового интеллектуального вычислительного центра выше, например, низкая задержка, большая пропускная способность, стабильность и масштабируемость.
  • InfiniBand и ROCEV2 на базе RDMA могут удовлетворить потребности сетей связи интеллектуальных вычислительных центров.
  • InfiniBand в настоящее время имеет больше преимуществ в производительности, чем ROCEV2, в то время как ROCEV2 в настоящее время имеет преимущества перед InfiniBand с точки зрения экономичности и универсальности.

Если взять в качестве примера раннюю спецификацию SDR (единая скорость передачи данных), то исходная полоса пропускания сигнала канала 1X составляет 2.5 Гбит/с, канала 4X — 10 Гбит/с, а канала 12X — 30 Гбит/с. Фактическая полоса пропускания данных канала 1X составляет 2.0 Гбит/с (из-за кодирования 8b/10b). Поскольку канал является двунаправленным, общая полоса пропускания относительно шины составляет 4 Гбит/с. Со временем полоса пропускания сети InfiniBand продолжает расти.

Что означают DR в HDR и NDR? Каждое DR обозначает аббревиатуру каждого поколения технологии IB. DR — это общий термин для скорости передачи данных, при этом 4 канала являются основными.

На следующем рисунке показана пропускная способность сети InfiniBand от SDR, DDR, QDR, FDR, EDR до HDR и NDR. Скорость основана на 4-кратной скорости соединения. В настоящее время EDR, HDR и NDR являются основными, соответствующими серверным платформам PICE 3.0, 4.0 и 5.0.

Массовые продукты NVIDIA InfiniBand – последняя ситуация с сетевыми картами NDR

ConnectX-7 IB Card (HCA) имеет различные форм-факторы, включая одиночные и двойные порты, поддерживающие интерфейсы OSFP и QSFP112, а также скорости 200 Гбит/с и 400 Гбит/с. Сетевая карта CX-7 поддерживает x16 PCle5.0 или PCle 4.0, что соответствует спецификациям CEM. Можно подключить до 16 полос с поддержкой дополнительной вспомогательной карты, которая обеспечивает 32 полосы PCIe 4.0 с использованием технологии NVIDIA Socket Direct®.

Другие форм-факторы включают Open Compute Project (OCP) 3.0 с разъемом OSFP, OCP 3.0 с разъемом QSFP112 и CEM PCle x16 с разъемом QSFP112.

Последнее изменение NDR от Mellanox

Коммутаторы IB Mellanox делятся на два типа: коммутаторы фиксированной конфигурации и модульные коммутаторы. Понятно, что коммутаторы последней серии NDR больше не продаются с модульной конфигурацией (хотя на официальном сайте указано, что они доступны, их больше нет в продаже).

Коммутатор фиксированной конфигурации серии MQM9700 от NDR оснащен 32 физическими разъемами OSFP и поддерживает 64 порта 400 Гбит/с (которые могут быть разделены на 128 портов 200 Гбит/с). Серия коммутаторов обеспечивает общую пропускную способность в 51.2 Тбит/с в обоих направлениях (пропускная способность объединительной платы) и поразительные 66.5 млрд пакетов в секунду (скорость пересылки пакетов).

Количество интерфейсов и скоростей у подмоделей одинаковое, а различия заключаются в поддержке функции управления, в способе питания и способе отвода тепла. Обычно достаточно одного коммутатора с функциями управления.

Новейшие соединительные кабели и модули Mellanox

Кабели и трансиверы LinkX компании Mellanox обычно используются для нисходящего соединения коммутаторов ToR с сетевыми картами серверов GPU и CPU NVIDIA и устройствами хранения данных, а также для восходящего соединения в приложениях межкоммутаторных соединений по всей сетевой инфраструктуре.

Активный оптический кабель (AOC), медный кабель прямого подключения (DAC) и новый активный DAC под названием ACC, которые включают в себя интегральную схему (ИС) усиления сигнала на конце кабеля.

Новейшие соединительные кабели и модули Mellanox

Коммутаторы с коммутаторами и коммутаторы с сетевыми картами могут быть соединены между собой с помощью разных кабелей, а коммутатор с сетевой картой может обеспечивать соединение 1 к 2 или 4 к 1.

Топология сетевого адаптера Mellanox в H100

  • Модуль HGX логически подключен к головке через 4 или 8 микросхем PCIE SW внутри машины H100.
  • Каждое ПО PCIE соответствует двум картам GPU и двум сетевым картам, а восемь карт IB 400G разработаны так, чтобы соответствовать восьми картам H100.
  • Если он полностью оснащен восемью картами IB 400G, то для добавления других сетевых карт потребуются другие соединения PCIE SW от ЦП.

Топология сетевого адаптера Mellanox в H100

Оставьте комментарий

Наверх