NVIDIA Spectrum-X: сетевая платформа для ускорения искусственного интеллекта на базе Ethernet

Рабочие нагрузки искусственного интеллекта характеризуются небольшим количеством задач, которые обрабатывают большие объемы данных между графическими процессорами, и задержка хвоста может оказать существенное влияние на общую производительность приложения. Использование традиционных механизмов сетевой маршрутизации для обработки такого шаблона трафика может привести к нестабильной производительности графического процессора и низкому использованию рабочих нагрузок ИИ.

Динамическая маршрутизация NVIDIA Spectrum-X RoCE — это технология детальной балансировки нагрузки, которая динамически настраивает маршрутизацию данных RDMA во избежание перегрузки. В сочетании с технологией DDP BlueField 3 она обеспечивает оптимальную балансировку нагрузки и более эффективную пропускную способность данных.

Обзор сетевой платформы Spectrum-X

Сетевая платформа NVIDIA® Spectrum™-X — это первая платформа Ethernet, предназначенная для повышения производительности и эффективности облаков искусственного интеллекта на базе Ethernet. Эта революционная технология повышает производительность ИИ и энергоэффективность в 1.7 раза в крупномасштабных рабочих нагрузках ИИ, аналогичных LLM, и обеспечивает согласованность и предсказуемость в многопользовательских средах. Spectrum-X основан на Ethernet-коммутаторах Spectrum-4 и сетевых картах NVIDIA BlueField®-3 DPU и полностью оптимизирован для рабочих нагрузок искусственного интеллекта.

Ключевые технологии Спектрум-Х

Для поддержки и ускорения рабочих нагрузок ИИ компания Spectrum-X провела ряд оптимизаций — от DPU до коммутаторов, кабелей/оптических устройств, сетей и программного обеспечения для ускорения, в том числе:

  • Адаптивная маршрутизация NVIDIA RoCE на Spectrum-4
  • Прямое размещение данных NVIDIA (DDP) на BlueField-3
  • Контроль перегрузки NVIDIA RoCE на Spectrum-4 и BlueField-3
  • Программное обеспечение NVIDIA для ускорения искусственного интеллекта
  • Сквозная видимость сети ИИ

Ключевые преимущества Spectrum-X

  • Повышение производительности облака ИИ: Spectrum-X повышает производительность облака ИИ в 1.7 раза.
  • Стандартное подключение Ethernet: Spectrum-X полностью соответствует стандартам Ethernet и полностью совместим со стеками технологий на основе Ethernet.
  • Повышение энергоэффективности. Повышая производительность, Spectrum-X способствует созданию более энергоэффективной среды искусственного интеллекта.
  • Улучшенная мультитенантная защита: выполняйте изоляцию производительности в мультитенантных средах, обеспечивая оптимальную и стабильную производительность для рабочей нагрузки каждого арендатора, повышая удовлетворенность клиентов и качество обслуживания.
  • Лучшая видимость сети искусственного интеллекта: отслеживайте трафик, проходящий в облаке искусственного интеллекта, на предмет прозрачности, выявляйте узкие места в производительности и станьте ключевым компонентом современных автоматизированных решений для проверки сети.
  • Более высокая масштабируемость ИИ: поддержка масштабирования до 128 портов 400G за один переход или до 8 XNUMX портов в двухуровневой топологии позвоночника при сохранении высокого уровня производительности и поддержке расширения облака ИИ.
  • Ускоренная настройка сети. Комплексная настройка расширенных сетевых функций автоматизирована и полностью оптимизирована для рабочих нагрузок искусственного интеллекта.

Ethernet-коммутатор Спектр-4

Коммутатор Spectrum-4 построен на базе ASIC 51.2 Тбит/с и поддерживает до 128 портов Ethernet 400G в одном коммутаторе высотой 2U. Spectrum-4 — первый коммутатор Ethernet, предназначенный для рабочих нагрузок искусственного интеллекта. Для ИИ RoCE был расширен:

  • Адаптивная маршрутизация RoCE
  • Изоляция производительности RoCE
  • Эффективное увеличение пропускной способности крупномасштабного стандартного Ethernet
  • Низкая задержка, низкий уровень джиттера и короткая задержка хвоста
Коммутатор NVIDIA 400G

NVIDIA Спектр-4 400 Гигабит Коммутатор Ethernet

БлюФилд-3 ДПУ

NVIDIA BlueField-3 DPU — это инфраструктурный чип третьего поколения для центров обработки данных, который позволяет организациям создавать программно-определяемые ИТ-инфраструктуры с аппаратным ускорением — от облака до основного центра обработки данных и периферии. Благодаря подключению к сети Ethernet 400 Гбит/с BlueField-3 DPU может offзагружать, ускорять и изолировать программно-определяемые функции сети, хранения, безопасности и управления, тем самым значительно повышая производительность, эффективность и безопасность центров обработки данных. BlueField-3 обеспечивает мультитенантность и безопасную производительность для трафика с севера на юг и с востока на запад в облачных центрах обработки данных с искусственным интеллектом на базе Spectrum-X.

DPU

NVIDIA BlueField-3 400 Гбит/с Ethernet-ДПУ

BlueField-3 создан для ускорения искусственного интеллекта и включает в себя универсальный механизм ускорения искусственного интеллекта, NVIDIA GPUDirect и NVIDIA Magnum IO GPUDirect Storage.

Кроме того, он также имеет специальный режим сетевого интерфейса (NIC), который использует локальную память для ускорения больших облаков искусственного интеллекта. Эти облака содержат большое количество пар очередей, доступ к которым можно получить по локальным адресам вместо использования системной памяти. Наконец, он включает технологию NVIDIA Direct Data Placement (DDP) для улучшения адаптивной маршрутизации RoCE.

Сквозной физический уровень NVIDIA (PHY)

Spectrum-X — единственная сетевая платформа Ethernet, построенная на одном и том же канале 100G SerDes, от коммутатора до DPU и графического процессора, с использованием технологии NVIDIA SerDes.

SerDes от NVIDIA обеспечивает превосходную целостность сигнала и самую низкую частоту ошибок по битам (BER), что значительно снижает энергопотребление облака ИИ. Эта мощная технология SerDes в сочетании с графическими процессорами NVIDIA Hopper, Spectrum-4, BlueField-3 и портфелем продуктов Quantum InfiniBand обеспечивает идеальный баланс энергоэффективности и производительности.

сетей

Типичная топология сети Spectrum-X

Технология SerDes играет важную роль в современной передаче данных, поскольку она может преобразовывать параллельные данные в последовательные и наоборот.

Использование технологии SerDes единообразно для всех сетевых устройств и компонентов в сети или системе дает множество преимуществ:

Стоимость и энергоэффективность: SerDes, используемый NVIDIA Spectrum-X, оптимизирован для обеспечения высокой энергоэффективности и не требует сетевых редукторов, которые используются для соединения различных скоростей передачи данных. Использование редукторов не только увеличивает сложность пути передачи данных, но также увеличивает затраты и энергопотребление. Устранение необходимости в этих редукторах снижает первоначальные инвестиции и эксплуатационные расходы, связанные с электроэнергией и охлаждением.

Эффективность проектирования системы. Единообразное использование лучшей технологии SerDes в инфраструктуре центра обработки данных обеспечивает лучшую целостность сигнала, снижает потребность в системных компонентах и ​​упрощает проектирование системы. В то же время использование той же технологии SerDes упрощает работу и повышает доступность.

Программное обеспечение NVIDIA для ускорения

НетКью

НетКью

NVIDIA NetQ — это высокомасштабируемый набор инструментов для сетевых операций, обеспечивающий видимость сети искусственного интеллекта в режиме реального времени, устранение неполадок и проверку. NetQ использует данные телеметрии коммутатора NVIDIA и телеметрию NVIDIA DOCA для получения информации о состоянии коммутатора и DPU, интегрируя сеть в систему MLOps организации.

Кроме того, телеметрия трафика NetQ может отображать пути и поведение потоков между портами коммутатора и очередями RoCE для анализа ситуации с потоками конкретных приложений.

Образцы NetQ анализируют и сообщают о задержке (максимальной, минимальной и средней) и сведениях о занятости буфера на каждом пути потока. Графический интерфейс NetQ сообщает обо всех возможных путях, деталях каждого пути и поведении потока. Сочетание телеметрической телеметрии с телеметрией трафика помогает сетевым операторам заранее выявлять коренные причины проблем серверов и приложений.

Спектр SDK

Комплект разработки программного обеспечения коммутатора NVIDIA Ethernet (SDK) обеспечивает гибкость реализации функций коммутации и маршрутизации со сложной программируемостью, которая не влияет на скорость передачи пакетов, пропускную способность или задержку. Благодаря SDK, OEM-производителям серверов и сетей, а также сетевой операционной системе (NOS), поставщики могут использовать расширенные сетевые функции интегральных схем (ИС) серии Ethernet-коммутаторов для создания гибких, инновационных и экономически оптимизированных коммутационных решений.

NVIDIA ДОКА

NVIDIA DOCA — ключ к раскрытию потенциала NVIDIA BlueField DPU, offзагрузка, ускорение и изоляция рабочих нагрузок центра обработки данных. С помощью DOCA разработчики могут удовлетворить растущие требования к производительности и безопасности современных центров обработки данных, создавая программно-определяемые облачные сервисы с ускорением DPU и защитой с нулевым доверием.

Основные характеристики NVIDIA Spectrum-X

Принцип работы динамической маршрутизации NVIDIA RoCE

Динамическая маршрутизация RoCE работает между коммутатором Spectrum-4 и DPU BlueField-3 сквозным образом:

  • Коммутатор Spectrum-4 отвечает за выбор каждого пакета на основе порта с наименьшей перегрузкой и равномерное распределение передачи данных. Когда разные пакеты одного и того же потока проходят по разным путям сети, они могут прибыть к месту назначения неупорядоченным образом.
  • BlueField-3 DPU обрабатывает данные на уровне передачи RoCE, обеспечивая непрерывную прозрачность данных для приложений. Коммутатор Spectrum-4 оценивает ситуацию перегрузки на основе загрузки исходящей очереди и обеспечивает сбалансированность использования всех портов. Коммутатор выбирает выходную очередь с наименьшей нагрузкой для каждого сетевого пакета. Коммутатор Spectrum-4 также получает уведомления о состоянии от соседних коммутаторов, что также может повлиять на решение о пересылке. В оценке участвуют очереди, соответствующие классам трафика. Таким образом, Spectrum-X может обеспечить эффективную пропускную способность до 95% в крупномасштабных системах и сценариях с высокой нагрузкой.

2. Динамическая маршрутизация NVIDIA RoCE и технология прямого размещения данных NVIDIA.

Далее давайте возьмем пример на уровне пакетов данных, чтобы показать, как потоки ИИ движутся в сети Spectrum-X.

На нем показан процесс взаимодействия между коммутатором Spectrum-4 и BlueField DPU на уровне пакетов данных.

Шаг 1: Данные поступают из памяти сервера или графического процессора в левой части графика и достигают сервера в правой части.

Данные берутся из памяти сервера или графического процессора.

Шаг 2. BlueField-3 DPU упаковывает данные в сетевые пакеты и отправляет их первому конечному коммутатору Spectrum-4, помечая эти пакеты, чтобы коммутатор мог выполнять для них динамическую маршрутизацию RoCE.

BlueField-3 DPU упаковывает данные в сетевые пакеты

Шаг 3. Левый листовой коммутатор Spectrum-4 применяет динамическую маршрутизацию RoCE для балансировки пакетов данных из зеленого и фиолетового потоков и отправляет пакеты каждого потока на несколько коммутаторов позвоночника. Это увеличивает эффективную пропускную способность по сравнению со стандартной Ethernet60% против 95% у Spectrum-X (в 1.6 раза).

Левый листовой коммутатор Spectrum-4 применяет динамическую маршрутизацию RoCE.

Шаг 4. Эти пакеты могут поступать в DPU BlueField-3 с правой стороны в неправильном порядке.

Эти пакеты могут поступать в DPU BlueField-3 с правой стороны в неправильном порядке.

Шаг 5. Правый DPU BlueField-3 использует технологию прямого размещения данных NVIDIA (DDP) для размещения данных в правильном порядке в памяти хоста/графического процессора.

Правый DPU BlueField-3 использует технологию прямого размещения данных NVIDIA (DDP).

Результаты динамической маршрутизации RoCE

Чтобы проверить эффективность динамической маршрутизации RoCE, мы использовали программу тестирования записи RDMA для выполнения первоначального теста. В тесте мы разделили хост на несколько пар, и каждая пара отправляла друг другу большое количество потоков данных записи RDMA в течение определенного времени.

Динамическая маршрутизация RoCE может сократить время завершения.

Динамическая маршрутизация RoCE может сократить время завершения.

Как показано на рисунке выше, при статической пересылке на основе хэша порт восходящей линии связи подвержен конфликту, что приводит к увеличению времени завершения, уменьшению пропускной способности и снижению справедливости между потоками. Переход на динамическую маршрутизацию решает все эти проблемы.

На графике ECMP некоторые потоки демонстрируют одинаковую пропускную способность и время завершения, в то время как другие испытывают конфликт, что приводит к увеличению времени завершения и снижению пропускной способности. В частности, в сценарии ECMP для некоторых потоков наилучшее время завершения T составляет 13 секунд, тогда как для завершения самого медленного потока требуется 31 секунда, что примерно в 2.5 раза больше идеального времени T. В графе динамической маршрутизации RoCE все потоки заканчиваются почти в одно и то же время и имеют одинаковую пиковую полосу пропускания.

Динамическая маршрутизация RoCE для рабочих нагрузок ИИ

Для дальнейшей оценки производительности рабочих нагрузок RoCE с динамической маршрутизацией мы провели общие тесты искусственного интеллекта на тестовой платформе, состоящей из 32 серверов в двухуровневой топологии листовой сети, построенной четырьмя коммутаторами NVIDIA Spectrum. В этих тестах оценивались общие операции с наборами и шаблоны сетевого трафика в распределенных рабочих нагрузках обучения ИИ, таких как трафик «все ко всем» и операции с сокращением всех наборов.

Динамическая маршрутизация RoCE расширяет возможности искусственного интеллекта

Динамическая маршрутизация RoCE расширяет возможности искусственного интеллекта

Динамическая маршрутизация RoCE повышает эффективность ИИ в целом

Динамическая маршрутизация RoCE повышает эффективность ИИ в целом

Сводка динамической маршрутизации RoCE

Во многих случаях маршрутизация потоков на основе хэша на основе ECMP может привести к высокой перегрузке и нестабильному времени завершения потоков, что приводит к снижению производительности приложений. Динамическая маршрутизация Spectrum-X RoCE решает эту проблему. Эта технология повышает фактическую пропускную способность сети (хорошую производительность), одновременно сводя к минимуму нестабильность времени завершения потоков, тем самым повышая производительность приложений. Объединив динамическую маршрутизацию RoCE с технологией NVIDIA Direct Data Placement (DDP) на BlueField-3 DPU, вы можете добиться прозрачной поддержки приложений.

Использование контроля перегрузки NVIDIA RoCE для достижения изоляции производительности

Из-за перегрузки сети приложения, работающие в облачных системах искусственного интеллекта, могут испытывать снижение производительности и нестабильное время работы. Эта перегрузка может быть вызвана сетевым трафиком приложения или фоновым сетевым трафиком других приложений. Основной причиной этой перегрузки является перегрузка «многие к одному», что означает наличие нескольких отправителей данных и одного получателя данных.

Динамическая маршрутизация RoCE не может решить эту проблему перегрузки. Эта проблема требует измерения сетевого трафика каждой конечной точки. Контроль перегрузки Spectrum-X RoCE — это технология «точка-точка», при которой коммутатор Spectrum-4 предоставляет сетевую телеметрическую информацию для представления ситуации перегрузки в сети в реальном времени. Эта телеметрическая информация обрабатывается BlueField-3 DPU, который управляет и контролирует скорость ввода данных отправителями данных, чтобы максимизировать эффективность общей сети. Если контроль перегрузки отсутствует, сценарий «многие к одному» может привести к перегрузке сети, распространению перегрузки или потере пакетов, что серьезно снижает производительность сети и приложения.

В процессе управления перегрузкой BlueField-3 DPU выполняет алгоритм управления перегрузкой, который может обрабатывать десятки миллионов событий управления перегрузкой в ​​секунду на микросекундном уровне и принимать быстрые и детальные решения по скорости. Коммутатор Spectrum-4 обеспечивает точную оценку перегрузки с помощью внутренней телеметрии для точной оценки скорости и индикатора использования порта для достижения быстрого восстановления. Контроль перегрузки NVIDIA позволяет данным телеметрии обходить задержку в очереди перегруженных потоков, сохраняя при этом точную одновременную телеметрическую информацию, что значительно сокращает время обнаружения и ответа.

В следующем примере показано, как в сети возникла перегрузка «мульти-к-одному» и как Spectrum-X использовал измерение трафика и внутреннюю телеметрию для управления перегрузкой RoCE.

поток, на который влияет перегрузка сети

Перегрузка сети приводит к нарушению потоков

На этом рисунке показан поток, на который влияет перегрузка сети. Четыре исходных DPU отправляют данные двум целевым DPU. Источники 1, 2 и 3 отправляют данные в пункт назначения 1, используя доступную полосу пропускания канала на три пятых. Источник 4 отправляет данные в пункт назначения 2 через конечный коммутатор, общий с источником 3, в результате чего пункт назначения 2 получает две пятых доступной пропускной способности канала.

Если контроль перегрузки отсутствует, источники 1, 2 и 3 вызовут соотношение перегрузки три к одному, поскольку все они отправляют данные в пункт назначения 1. Эта перегрузка вызовет противодавление со стороны листового коммутатора, подключенного к источнику 1 и пункту назначения 1. Источник 4 становится перегруженным потоком, пропускная способность которого в пункте назначения 2 падает до доступной пропускной способности на тридцать три процента (ожидаемая производительность на пятьдесят процентов). Это отрицательно влияет на производительность приложений ИИ, которая зависит от средней и наихудшей производительности.

Spectrum-X решает проблему перегрузки за счет измерения трафика и телеметрии

Spectrum-X решает проблемы перегрузки за счет измерения трафика и телеметрии

На рисунке показано, как Spectrum-X решил проблему перегрузки, показанную на рисунке 14. На нем показана та же среда тестирования: четыре исходных DPU отправляют данные двум целевым DPU. В этой ситуации измерение трафика источников 1, 2 и 3 предотвращает перегрузку конечных коммутаторов. Это устраняет противодавление на источник 4, позволяя ему достичь ожидаемой полосы пропускания в две пятых. Кроме того, Spectrum-4 использует внутреннюю телеметрическую информацию, сгенерированную What Just Happened, для динамического переназначения путей потока и поведения очереди.

Изоляция производительности RoCE

Облачная инфраструктура искусственного интеллекта должна поддерживать большое количество пользователей (арендаторов) и параллельных приложений или рабочих нагрузок. Эти пользователи и приложения конкурируют за общие ресурсы в инфраструктуре, например в сети, что может повлиять на их производительность.

Кроме того, чтобы оптимизировать производительность сети библиотеки коллективных коммуникаций NVIDIA (NCCL) для приложений искусственного интеллекта в облаке, все рабочие нагрузки, выполняемые в облаке, должны быть скоординированы и синхронизированы. Традиционные преимущества облака, такие как эластичность и высокая доступность, оказывают ограниченное влияние на производительность приложений искусственного интеллекта, в то время как снижение производительности является более важной глобальной проблемой.

Платформа Spectrum-X включает в себя несколько механизмов, которые в сочетании могут обеспечить изоляцию производительности. Это гарантирует, что рабочая нагрузка не влияет на производительность другой рабочей нагрузки. Эти механизмы качества обслуживания гарантируют, что никакая рабочая нагрузка не приведет к перегрузке сети, что может повлиять на передачу данных других рабочих нагрузок.

Используя динамическую маршрутизацию RoCE, удалось добиться детальной балансировки путей передачи данных, избежав конфликтов потоков данных через конечный коммутатор и магистральный коммутатор, что позволило добиться изоляции производительности. Включение контроля перегрузки RoCE с измерением трафика и телеметрией еще больше повышает изоляцию производительности.

Кроме того, в коммутаторе Spectrum-4 используется глобальный общий буфер для обеспечения изоляции производительности. Общий буфер обеспечивает равномерную полосу пропускания для потоков разного размера, защищает рабочие нагрузки от влияния шумных соседних потоков с одним и тем же целевым портом назначения в сценариях, когда несколько потоков нацелены на один и тот же порт назначения, а также лучше поглощает краткосрочные передачи, когда несколько потоков нацелены на один и тот же порт назначения. разные порты назначения.

Оставьте комментарий

Наверх