RoCEv2: подробное руководство по сетям с низкой задержкой и высокой пропускной способностью в центрах обработки данных для ИИ.

В быстро развивающемся мире AI обучениеБлагодаря высокопроизводительным вычислениям (HPC) и облачной инфраструктуре, производительность сети перестала быть просто вспомогательной функцией — она стала фактором, устраняющим узкие места. RoCEv2 Протокол RDMA (Rumber Dash over Converged Ethernet version 2) стал предпочтительным протоколом для построения сети Ethernet без потерь которые обеспечивают сверхнизкую задержку, огромную пропускную способность и минимальную нагрузку на ЦП. По мере того, как модели ИИ масштабируются до триллионов параметров, RoCEv2 обеспечивает работу огромных кластеров графических процессоров, стоящих за такими прорывами, как Llama 3 и последующими проектами.

Это всеобъемлющее руководство подробно рассматривает следующие вопросы. Технические принципы RoCEv2стратегии оптимизации, лучшие практики развертывания и будущие тенденции. Независимо от того, занимаетесь ли вы проектированием архитектуры... кластер ИИ на основе WAN-карт Для оптимизации работы центра обработки данных понимание RoCEv2 имеет важное значение в 2026 году.

Технические принципы RoCEv2
Масштабные кластеры Meta для обучения ИИ на основе RoCE демонстрируют возможности современных технологий Ethernet без потерь.

Масштабные кластеры Meta для обучения ИИ на основе RoCE демонстрируют возможности, которые предоставляет современный Ethernet без потерь.

Что такое RDMA и почему это важно?

Удаленный прямой доступ к памяти (RDMA) Это позволяет передавать данные напрямую из памяти одного компьютера на другой без участия ЦП, ядра ОС или многократного копирования данных. Таким образом, обходятся накладные расходы традиционного стека TCP/IP, сокращая задержку с десятков микросекунд до уровня долей микросекунды и освобождая циклы ЦП для фактических вычислений.

Традиционные сети TCP/IP страдают от следующих проблем:

  • Множественные переключения контекста и копирование данных
  • Высокая загрузка ЦП при обработке протоколов
  • Исправлены задержки, плохо масштабирующиеся с увеличением пропускной способности.

RDMA устраняет эти проблемы, позволяя нулевая копия, обход ядра и разгрузка ЦП—идеально подходит для задач искусственного интеллекта, где графическим процессорам необходимо мгновенно обмениваться гигабайтами градиентов.

Традиционные сети TCP/IP
RDMA против традиционных каналов передачи данных TCP/IP

Визуальное сравнение: RDMA против традиционных путей передачи данных TCP/IP — с акцентом на существенное сокращение количества копий и нагрузки на процессор.

RoCEv2: Основной протокол RDMA

Существует три основных реализации RDMA:

  • InfiniBand (IB): Встроенный RDMA с выделенным оборудованием — отличная производительность, но высокая стоимость и закрытая экосистема.
  • iWARP: RDMA на основе TCP — надежный, но сложный и ресурсоемкий метод.
  • RoCEv2: RDMA на основе UDP/IP поверх стандартного Ethernet — маршрутизируемый, экономичный и высокопроизводительный.

RoCEv1 была ограничена сетями уровня 2 (Ethertype 0x8915), что ограничивало её использование отдельными подсетями. RoCEv2 (выпущена в 2014 году) добавляет заголовки UDP/IP (порт 4791), что обеспечивает маршрутизацию на уровне 3 и масштабируемость.

Сегодня RoCEv2 доминирует, потому что:

  • Совместимость с существующей инфраструктурой Ethernet (требуются только сетевые карты с поддержкой RoCE).
  • Более низкая стоимость, чем у InfiniBand.
  • Сопоставимая производительность: Тесты показывают, что время обучения в IB и RoCEv2 практически одинаково для моделей с 7B параметрами и точностью BF16.

Крупные игроки, такие как Meta (24 000 графических процессоров H100 для Llama 3), и ведущие китайские поставщики выбирают RoCEv2 для сверхмасштабных сетей искусственного интеллекта.

24 000 графических процессоров H100 для Llama 3
Типичная структура пакетов RoCEv2 и сетевые диаграммы.

Типичная структура пакетов RoCEv2 и сетевые диаграммы.

Основные технические принципы RoCEv2

Ethernet без потерь: основы

Требования RoCEv2 нулевая потеря пакетовПоскольку RDMA не имеет встроенной функции повторной передачи для ненадежных каналов передачи, традиционный Ethernet отбрасывает пакеты при перегрузке, что неприемлемо для RDMA.

Решения:

  • PFC (приоритетное управление потоком): Приостановка кадров с заданным приоритетом для предотвращения переполнения буфера без влияния на другие классы трафика.
  • ECN (явное уведомление о перегрузке): Помечает пакеты в точках перегрузки; конечные точки заблаговременно снижают скорость передачи данных.
  • DCQCN (Уведомление о квантованной перегрузке центров обработки данных): Сочетает ECN с корректировкой тарифов для справедливого управления перегрузками при высокой загрузке сети.

Расширенные реализации включают в себя настройку на основе искусственного интеллекта (например, динамические пороговые значения ECN, основанные на характере трафика).

В усовершенствованных версиях добавлена ​​настройка на основе искусственного интеллекта.
Механизмы PFC и ECN обеспечивают отсутствие потерь в тканях RoCE.

Механизмы PFC и ECN обеспечивают отсутствие потерь в тканях RoCE.

Управление дорожным движением и заторами

  • Приоритетные очереди для различных типов трафика
  • Планирование, например, с использованием алгоритмов WFQ (Weighted Fair Queuing) или WRR.
  • Настройка QoS для потоков, специфичных для ИИ (например, AllReduce против P2P).

В кластерах ИИ:

  • Параллельные данные (DP)Операции AllReduce с высокой пропускной способностью
  • Параллельный трубопровод (ПП): Прием/отправка с учетом задержки

Более крупные точки доставки (POD) минимизируют перемещение пациентов через позвоночник и уменьшают заторы.

RoCEv2 против InfiniBand: почему Ethernet побеждает

Консорциум Ultra Ethernet (UEC)Основанная в 2023 году компания, в состав которой входят такие компании, как Meta, Intel, Cisco и AMD, свидетельствует о доминировании Ethernet. Скорость портов Ethernet (400G/800G/1.6T) превосходит показатели IB, а масштабность отрасли стимулирует инновации.

Равенство в производительности:

  • Задержка от отправителя до получателя сопоставима.
  • RoCE поддерживает VXLAN для облачных/многопользовательских решений (IB этого не делает).

Экономическое преимущество: переход на RoCE осуществляется путем обновления только сетевых карт — без полной замены оборудования в рамках протокола IB.

Стратегии развертывания: многорельсовая система для максимального масштабирования.

В кластерах ИИ, многорельсовый В рамках развертывания 8 графических процессоров каждого сервера подключаются к отдельным коммутаторам Leaf, что позволяет максимально увеличить размер POD-системы и уменьшить перегрузку между POD-системами.

Пример с использованием высокопроизводительных коммутаторов Leaf:

  • 51.2T Leaf: Многоканальная система поддерживает 512 карт 400G (тысячи графических процессоров) на один модуль.
  • Ограничение на количество карт в одной линии составляет примерно 64, что увеличивает межпод-трафик в 8 раз и более.

В сочетании с топологиями Spine-Leaf или трехуровневой архитектурой, многоуровневая архитектура позволяет создавать кластеры с WAN-картами (более 10 000) с переподпиской 1:1.

Многорельсовая топология позволяет создавать более крупные и менее загруженные модули.

Сети RoCE для распределенного обучения ИИ в масштабе – Инженерные разработки…

Многорельсовая топология позволяет создавать более крупные и менее загруженные модули.

Решения RoCEv2 от H3C: лидеры в области интеллектуальных сетей без потерь.

H3C (новая группа H3C) предоставляет комплексные решения от начала до конца. Решения для центров обработки данных RoCEv2, обеспечивая работу национальных лабораторий и коммерческих центров искусственного интеллекта в Китае.

Ключевые продукты:

  • Основные коммутаторы серии S12500 (до 800G портов)
  • Листовой материал высокой плотности S9827/S6890 для 400G/800G
  • Полный портфель графических процессоров от <1K до 512K

Инновации:

  • AD-DC SeerFabric: Платформа управления на основе искусственного интеллекта для автоматизированного развертывания, визуализации и эксплуатации.
  • ИИ ECNОбучение с подкреплением динамически оптимизирует пороговые значения ECN.
  • Предварительная проверка обучения в один клик: проверка подключения, перфестинг, тесты NCCL в часах и днях.

Реальные случаи:

  • Национальная лаборатория: 2120 графических процессоров NV с 400G RoCE.
  • Кластер WAN-карт: более 16 000 графических процессоров, от разных производителей (NVIDIA, Huawei, отечественные компании).
  • Предприятие: Преодоление зависимости от IB-провайдера благодаря конвергенции трех сетей.
Высокопроизводительные коммутаторы H3C для центров обработки данных, поддерживающие масштабные развертывания RoCE.

Высокопроизводительные коммутаторы H3C для центров обработки данных, поддерживающие масштабные развертывания RoCE.

Автоматизация операций с помощью AD-DC

Традиционный способ развертывания: недели ручной настройки тысяч кабелей/IP-адресов.

H3C АЦП:

  • Предоставление доступа в один клик на основе намерений
  • Визуализация сквозной топологии (GPU-to-NIC-to-switch)
  • Обнаружение неисправностей за считанные минуты (ошибки проводки, помехи в системе коррекции коэффициента мощности).
  • Мониторинг в процессе обучения: время кругового пути (RTT), метки ECN, тепловые карты загруженности.
  • Прогнозирование состояния оптического модуля

Результат: развертывание сократилось с недель до дней; устранение неполадок — с дней до минут.

Стратегии оптимизации для достижения максимальной производительности

  1. Аппаратные средства: Jumbo-кадры (MTU 9000), большие буферы, сетевые карты с поддержкой RoCE (например, серии ConnectX или аналогичные).
  2. Cеть: Включить PFC на приоритете RoCE, маркировку ECN, балансировку нагрузки ECMP.
  3. ЗаполнительДля пакетной обработки небольших сообщений предпочтение отдается записи по протоколу RDMA, а не чтению.
  4. Безопасность.: IPsec для шифрования, изоляция VLAN, мониторинг оборудования.
  5. Тюнинг: Управление перегрузкой на основе ИИ для сценариев incast.

Будущие тенденции в области RoCEv2 (2026 год и далее)

  • Ультра EthernetУлучшения для еще более низкой задержки в хвостовой части спектра.
  • порты 800G/1.6T: Стандарт для развертывания в 2025–2026 годах.
  • Внутрисетевые вычисления: Передача функций агрегации/сокращения на коммутаторы.
  • Взаимодействие между производителями разных производителейОткрытые экосистемы, разрушающие проприетарные барьеры.
  • Искусственно-ориентированные тканиСамооптимизирующиеся сети, прогнозирующие структуру трафика.

По мере роста моделей ИИ (например, GPT-4 масштабируется до триллионов токенов), маршрутизируемая, не требующая потерь архитектура RoCEv2 останется центральной.

Заключение: Внедряйте RoCEv2 для инфраструктуры искусственного интеллекта следующего поколения.

RoCEv2 — это не просто обновление, это основа для масштабируемых и эффективных центров обработки данных для искусственного интеллекта. Благодаря производительности, сопоставимой с InfiniBand, при значительно меньшей стоимости, а также интеллектуальным решениям от таких лидеров, как H3C, организации могут создавать кластеры WAN-карт, которые обучают модели быстрее и дешевле.

Готов к развертыванию RoCEv2Начните с проектирования коммутационной матрицы без потерь, многоканальных топологий и автоматизированного управления. Будущее высокопроизводительных сетей — за Ethernet, и RoCEv2 играет в этом ведущую роль.

Наверх