Основные принципы проектирования кластеров ИИ: масштабируемость, эффективность и гибкость.

В эпоху моделей искусственного интеллекта с триллионами параметров создание высокопроизводительных кластеров ИИ стало ключевым конкурентным преимуществом для поставщиков облачных услуг и предприятий, работающих в сфере ИИ. В данной статье подробно анализируются уникальные сетевые требования к рабочим нагрузкам ИИ, сравниваются архитектурные различия между кластерами ИИ и традиционными центрами обработки данных, а также представлены две основные парадигмы проектирования сетей, предложенные компанией Arista. Запланированная конечная точка (NSF) и Переключение по расписанию (DSF) — предоставляя при этом практические рекомендации по выбору топологии и межсоединение 800G технологии для разных масштабов.

Требования к сети и характеристики трафика кластеров ИИ

Основные требования: экстремальный масштаб, эффективность и гибкость.

Требования к сети и характеристики трафика кластеров ИИ

Поскольку модели ИИ быстро масштабируются до триллионов параметров, кластеры для обучения и вывода результатов предъявляют беспрецедентные требования к базовой сети:

  • Сверхмасштабное расширение: Должен поддерживать совместные вычисления на сотнях тысяч и до миллионах XPU (GPU/NPU), охватывая все сценарии — от одностоечных до многоцентровых.
  • Высокая эффективность и сверхнизкая задержкаЧастые операции коллективной связи (например, AllReduce, AllGather) между XPU требуют задержки на уровне микросекунд и использования полосы пропускания не менее 90%.
  • Гетерогенная адаптация: Должна обеспечивать бесперебойную поддержку XPU от разных производителей, различных бюджетов энергопотребления стойки и смешанных рабочих нагрузок (обучение + вывод), избегая снижения производительности из-за «эффекта деревянной бочки» (общая производительность ограничивается самым медленным узлом).

Четыре уникальные характеристики трафика ИИ

По сравнению с традиционным трафиком центров обработки данных, трафик ИИ демонстрирует совершенно иные закономерности, которые напрямую влияют на решения, касающиеся проектирования сети:

  • Высокая синхронизацияВ процессе обучения задания обмениваются градиентами и параметрами в фиксированных циклах, что приводит к «длительным, высокосинхронизированным» потокам трафика, которые легко вызывают перегрузку Incast.
  • Сильная зависимость от RDMAТребуется сеть без потерь**: RDMA поверх конвергентного Ethernet (RoCEv2) является стандартом де-факто; любая потеря пакета приводит к повторной передаче и резким скачкам задержки.
  • Характеристики стабильного потокаОтдельные потоки имеют длительный срок жизни (от начала до завершения задания), чрезвычайно высокую скорость и низкую энтропию (относительно фиксированные пути), что делает традиционную балансировку нагрузки ECMP неэффективной.
  • Надежность перенесена на сеть.Приложения искусственного интеллекта полностью перекладывают ответственность за надежность на сеть — даже потеря одного пакета может испортить всю итерацию обучения.

Архитектурные различия между кластерами для ИИ и традиционными кластерами центров обработки данных.

Традиционные кластеры ориентированы на «процессоры и серверы», при этом сеть в основном обеспечивает горизонтальный трафик между приемом данных, хранением и вычислениями. В отличие от них, современные кластеры ИИ ориентированы на «XPU» и четко разделяют:

  • Фронтенд-сеть – Обмен данными между процессорами и между процессором и хранилищем (аналогично традиционным центрам обработки данных).
  • Backend Network (Rail) – Высокоскоростное соединение XPU между собой с низкой задержкой, которое становится узким местом производительности и основным направлением проектирования.

Такая двухсетевая архитектура значительно увеличивает общую сложность.

Две основные парадигмы проектирования сетей для кластеров ИИ

Компания Arista классифицирует существующие сети бэкэнда кластеров ИИ на две основные парадигмы в зависимости от того, кто отвечает за планирование:

Архитектура с планированием работы конечных точек (NSF – Network Scheduled Fabric)

Основная концепция

Вся интеллектуальная система планирования находится на конечных устройствах (NIC/DPU/IPU). Сетевая инфраструктура выполняет только базовую пересылку пакетов — по сути, оптимизированное расширение традиционного Ethernet.

Основные технические характеристики

  • Топология: Классическая плоская Spine-Leaf или Super-Spine Clos, коммутаторам требуются только порты с высоким радиусом и скоростью передачи данных 800G.
  • Требования к конечным точкам: сетевые карты должны поддерживать динамическую балансировку нагрузки (DLB), адаптивную маршрутизацию, распыление пакетов и сквозное управление перегрузкой (ECN/WRED).
  • Преимущества: Простая архитектура, гибкая кабельная разводка, полная совместимость с существующей экосистемой Ethernet, идеально подходит для кластеров малого и среднего размера (≤10 тыс. XPU).
  • Ограничения: Сильная зависимость от конкретного поставщика на уровне сетевых карт; сложность планирования резко возрастает в очень больших масштабах, подверженность дисбалансу нагрузки и перегрузкам.

Архитектура с планированием коммутации (DSF – Direct Switch Fabric)

Основная концепция

Ответственность за планирование полностью переложена на сетевые коммутаторы. В конечных устройствах используются стандартные сетевые карты, а коммутационная матрица обеспечивает передачу данных без потерь и с высокой производительностью за счет коммутации на основе ячеек и управления потоком на основе кредитов.

Основные технические характеристики

  • Топология: коммутаторы Leaf обрабатывают сегментацию ячеек, виртуальные очереди вывода (VOQ), планирование и управление кредитами; коммутаторы Spine/Super-Spine представляют собой простые маломощные пересыльщики данных.
  • Механизм без потерь: протокол запроса/предоставления кредита + PFC + ECN гарантирует отсутствие переполнения буфера от начала до конца.
  • Возможности масштабирования: одна система поддерживает 4.6 тыс. × 800G или 9.2 тыс. × 400G XPU; двухуровневое расширение позволяет достичь 32 тыс. и более графических процессоров.
  • Преимущества: независимость от производителя сетевых адаптеров, чрезвычайно стабильная работа в сверхбольших масштабах, точное управление перегрузкой.
  • Ограничения: Более высокая сложность и стоимость коммутационного оборудования; кабельная система должна соответствовать требованиям коммутации сотовых сетей.

Выбор топологии и технологии межсоединений 800G

Многоплоскостная топология — основа для многопроцессорных вычислительных систем (XPU) с миллионным масштабом.

Для достижения линейного масштабирования до сотен тысяч или миллионов XPU компания Arista настоятельно рекомендует следующее: Многоплоскостной архитектура:

  • Каждая плоскость представляет собой независимую структуру Spine-Leaf (обычно 4K–10K XPU).
  • Несколько плоскостей работают параллельно и соединены между собой посредством агрегационного слоя.
  • 10 плоскостей могут легко превысить 100 000 XPU, сохраняя при этом изоляцию отказов и линейное масштабирование полосы пропускания.

Выбор технологии межсоединений 800G в зависимости от сценария

Выбор технологии межсоединений 800G в зависимости от сценария
СценарийРекомендуемая технологияРасстояниепотребляемая мощностьСтоимостьЗаметки
Внутристойковый (<2 м)ЦАП / АКС≤2 мОчень низкийСамая низкаяКабель прямого подключения из меди / активной меди
Внутрирядный / Короткий вылетЛПО / ЛРО≤50 мОчень низкийНизкийОптика с линейным приводом и возможностью подключения — значительная экономия энергии по сравнению с DSP.
Средняя дальность действия (≤500 м)DSP Когерентный≤500 мСредняяСреднийТрадиционная оптика DSP, зрелая экосистема
Дальний радиус действия (2–100 км)DSP + DWDM≤100 км+ВысокаяВысокаяТребуется для кластеров, состоящих из нескольких зданий или расположенных на территории кампуса.

Заключение и будущие тенденции

Основные выводы по выбору архитектурного объекта

  • ≤10K XPU → Предпочтительнее Запланированная конечная точка (NSF) для обеспечения гибкости в плане стоимости и развертывания.
  • ≥32K XPU → Необходимо внедрить Переключение по расписанию (DSF) для обеспечения стабильной работы и устранения узких мест на конечных устройствах.
  • Масштаб в миллион раз → Многоплоскостной + DSF В настоящее время это единственное проверенное решение, пригодное для промышленного использования.

Будущие тенденции

  • Более глубокая оптимизация примитивов коллективной коммуникации (AllReduce, AllGather и др.) на сетевом уровне.
  • Стандартизированный сравнительный анализ MPI/NCCL/RCCL на реальных сетях искусственного интеллекта.
  • Интеграция новых стандартов, таких как Ultra Ethernet Consortium (UEC) и UALink, позволит отрасли перейти от «разрозненных, специализированных решений» к открытым, стандартизированным межсоединениям со сверхнизкой задержкой.

Создание суперкомпьютера следующего поколения для искусственного интеллекта — это уже не просто покупка большего количества графических процессоров, а решающее поле битвы за производительность, масштабируемость и общую стоимость владения в сети.

Наверх