В эпоху моделей искусственного интеллекта с триллионами параметров создание высокопроизводительных кластеров ИИ стало ключевым конкурентным преимуществом для поставщиков облачных услуг и предприятий, работающих в сфере ИИ. В данной статье подробно анализируются уникальные сетевые требования к рабочим нагрузкам ИИ, сравниваются архитектурные различия между кластерами ИИ и традиционными центрами обработки данных, а также представлены две основные парадигмы проектирования сетей, предложенные компанией Arista. Запланированная конечная точка (NSF) и Переключение по расписанию (DSF) — предоставляя при этом практические рекомендации по выбору топологии и межсоединение 800G технологии для разных масштабов.
Содержание
ПереключатьТребования к сети и характеристики трафика кластеров ИИ
Основные требования: экстремальный масштаб, эффективность и гибкость.

Поскольку модели ИИ быстро масштабируются до триллионов параметров, кластеры для обучения и вывода результатов предъявляют беспрецедентные требования к базовой сети:
- Сверхмасштабное расширение: Должен поддерживать совместные вычисления на сотнях тысяч и до миллионах XPU (GPU/NPU), охватывая все сценарии — от одностоечных до многоцентровых.
- Высокая эффективность и сверхнизкая задержкаЧастые операции коллективной связи (например, AllReduce, AllGather) между XPU требуют задержки на уровне микросекунд и использования полосы пропускания не менее 90%.
- Гетерогенная адаптация: Должна обеспечивать бесперебойную поддержку XPU от разных производителей, различных бюджетов энергопотребления стойки и смешанных рабочих нагрузок (обучение + вывод), избегая снижения производительности из-за «эффекта деревянной бочки» (общая производительность ограничивается самым медленным узлом).
Четыре уникальные характеристики трафика ИИ
По сравнению с традиционным трафиком центров обработки данных, трафик ИИ демонстрирует совершенно иные закономерности, которые напрямую влияют на решения, касающиеся проектирования сети:
- Высокая синхронизацияВ процессе обучения задания обмениваются градиентами и параметрами в фиксированных циклах, что приводит к «длительным, высокосинхронизированным» потокам трафика, которые легко вызывают перегрузку Incast.
- Сильная зависимость от RDMAТребуется сеть без потерь**: RDMA поверх конвергентного Ethernet (RoCEv2) является стандартом де-факто; любая потеря пакета приводит к повторной передаче и резким скачкам задержки.
- Характеристики стабильного потокаОтдельные потоки имеют длительный срок жизни (от начала до завершения задания), чрезвычайно высокую скорость и низкую энтропию (относительно фиксированные пути), что делает традиционную балансировку нагрузки ECMP неэффективной.
- Надежность перенесена на сеть.Приложения искусственного интеллекта полностью перекладывают ответственность за надежность на сеть — даже потеря одного пакета может испортить всю итерацию обучения.
Архитектурные различия между кластерами для ИИ и традиционными кластерами центров обработки данных.
Традиционные кластеры ориентированы на «процессоры и серверы», при этом сеть в основном обеспечивает горизонтальный трафик между приемом данных, хранением и вычислениями. В отличие от них, современные кластеры ИИ ориентированы на «XPU» и четко разделяют:
- Фронтенд-сеть – Обмен данными между процессорами и между процессором и хранилищем (аналогично традиционным центрам обработки данных).
- Backend Network (Rail) – Высокоскоростное соединение XPU между собой с низкой задержкой, которое становится узким местом производительности и основным направлением проектирования.
Такая двухсетевая архитектура значительно увеличивает общую сложность.
Две основные парадигмы проектирования сетей для кластеров ИИ
Компания Arista классифицирует существующие сети бэкэнда кластеров ИИ на две основные парадигмы в зависимости от того, кто отвечает за планирование:
Архитектура с планированием работы конечных точек (NSF – Network Scheduled Fabric)
Основная концепция
Вся интеллектуальная система планирования находится на конечных устройствах (NIC/DPU/IPU). Сетевая инфраструктура выполняет только базовую пересылку пакетов — по сути, оптимизированное расширение традиционного Ethernet.
Основные технические характеристики
- Топология: Классическая плоская Spine-Leaf или Super-Spine Clos, коммутаторам требуются только порты с высоким радиусом и скоростью передачи данных 800G.
- Требования к конечным точкам: сетевые карты должны поддерживать динамическую балансировку нагрузки (DLB), адаптивную маршрутизацию, распыление пакетов и сквозное управление перегрузкой (ECN/WRED).
- Преимущества: Простая архитектура, гибкая кабельная разводка, полная совместимость с существующей экосистемой Ethernet, идеально подходит для кластеров малого и среднего размера (≤10 тыс. XPU).
- Ограничения: Сильная зависимость от конкретного поставщика на уровне сетевых карт; сложность планирования резко возрастает в очень больших масштабах, подверженность дисбалансу нагрузки и перегрузкам.
Архитектура с планированием коммутации (DSF – Direct Switch Fabric)
Основная концепция
Ответственность за планирование полностью переложена на сетевые коммутаторы. В конечных устройствах используются стандартные сетевые карты, а коммутационная матрица обеспечивает передачу данных без потерь и с высокой производительностью за счет коммутации на основе ячеек и управления потоком на основе кредитов.
Основные технические характеристики
- Топология: коммутаторы Leaf обрабатывают сегментацию ячеек, виртуальные очереди вывода (VOQ), планирование и управление кредитами; коммутаторы Spine/Super-Spine представляют собой простые маломощные пересыльщики данных.
- Механизм без потерь: протокол запроса/предоставления кредита + PFC + ECN гарантирует отсутствие переполнения буфера от начала до конца.
- Возможности масштабирования: одна система поддерживает 4.6 тыс. × 800G или 9.2 тыс. × 400G XPU; двухуровневое расширение позволяет достичь 32 тыс. и более графических процессоров.
- Преимущества: независимость от производителя сетевых адаптеров, чрезвычайно стабильная работа в сверхбольших масштабах, точное управление перегрузкой.
- Ограничения: Более высокая сложность и стоимость коммутационного оборудования; кабельная система должна соответствовать требованиям коммутации сотовых сетей.
Выбор топологии и технологии межсоединений 800G
Многоплоскостная топология — основа для многопроцессорных вычислительных систем (XPU) с миллионным масштабом.
Для достижения линейного масштабирования до сотен тысяч или миллионов XPU компания Arista настоятельно рекомендует следующее: Многоплоскостной архитектура:
- Каждая плоскость представляет собой независимую структуру Spine-Leaf (обычно 4K–10K XPU).
- Несколько плоскостей работают параллельно и соединены между собой посредством агрегационного слоя.
- 10 плоскостей могут легко превысить 100 000 XPU, сохраняя при этом изоляцию отказов и линейное масштабирование полосы пропускания.
Выбор технологии межсоединений 800G в зависимости от сценария

| Сценарий | Рекомендуемая технология | Расстояние | потребляемая мощность | Стоимость | Заметки |
| Внутристойковый (<2 м) | ЦАП / АКС | ≤2 м | Очень низкий | Самая низкая | Кабель прямого подключения из меди / активной меди |
| Внутрирядный / Короткий вылет | ЛПО / ЛРО | ≤50 м | Очень низкий | Низкий | Оптика с линейным приводом и возможностью подключения — значительная экономия энергии по сравнению с DSP. |
| Средняя дальность действия (≤500 м) | DSP Когерентный | ≤500 м | Средняя | Средний | Традиционная оптика DSP, зрелая экосистема |
| Дальний радиус действия (2–100 км) | DSP + DWDM | ≤100 км+ | Высокая | Высокая | Требуется для кластеров, состоящих из нескольких зданий или расположенных на территории кампуса. |
Заключение и будущие тенденции
Основные выводы по выбору архитектурного объекта
- ≤10K XPU → Предпочтительнее Запланированная конечная точка (NSF) для обеспечения гибкости в плане стоимости и развертывания.
- ≥32K XPU → Необходимо внедрить Переключение по расписанию (DSF) для обеспечения стабильной работы и устранения узких мест на конечных устройствах.
- Масштаб в миллион раз → Многоплоскостной + DSF В настоящее время это единственное проверенное решение, пригодное для промышленного использования.
Будущие тенденции
- Более глубокая оптимизация примитивов коллективной коммуникации (AllReduce, AllGather и др.) на сетевом уровне.
- Стандартизированный сравнительный анализ MPI/NCCL/RCCL на реальных сетях искусственного интеллекта.
- Интеграция новых стандартов, таких как Ultra Ethernet Consortium (UEC) и UALink, позволит отрасли перейти от «разрозненных, специализированных решений» к открытым, стандартизированным межсоединениям со сверхнизкой задержкой.
Создание суперкомпьютера следующего поколения для искусственного интеллекта — это уже не просто покупка большего количества графических процессоров, а решающее поле битвы за производительность, масштабируемость и общую стоимость владения в сети.
Сопутствующие товары:
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC
$550.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера
$700.00
-
Модуль оптического приемопередатчика NVIDIA MMA1Z00-NS400, совместимый с 400G QSFP112 VR4 PAM4 850 нм 50 м MTP/MPO-12 OM4 FEC
$550.00
-
Совместимость с NVIDIA MMS1Z00-NS400 400G NDR QSFP112 DR4 PAM4 1310 нм 500 м MPO-12 с модулем оптического приемопередатчика FEC
$850.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$900.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$1199.00
-
Совместимый с OSFP NVIDIA MMS4X50-NM 2x400G FR4 PAM4 1310 нм 2 км DOM двухдуплексный оптический модуль LC SMF
$1200.00
-
NVIDIA MMS4A00 (980-9IAH1-00XM00) совместимый 1.6T OSFP DR8D PAM4 1311 нм 500 м IHS/ребристый верхний двойной оптический приемопередатчик MPO-12 SMF
$2600.00
-
Совместимый с NVIDIA 1.6T 2xFR4/FR8 OSFP224 PAM4 1310 нм 2 км IHS/ребристый верхний двухдуплексный LC SMF оптический приемопередатчик
$3100.00
-
NVIDIA MMS4A00 (980-9IAH0-00XM00) совместимый 1.6T 2xDR4/DR8 OSFP224 PAM4 1311 нм 500 м RHS/Flat Top двойной оптический приемопередатчик MPO-12/APC InfiniBand XDR SMF
$3600.00
