Двухплоскостные и многоплоскостные сети в центрах обработки данных для искусственного интеллекта

В предыдущей статье мы обсуждали различия между масштабированием вширь (Scale-Out) и масштабированием вверх (Scale-Up). Масштабирование вверх подразумевает вертикальное масштабирование за счет увеличения количества видеокарт GPU/NPU в пределах одного узла для повышения производительности отдельных узлов. Масштабирование вширь, с другой стороны, предполагает горизонтальное масштабирование за счет добавления большего количества узлов для расширения общего масштаба сети, что позволяет поддерживать задачи обучения больших моделей, с которыми один узел не может справиться самостоятельно. В этой статье основное внимание уделяется представлению архитектур сетей масштабирования вширь и тенденциям их развития в центрах вычислений искусственного интеллекта.

Типичные архитектуры для сетей центров обработки данных в области искусственного интеллекта.

Сети центров обработки данных для ИИ бывают разных типов, таких как CLOS, Dragonfly, Slim Fly, Torus и другие. Кроме того, развилось несколько вариантов сетевых архитектур, включая Rail-only, Rail-optimized, MPFT, ZCube и другие. Среди них архитектура Fat-Tree CLOS широко используется в сценариях обучения больших моделей благодаря эффективной маршрутизации, отличной масштабируемости и простоте управления. Обычно используется двухслойная архитектура Spine-Leaf CLOS. Если двухслойная структура не может удовлетворить потребности в масштабировании, для расширения можно добавить дополнительный слой Super-Spine.

Двухслойная архитектура CLOS

Двухслойная архитектура CLOS

Трехслойная архитектура CLOS

Трехслойная архитектура CLOS

Архитектура, основанная исключительно на железнодорожном транспортеПредложенная Массачусетским технологическим институтом в 2023 году сетевая архитектура, использующая только Rail-серверы, сохраняет домен HB и коммутаторы Rail, исключая при этом коммутаторы Spine, что значительно снижает сетевые затраты и энергопотребление.

Архитектура, основанная исключительно на железнодорожном транспорте

Например, используя коммутаторы 51.2T, всего 8 коммутаторов (128 портов 400G) могут сформировать обучающий кластер из тысячи карт.

Rail-Optimized Fat-Tree Architecture (ROFT)Как показано на рисунке ниже, в многорельсовой сетевой архитектуре требования к обмену данными для обучения ИИ могут быть ускорены за счет параллельной передачи по нескольким рельсам. Большая часть трафика агрегируется и передается в пределах одного рельса (проходя только через один уровень коммутации), в то время как небольшая часть включает в себя передачу между рельсами (требующую двух или более уровней), что снижает нагрузку на сеть в плане обмена данными.

Оптимизированная по рельсам архитектура "жирного дерева"

Двухплоскостная сетевая архитектура

В 2024 году Alibaba Cloud предложила двухпортовую двухплоскостную сетевую архитектуру, которая была применена в HPN-7.0. Основные цели этой архитектуры — повышение производительности, улучшение надежности и предотвращение поляризации хэшей. Эта многоканальная двухплоскостная конструкция основана на архитектуре ROFT и разделяет 400G-порты каждой сетевой карты на два порта 2x200G, подключаемых к двум разным коммутаторам Leaf (ToR). Нисходящие 400G-порты на коммутаторах Leaf разделяются на два 200G-канала, подключаемых к разным портам сетевых карт.

Двухплоскостная конструкция HPN

Двухплоскостная конструкция HPN обладает следующими ключевыми преимуществами:

  • Устранение поляризации хешированияВ традиционных сетях низкоэнтропийный и импульсный трафик, возникающий при обучении больших моделей, легко может вызывать поляризацию хешей, что приводит к неравномерному распределению трафика. Двухплоскостная конструкция разделяет коммутаторы ToR на две независимые группы, фиксируя пути для трафика, поступающего в восходящие каналы связи, предотвращая поляризацию хешей на уровне агрегации, обеспечивая равномерное распределение трафика, значительно сокращая длину очередей и повышая производительность сети.
  • Улучшенная масштабируемость и контроль затрат.Двухуровневая сеть может вместить более 15 000 графических процессоров, что на один уровень меньше по сравнению с традиционными трехуровневыми архитектурами CLOS и снижает затраты на развертывание.
  • Повышенная надежность и отказоустойчивостьКаждый графический процессор подключается к двум независимым коммутаторам ToR, что исключает единые точки отказа. В случае сбоев требуется обновление только локальных групп ECMP без вмешательства глобального контроллера, что повышает эффективность восстановления. Эти функции повышают отказоустойчивость сети и обеспечивают стабильность при обучении больших моделей.

Многоплоскостная сетевая архитектура

В мае 2025 года команда DeepSeek опубликовала статью под названием Анализ DeepSeek-V3: проблемы масштабирования и размышления об аппаратном обеспечении для архитектур ИИ.Введение концепции многоплоскостной сети. По мере экспоненциального роста масштабов параметров LLM (Large Language Model) традиционные трехслойные топологии CLOS типа «толстое дерево» все чаще демонстрируют ограничения в стоимости, масштабируемости и надежности.

DeepSeek-V3 использует многоуровневую сеть типа «толстое дерево» (MPFT) на базе InfiniBand для замены традиционной трехуровневой архитектуры «толстого дерева». В этой конфигурации каждый узел оснащен 8 графическими процессорами (GPU) и 8 сетевыми адаптерами IB 400 Гбит/с, причем каждый графический процессор соответствует независимому сетевому адаптеру IB, принадлежащему к разному «сетевому уровню». 8 графических процессоров на узел подключаются к 8 различным уровням (т.е., 8 двухуровневым уровням «толстого дерева»). Используя 64 коммутатора IB 400 Гбит/с, двухуровневая архитектура «толстого дерева» может поддерживать до 16 384 графических процессоров (один уровень включает 32 коммутатора Spine и 64 коммутатора Leaf, вмещающих 64 x 32 графических процессора; с 8 уровнями, в сумме 16 384 графических процессора). Для обмена трафиком между уровнями требуется внутриузловая пересылка.

внутриузловая пересылка

Этот многоплоскостной сетевой режим предлагает преимущества, аналогичные двухплоскостному сетевому режиму, с ключевым отличием в том, что каждый графический процессор имеет один восходящий канал связи с независимым плоскостью, и отсутствует отказоустойчивость с двумя восходящими каналами связи на каждой карте:

  • Низкая стоимостьПо сравнению с трехслойной архитектурой Fat-Tree, MPFT позволяет сэкономить до 40% сетевых затрат.
  • Более высокая масштабируемостьТеоретически поддерживает до 16 384 графических процессоров.
  • Изоляция трафикаКаждый самолет работает независимо, что предотвращает перегрузку между самолетами.

В статье сравниваются несколько режимов работы сети (FT2: двухслойное толстое дерево, MPFT: многоплоскостное толстое дерево, FT3: трехслойное толстое дерево, SF: тонкая муха, DF: стрекоза):

Сравнительная таблица режимов работы сети

Как показано, MPFT демонстрирует явные преимущества в стоимости на узел, масштабируемости и других аспектах.

Однако описанный выше MPFT не является оптимальной реализацией. Более идеальный многоплоскостной сетевой режим показан ниже:

Идеальная схема развертывания в нескольких плоскостях

Каждая сетевая карта оснащена несколькими физическими портами (в данном случае, 4 интерфейса 200G), при этом каждый порт подключается к независимой сетевой плоскости (аналогично двухплоскостному режиму HPN 7.0 от Alibaba Cloud, но с 4 интерфейсами на сетевую карту вместо 2). Одна пара очередей (QP) может использовать все доступные порты для передачи и приема пакетов.

Приблизим изображение участка этой многоплоскостной конфигурации для детального рассмотрения:

Детальное увеличение изображения многоплоскостной установки

В качестве примера рассмотрим коммутаторы 102.4T, предоставляющие 128 портов 800G или 512 портов 200G через Shuffle (подробнее о Shuffle будет рассказано в будущей статье; коммутаторы могут напрямую предоставлять 512 каналов 200G со встроенным Shuffle или использовать внешний Shuffle Box или Breakout Shuffle для распределения и сопоставления оптоволоконных каналов). Каждый графический процессор подключается к 4 различным плоскостям через 4 порта 200G, управляемых одним QP для балансировки нагрузки пакетов между портами. Этот режим особенно удобен для трафика MoE «все ко всем».

Подробная схема сети:

Подробная схема многоплоскостной сети

В двухуровневой 4-плоскостной конфигурации она также может вместить 16 384 графических процессора (примечание: поскольку каждая сетевая карта подключается к 4 портам 200G, количество коммутаторов увеличивается — требуется 1,024 коммутатора Spine и 2,048 коммутаторов Leaf, что в 4 раза больше, чем 768 коммутаторов в однопортовой конфигурации MPFT).

двухслойная 4-плоскостная конфигурация

Кроме того, для реализации этих функций к сетевым картам предъявляются новые требования: поддержка многоплоскостной связи, обеспечение балансировки нагрузки пакетов QP между несколькими плоскостями. Из-за поступления пакетов не по порядку через разные плоскости сетевые карты должны изначально поддерживать обработку пакетов, поступающих не по порядку.

Новейшая технология NVIDIA CX-8 уже поддерживает 4 сетевых уровня (4-Plane), что позволяет осуществлять многопутевое распространение пакетов по одному QP с аппаратной обработкой пакетов в произвольном порядке для обеспечения согласованности данных.

В целом, в ближайшем будущем для расширения масштабируемых сетевых возможностей в центрах обработки данных для ИИ вероятными тенденциями станут переход от трехуровневой к двухуровневой сетевой архитектуре, создание кластеров из десяти-сот тысяч плат с использованием двух уровней и внедрение многопортовых многоплоскостных сетей.

Этот всеобъемлющий обзор двухплоскостных и многоплоскостных сетевых архитектур подчеркивает их решающую роль в оптимизации сетей центров обработки данных для ИИ, кластеризации графических процессоров и высокопроизводительных вычислений для крупномасштабного обучения ИИ. Эти инновации решают ключевые проблемы масштабируемости, экономической эффективности и надежности для центров интеллектуальных вычислений следующего поколения.

Наверх