проверка данных
С тех пор, как OpenAI представила ChatGPT, большие языковые модели (LLM) привлекли значительное внимание и быстро развивались. Многие предприятия инвестируют в предварительное обучение LLM, чтобы не отставать от этой тенденции. Однако обучение LLM масштаба 100B обычно требует значительных вычислительных ресурсов, таких как кластеры, оснащенные тысячами графических процессоров. Например, модель серии Falcon обучает модель 180B на кластере графических процессоров 4096 A100, что занимает почти 70 дней для токенов 3.5T. Поскольку масштабы данных продолжают расти, потребность в вычислительной мощности увеличивается. Например, компания Meta обучила свою модель серии LLaMA3 с использованием токенов 15T в двух кластерах H24 по 100 КБ.
В этой статье мы углубимся в компоненты и конфигурации, необходимые для создания крупномасштабных кластеров графических процессоров. Мы рассмотрим различные типы графических процессоров, конфигурации серверов, сетевые устройства (такие как сетевые карты, коммутаторы и оптические модули) и топологии сети центров обработки данных (например, 3-уровневую, Fat-Tree). В частности, мы рассмотрим конфигурации NVIDIA DGX A100 SuperPod и DGX H100 SuperPod, а также распространенные топологии, используемые в кластерах с несколькими графическими процессорами.
Имейте в виду, что создание сверхбольших кластеров графических процессоров — чрезвычайно сложная задача, и эта статья лишь поверхностно. При практическом развертывании кластера в игру вступают сети хранения, сети управления и другие аспекты, но мы не будем здесь вдаваться в эти детали. Кроме того, топология сети различается в зависимости от сценариев применения. Наше внимание будет сосредоточено на древовидных топологиях, обычно используемых в крупномасштабных кластерах AI GPU. Наконец, мы не будем рассматривать критически важные компоненты, такие как системы питания и системы охлаждения, которые необходимы для обслуживания и эксплуатации кластеров графических процессоров.
Соответствующие компоненты
Графические процессоры
На диаграмме ниже показаны графические процессоры Ampere, Hopper и новейшей серии Blackwell. Обратите внимание, что объем памяти, вычислительная мощность и возможности NVLink постепенно улучшаются:
A100 -> H100: плотность вычислений FP16 увеличивается более чем в 3 раза, а энергопотребление увеличивается только с 400 Вт до 700 Вт.
H200 -> B200: плотность вычислений FP16 увеличивается вдвое, а энергопотребление увеличивается с 700 Вт до 1000 Вт.
Плотность вычислений B200 FP16 примерно в 7 раз выше, чем у A100, а энергопотребление всего в 2.5 раза выше.
Графические процессоры Blackwell поддерживают точность FP4, предлагая вдвое большую вычислительную мощность, чем FP8. Некоторые сравнения между FP4 и архитектурой FP8 Хоппера показывают еще более значительное ускорение.
Обратите внимание, что GB200 использует полный чип B200, а B100 и B200 представляют собой соответствующие урезанные версии.

HGX-серверы
HGX — это высокопроизводительный сервер от NVIDIA, обычно содержащий 8 или 4 графических процессора, обычно в сочетании с процессорами Intel или AMD и использующий NVLink и NVSwitch для достижения полного соединения (8 графических процессоров обычно являются верхним пределом полного соединения NVLink, за исключением NVL). и СуперПод).
По сравнению с HGX A100 -> HGX H100 и HGX H200 мощность плотных вычислений FP16 увеличилась в 3.3 раза, а энергопотребление — менее чем в 2 раза.
По сравнению с HGX H100 и HGX H200 -> HGX B100 и HGX B200 мощность плотных вычислений FP16 выросла примерно в 2 раза, при этом энергопотребление аналогичное, максимум не более 50%.
Следует отметить, что:
Сеть HGX B100 и HGX B200 практически не обновлялась, а скорость сетевой карты IB по-прежнему составляет 8x400 Гбит/с.

NVIDIA DGX и HGX — два высокопроизводительных решения, предназначенные для глубокого обучения, искусственного интеллекта и крупномасштабных вычислений. Однако они различаются по конструкции и целевому применению:
ДГХ:
Ориентирован на обычных потребителей.
Предоставляет высокопроизводительные решения «подключи и работай».
Поставляется с комплексной поддержкой программного обеспечения, включая стек программного обеспечения глубокого обучения NVIDIA, драйверы и инструменты.
Обычно готовые и закрытые системы.
ХГХ:
Ориентировано на поставщиков облачных услуг и операторов крупных центров обработки данных.
Подходит для создания индивидуальных высокопроизводительных решений.
Модульная конструкция позволяет клиентам настраивать оборудование в соответствии со своими требованиями.
Обычно предоставляется в виде аппаратной платформы или эталонной архитектуры.
Что касается сети:
Networking
Сетевые карты
Мы сосредоточимся на ConnectX-5/6/7/8 — высокоскоростных сетевых картах от Mellanox.
Эти карты поддерживают как Ethernet, так и InfiniBand (IB).
ConnectX-5 был выпущен в 2016 году, за ним последовали ConnectX-6 в 2020 году, ConnectX-7 в 2022 году и ConnectX-8, который был представлен Дженсеном Хуангом во время конференции GTC 2024 года (хотя подробные спецификации пока недоступны).
Каждое поколение примерно удваивает общую пропускную способность, а следующее поколение, по оценкам, достигнет 1.6 Тбит/с.

Коммутаторы
NVIDIA также предлагает коммутаторы для Ethernet и InfiniBand (ИБ). Эти коммутаторы часто имеют десятки или даже сотни портов, что соответствует общей пропускной способности (двунаправленной коммутационной способности), рассчитанной как максимальная пропускная способность, умноженная на количество портов, где цифра «2» указывает на двустороннюю связь.

Ethernet-коммутаторы серии Spectrum-X
Коммутаторы InfiniBand серии Quantum-X:
Эти коммутаторы обеспечивают пропускную способность 400 Гбит/с.
Они преуспевают в высокопроизводительных вычислениях (HPC), искусственном интеллекте и гипермасштабируемых облачных инфраструктурах.
Коммутаторы Quantum-X обеспечивают надежную работу, минимизируя сложность и стоимость.
Помимо коммутаторов Mellanox, многие центры обработки данных теперь используют модульные коммутаторы (например, серию Arista 7800) наряду с традиционными вариантами. Например, компания Meta недавно построила два кластера графических процессоров с графическими процессорами 24K H100, используя коммутаторы Arista 7800. Серия 7800 включает модульные коммутаторы, такие как 7816LR3 и 7816R3, которые могут обеспечить 576 портов с высокоскоростной полосой пропускания 400G. Эти коммутаторы используют эффективные внутренние шины или объединительные платы коммутаторов для передачи и обработки данных с малой задержкой.

Оптические модули
Оптические модули играют решающую роль в оптоволоконной связи. Они преобразуют электрические сигналы в оптические, которые затем передаются по оптоволокну. Эти модули обеспечивают более высокую скорость передачи, большие расстояния и большую устойчивость к электромагнитным помехам. Обычно оптический модуль состоит из передатчика (для преобразования электрических сигналов в оптические) и приемника (для преобразования оптических сигналов в электрические).

Два наиболее часто используемых типа интерфейса оптических модулей:
SFP (подключаемый модуль малого форм-фактора): модули SFP обычно работают как одиночные каналы передачи (используя одно волокно или пару волокон).
QSFP (подключаемый модуль Quad Small Form-factor): модули QSFP поддерживают несколько каналов передачи. QSFP-DD (двойная плотность) еще больше увеличивает плотность портов за счет использования 8 каналов.
Недавно появился корпус OSFP (восьмеричный подключаемый модуль малого форм-фактора), специально разработанный для сценариев с высокой пропускной способностью, таких как 400 Гбит/с и 800 Гбит/с. Модули OSFP имеют 8 каналов и немного больше, чем QSFP-DD. Они несовместимы с интерфейсами SFP и QSFP и требуют преобразователей. На диаграмме ниже показано Модули OSFP 400 Гбит/с для разных расстояний передачи (100 м, 500 м, 2 км и 10 км).
Для различных расстояний рассмотрите следующие варианты модулей:
Между уровнями Core и Spine: используйте 10 км 400G LR4 или 800G 2xLR4.
Между слоями Spine и Leaf: выберите 2 км 400G FR4.
Между листом и ToR (верхняя часть стойки): выберите модули 500G DR длиной 400 м.

Топология сети центров обработки данных (DCN)
Основные понятия
Трафик Север-Юг: относится к трафику, поступающему из-за пределов центра обработки данных. Он включает в себя не только интернет-трафик, но и трафик между различными центрами обработки данных.
Трафик Восток-Запад: относится к трафику внутри одного центра обработки данных. Например, он включает в себя связь между различными серверами в центре обработки данных. В современных центрах обработки данных этот тип трафика обычно составляет значительную часть, часто составляя от 70% до 80% от общего объема.
Топологии общей сети центров обработки данных (DCN) показаны на схеме ниже.

Многоуровневая архитектура DCN
Распространены многоуровневые архитектуры DCN, особенно трехуровневая архитектура DCN. Эта древовидная структура в основном управляет трафиком Север-Юг и состоит из трех уровней:
- Базовый уровень. Базовый уровень обычно включает маршрутизаторы или коммутаторы высокой пропускной способности.
- Уровень агрегации (уровень распределения): отвечает за подключение устройств уровня доступа и обеспечение маршрутизации, фильтрации и управления трафиком между ними.
- Уровень доступа. На уровне доступа устройства конечных пользователей подключаются напрямую к сети, что облегчает подключение пользовательских устройств к сети центра обработки данных.

В этой архитектуре обычно предполагается, что не все устройства доступа взаимодействуют одновременно с максимальной пропускной способностью. Поэтому общепринятой практикой является выделение меньшей общей пропускной способности по мере продвижения вверх по иерархии. Например, общая пропускная способность на уровне доступа может составлять 20 Гбит/с, тогда как общая пропускная способность уровня распределения может составлять всего 1 Гбит/с. В крайних случаях, если все устройства взаимодействуют с максимальной пропускной способностью, это может привести к блокировке, увеличению задержки и непредсказуемым задержкам. Эту ситуацию часто называют переподпиской, при этом соотношение (например, 20:1) указывает на уровень переподписки.
В этой архитектуре обычно присутствуют механизмы резервирования или резервирования. Коммутаторы между ядром и уровнями распределения могут соединяться между собой, потенциально создавая петли. Чтобы избежать петель, используются протоколы связующего дерева (такие как протокол связующего дерева, STP). Однако это также может привести к потере пропускной способности из-за избыточности.
КЛОС Сети
Сети CLOS представляют собой структуру многоступенчатой коммутационной сети, первоначально предложенную Чарльзом Клосом в 1953 году. Хотя первоначально они использовались для телефонных станций, их принципы и конструкция в настоящее время широко применяются в центрах обработки данных и высокопроизводительных вычислениях. Основная идея заключается в предоставлении сетевых услуг с высокой пропускной способностью и низкой задержкой посредством многоступенчатой взаимосвязанной структуры при сохранении масштабируемости.
Как показано на схеме ниже, сети CLOS обычно состоят из трех уровней:
Входной уровень: отвечает за прием внешних входных сигналов.
Средний уровень: соединяет входной уровень с коммутаторами выходного уровня.
Выходной уровень: отвечает за отправку данных в конечный пункт назначения.

Сети CLOS предлагают следующие возможности и преимущества:
Неблокируемость. В идеале сеть CLOS является неблокируемой (без конвергенции), что означает, что задержки или потери передачи данных не возникают из-за узких мест коммутатора.
Масштабируемость: добавляя больше уровней и коммутаторов, сети CLOS можно легко масштабировать для поддержки дополнительных входных и выходных соединений без ущерба для производительности.
Резервирование: несколько путей конструкции позволяют передавать данные по альтернативным маршрутам, даже если некоторые коммутаторы или соединения выходят из строя, что повышает общую надежность сети.
Гибкость: сети CLOS поддерживают различные конфигурации для соответствия различным размерам систем и требованиям к производительности.
Топология толстого дерева
Архитектура сети центров обработки данных Fat-Tree (DCN) представляет собой специализированную форму сети CLOS. Он широко используется в высокопроизводительных вычислениях и крупных центрах обработки данных.
Чарльз Лейзерсон представил эту топологию сети в 1985 году. В отличие от традиционных трехуровневых древовидных сетей, топология Fat-Tree имеет некоторые уникальные особенности:
Все коммутаторы уровня заменены недорогими коммутаторами.
По мере продвижения вверх по иерархии связи «утолщаются», поддерживая постоянную общую пропускную способность между уровнями, чтобы избежать узких мест.
Количество коммутаторов и их соединений симметрично на каждом уровне, что обеспечивает сбалансированные пути для устройств и сводит к минимуму единые точки отказа.

Максимизация сквозной пропускной способности. Основная цель архитектуры Fat-Tree — максимизировать сквозную пропускную способность. Он обеспечивает соотношение переподписки 1:1, что приводит к неблокируемой сети.
Количество коммутаторов и конфигурация портов:
В топологии сети Fat-Tree с K-портами (где K — количество портов на коммутатор) все коммутаторы обычно имеют одинаковое количество портов.
Давайте рассмотрим 2-слойную и 3-слойную топологию Fat-Tree:
2-слойная топология толстого дерева:
Коммутаторы Spine: коммутаторы K/2, каждый с портами K*(K/2).
Листовые коммутаторы: K коммутаторов, каждый с портами K*K.
Эта конфигурация позволяет использовать максимум серверов KK/2 в неблокируемой сети, требуя сетевых коммутаторов 3K/2.
3-слойная топология толстого дерева:
Коммутаторы ядра (суперкоммутаторы Spine): (K/2)^2 коммутатора, каждый с K*(K/2)^2 портами.
Коммутаторы Spine: 2*(K/2)^2 коммутатора, каждый с портами K2(K/2)^2.
Листовые коммутаторы: 2*(K/2)^2 коммутатора, каждый с портами K2(K/2)^2.
Эта конструкция поддерживает максимум серверов K2(K/2)^2/2 = K^3/4 в неблокируемой сети, требующих 5*K^2/4 коммутаторов.

Как для двухуровневой, так и для трехуровневой топологии Fat-Tree количество коммутаторов и конфигурации портов соответствуют определенным шаблонам.
Обратите внимание, что существуют различия в терминологии (например, Fat-Tree и Spine-Leaf), но мы будем рассматривать их все под эгидой Fat-Tree.
NVIDIA DGX SuperPod – A100
Система DGX A100
Система DGX A100, как показано на схеме ниже, представляет собой конфигурацию высотой 6U со следующими компонентами:
8 графических процессоров A100: каждый графический процессор обеспечивает пропускную способность NVLink 600 ГБ/с.
Общая пропускная способность NVSwitch: система обеспечивает общую пропускную способность NVSwitch 4.8 ТБ/с с 640 ГБ памяти HBM2 (80 ГБ на каждый графический процессор).
Вычислительные соединения (IB): имеется 8 сетевых карт ConnectX-6, обеспечивающих общую пропускную способность 8 * 200 Гбит/с.
Подключения хранилища (IB): 2 подключения для хранения.
Внутриполосное соединение (Ethernet): используется для внутренней связи.
Внешнее соединение (Ethernet): Для целей управления.

Примечательно, что пропускная способность NVLink измеряется в байтах, тогда как пропускная способность сети обычно измеряется в битах. В этой системе внутренняя пропускная способность достигает 4.8 ТБ/с, тогда как общая пропускная способность сети составляет 1.6 Тбит/с, что дает разницу в 24 раза.

СуперПод СУ
SuperPod SU (масштабируемый блок), изображенный на рисунке, служит основным строительным блоком для создания DGX-SuperPod-A100. Вот его ключевые компоненты:
Каждый SU включает в себя 5 вычислительных стоек и 1 листовую сетевую стойку.
В каждой вычислительной стойке размещены 4 системы DGX A100 и 2 блока распределения питания (PDU) высотой 3U, всего 32 графических процессора A100 на каждую вычислительную стойку. Таким образом, SU состоит из 160 графических процессоров A100.
Сетевая стойка Leaf содержит 8 вычислительных коммутаторов (1U) и 2 коммутатора хранения данных (1U).
В вычислительных коммутаторах используются IB-коммутаторы QM8790 200 Гбит/с, что дает в общей сложности 320 портов:
160 портов подключаются к сетевым картам ConnectX-6 в вычислительных стойках, обеспечивая скорость 200 Гбит/с на каждый графический процессор.
Остальные 160 портов подключаются к стойке Spine.

В некоторых сценариях можно также использовать коммутаторы Top-of-Rack (ToR) внутри шкафа для упрощения прокладки кабелей. Однако такой подход может привести к перерасходу ресурсов порта. Например, из-за ограничений по питанию и проблем с охлаждением серверы с графическим процессором часто ограничиваются одним шкафом, что сокращает количество сетевых карт.

Обратите внимание, что хотя в некоторых промышленных сценариях может использоваться меньше сетевых карт (например, 4×200 Гбит/с) в системе 8*A100, общая топология сети остается аналогичной.
Стойка для позвоночника
Как показано на рисунке, стойка Spine содержит 20 вычислительных коммутаторов высотой 1U, в частности QM8790 200 Гбит/с IB-коммутаторов, всего 800 портов. Оставшийся внеполосный коммутатор и внутриполосный коммутатор можно использовать для управления сетью.

DGX SuperPod 100 узлов
На рисунке ниже показан DGX-SuperPOD на 100 узлов, включающий 5 SU и дополнительную стойку Spine Rack.
В состав каждого SU входит 8 конечных вычислительных коммутаторов (QM7890, 200 Гбит/с).
8 сетевых карт ConnectX-6 каждого узла подключаются к 8 конечным вычислительным коммутаторам, причем каждый ConnectX-6 соответствует 1 графическому процессору.
Листовые вычислительные коммутаторы имеют 20 портов, подключаемых к 20 узлам в пределах SU, и дополнительные 20 портов, подключаемые к 20 вычислительным коммутаторам Spine в стойке Spine.

Эта топология обеспечивает неблокирующую сеть для 800 графических процессоров (любые два графических процессора могут взаимодействовать):
Графические процессоры от разных SU подключаются через: ConnectX-6 -> Leaf Switch -> Spine Switch -> Leaf Switch -> ConnectX-6.
Графические процессоры в пределах одного SU, но разных узлов подключаются через: ConnectX-6 -> Leaf Switch -> ConnectX-6.
Графические процессоры в одном узле обмениваются данными через NVLink.
Практический предел для 800 графических процессоров (каждый графический процессор соответствует порту сетевой карты 200 Гбит/с) при использовании QM8790 — это двухуровневая сеть Fat-Tree. Помимо 2 графических процессоров потребуется трехуровневое Fat-Tree, позволяющее использовать до 800 3 графических процессоров.
DGX SuperPod 140 узлов
В системе из 100 узлов, где все порты вычислительных коммутаторов заняты, расширение за счет большего количества графических процессоров требует перехода от двухуровневых коммутаторов к трехуровневым. Это предполагает добавление уровня Core Compute Switch, по-прежнему использующего QM2 со скоростью 3 Гбит/с.
На рисунке показан SuperPod со 140 узлами и 7 SU, всего 56 конечных коммутаторов. В идеале для 56 конечных коммутаторов потребуется 56 коммутаторов Spine и 28 коммутаторов ядра. Однако в реальной конструкции используется 80 коммутаторов Spine, организованных в 8 групп (SG), каждая из которых содержит по 10 коммутаторов Spine, и каждая группа ядра (CG) с 14 коммутаторами ядра. Эта симметричная топология Fat-Tree упрощает управление.
Каждый Leaf Switch в SU подключается к 10 Spine Switch в соответствующем SG (20 портов на Leaf Switch). Коммутаторы Spine поочередно подключаются к коммутаторам ядра (нечетные положения к нечетным переключателям ядра, четные положения к четным переключателям ядра).
Каждый коммутатор Core подключается к 40 коммутаторам Spine.

Эта конфигурация поддерживает кластер 140*8=1120 графических процессоров, при этом каждый графический процессор имеет сетевой адаптер ConnectX-6 200 Гбит/с.
Стеллаж для хранения
Как показано на рисунке ниже, стойка хранения данных содержит 4 коммутатора хранения данных, а также коммутатор IB QM8790 200 Гбит/с, всего 160 портов. Соответствующие блоки хранения также присутствуют в стойке.

Структура хранения данных DGX SuperPod
На рисунке показана Storage Fabric для конфигурации со 140 узлами. Он состоит из 18 листовых переключателей. Каждый SuperPod SU (масштабируемый блок) содержит 2 листовых сетевых стойки и 1 стойку хранения. Кроме того, имеется 8 переключателей Spine.

Дополнительные конфигурации
В таблице 3 представлены подробные сведения о конфигурациях вычислений для различных узлов.

В Таблице 4 описаны конфигурации хранилища.

NVIDIA DGX SuperPod – H100
Система DGX H100
Как показано на рисунке, система DGX H100 (6U) включает в себя:
- 8 графических процессоров H100, каждый с пропускной способностью NVLink 900 ГБ/с.
- Общая пропускная способность NVSwitch 7.2 ТБ/с и память HBM640 3 ГБ (80 ГБ на графический процессор).
- 4 порта OSFP (IB), соответствующие 8 сетевым картам ConnectX-7, обеспечивающие полосу пропускания 8*400 Гбит/с.
- Слоты 1 и 2 с двумя сетевыми картами ConnectX-2, обеспечивающими пропускную способность 7*2 Гбит/с.
- Внутриполосное соединение (Ethernet).


Все 8 графических процессоров полностью связаны между собой через NVSwitch. Внутренняя пропускная способность достигает 7.2 ТБ/с, а общая пропускная способность сети — 3.2 Тбит/с, разница в 22.5 раза.
СуперПод СУ
На рис. 2 изображен основной блок DGX-SuperPod-H100, известного как SuperPod SU:
- Каждый SU содержит 8 вычислительных стоек, каждая из которых обеспечивает мощность 40 кВт.
- В каждой вычислительной стойке размещены 4 системы DGX H100 и 3 PDU (блока распределения питания), в результате чего на каждую вычислительную стойку приходится 32 графических процессора H100. Таким образом, в одном SU размещается 256 графических процессоров H100.

Стойка управления
В DGX SuperPod, соответствующем графическим процессорам H100, NVIDIA предлагает Management Rack, аналогичный Spine и Storage Racks серии A100. На рисунке 3 представлен пример (конкретные конфигурации могут отличаться):
- 32 листовых вычислительных коммутатора (QM9700) предлагают 64 порта 400 Гбит/с каждый. Теоретически, доступно 1024 порта 400 Гбит/с для подключения к сетевым картам ConnectX-7 на узлах. Оставшиеся 1024 порта подключаются точно к 16 коммутаторам Spine Compute, достигая неблокируемой сети для 1024 графических процессоров.
- 16 вычислительных коммутаторов Spine (также QM9700) подключаются к половине портов 32 конечных вычислительных коммутаторов.
- 8 коммутаторов Leaf Storage (QM9700) являются частью установки.
- 4 коммутатора Spine Storage (QM9700) завершают конфигурацию.

DGX SuperPod 127 узлов
На рис. 5 показан 127-узловой DGX SuperPod с 4 масштабируемыми блоками (SU) и соответствующей стойкой управления. Теоретически Management Rack может подключаться к 128 узлам через 4 SU. Однако из-за того, что некоторые конечные коммутаторы подключены к Unified Fabric Manager (UFM), фактическое количество узлов составляет 127.

Дополнительные конфигурации
Как показано в Таблице 3, с помощью коммутаторов QM9700 двухуровневое Fat-Tree может создать неблокируемую сеть, содержащую до 2/6464=2 графических процессоров (что соответствует 2048 SU). Трехуровневое Fat-Tree может поддерживать до 8*3/6464=64 графических процессоров. На практике конфигурация включает 4 SU, всего 65536 графических процессора.

Отраслевые кластерные решения для обучения графическим процессорам
Двухуровневая топология толстого дерева
Общая двухуровневая неблокируемая топология Fat-Tree (Spine-Leaf) преобладает для обучающих машин с 8 графическими процессорами. В пределах одной машины 8 графических процессоров полностью соединены между собой через NVLink + NVSwitch, при этом пропускная способность связи значительно превышает пропускную способность сети. Поэтому стандартной практикой является подключение сетевой карты каждого графического процессора к разным коммутаторам:
Каждая группа содержит 8 конечных коммутаторов, соответствующих 8 графическим процессорам в машине.
Предполагая, что листовой коммутатор имеет 128 портов, 64 порта подключаются к сетевым картам соответствующих графических процессоров, в результате чего на группу приходится 64*8=512 графических процессоров. Leaf Switch 1 соединяет сетевые карты всех графических процессоров узла 1 и так далее.
Эту функцию можно использовать при разработке стратегий распределенного обучения.
Для достижения полной сетки между Spine и Leaf Switch каждый Leaf Switch подключается к одному Spine Switch. Таким образом, имеется 64 коммутатора Spine, и каждый коммутатор Spine подключается ко всем 128 коммутаторам Leaf. Для этого требуется 16 групп.
Таким образом, максимум 192 коммутатора со 128 портами каждый могут поддерживать 512*16=8192 графических процессора.

Двухуровневая топология FiberMall с полным деревом
Стандартное решение FiberMall для двухуровневого Fat-Tree аналогично описанной ранее топологии. Однако здесь используются 64-портовые коммутаторы.

Благодаря 64-портовым коммутаторам 400 Гбит/с:
Переключатели Leaf и Spine уменьшены вдвое (64 и 32 соответственно).
Поддержка графических процессоров уменьшается до 1/4, в результате чего получается 2*(64/2)*(64/2)=2048 графических процессоров.
Общее количество оптических модулей включает порты коммутатора и сетевые карты графического процессора: (64+32)*64+2048=8192.
Трехуровневая топология толстого дерева
Общая трехуровневая неблокирующая топология Fat-Tree (SuperSpine-Spine-Leaf) рассматривает двухуровневый Spine-Leaf как Pod.
Поскольку коммутаторы Spine также подключаются к коммутаторам SuperSpine, количество групп сокращается вдвое. Каждый модуль имеет 64 коммутатора Spine, что соответствует 4096 графическим процессорам.
Несколько модулей могут дополнительно создавать 64 фабрики SuperSpine, каждая из которых полностью соединена с коммутаторами Spine от разных модулей. Например, при наличии 8 модулей каждой фабрике требуется только 4 128-портовых коммутатора SuperSpine.
Конфигурация для 8 модулей включает в себя:
- Всего графических процессоров: 4096*8=32768
- Переключатели SuperSpine: 64*4=256
- Переключатели позвоночника: 64*8=512
- Листовые переключатели: 64*8=512
- Всего переключений: 256+512+512=1280
- Всего оптических модулей: 1280*128+32768=196608
Теоретический максимум поддерживает 128 модулей, что соответствует:
- GPUs: 4096128=524288=2(128/2)^3
- SuperSpine Switches: 64*64=4096=(128/2)^2
- Spine Switches: 64128=8192=2(128/2)^2
- Leaf Switches: 64128=8192=2(128/2)^2
- Total Switches: 4096+8192+8192=20480=5*(128/2)^2
Сопутствующие товары:
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
-
Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
-
Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
-
Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
-
NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
-
NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
-
NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00