Как построить кластер с 128 DGX H100?

NVIDIA DGX H100, выпущенная в 2022 году, оснащена 8 однопортовыми сетевыми картами ConnectX-7, поддерживающими пропускную способность NDR 400 Гбит/с, и двумя двухпортовыми DPU Bluefield-2 (3 Гбит/с), которые могут поддерживать сети IB/Ethernet. . Внешний вид показан на следующем рисунке.

Внутриполосное управление системой

DGX H100 имеет 4 порта QSFP56 для сети хранения данных и сети внутриполосного управления; Кроме того, имеется один порт Ethernet 10G для удаленного управления ОС хоста и один порт Ethernet 1G для удаленного управления системой.

На рисунке топологии внутренней сети сервера видно 4 порта OSFP для подключения к вычислительной сети (фиолетовые), а синие блоки — это сетевые карты, которые могут выступать в качестве сетевых карт, а также играть роль расширения PCIe Switch. , становясь мостом между процессором и графическим процессором.

ЦП

Если будет принята схема соединения кластера NVIDIA SuperPOD NVLink, 32 H100 будут соединены между собой через внешние коммутаторы NVLink. 8 графических процессоров внутри сервера подключены к 4 модулям NVSwitch, каждый модуль NVSwitch соответствует 4-5 Оптические модули OSFP, всего 18 OSFP, а затем OSFP подключаются к 18 внешним коммутаторам NVLink. (В настоящее время H100, представленные на рынке, не имеют этих 18 модулей OSFP.) В этой статье не обсуждается сетевой метод NVLink, а основное внимание уделяется сетевому методу IB. Согласно эталонному проектному документу NVIDIA: в кластере серверов DGX H100 каждые 32 DGX H100 образуют SU, а каждые 4 DGX H100 размещаются в отдельной стойке (по оценкам, мощность каждой стойки составляет около 40 кВт), а различные коммутаторы размещены в двух независимых стойках. Таким образом, каждое SU содержит 10 стоек (8 для размещения серверов и 2 для размещения свитчей). В вычислительной сети необходимо использовать только двухуровневые коммутаторы Spine-Leaf (Mellanox QM9700), топология сети показана на следующем рисунке.

Позвоночник

Использование коммутатора: в кластере каждые 32 коммутатора DGX H100 образуют SU (в каждом SU имеется 8 конечных коммутаторов), а в кластере серверов H4 из 128 SU имеется 100 SU, поэтому всего имеется 32 конечных коммутатора. Каждый DGX H100 в SU должен иметь соединение со всеми 8 конечными коммутаторами. Поскольку каждый сервер имеет только 4 порта OSFP для подключения к вычислительной сети, после подключения оптических модулей 800G к каждому порту один порт OSFP расширяется до двух портов QSFP через порт расширения, обеспечивая соединение каждого DGX H100 с 8 конечными коммутаторами. Каждый коммутатор Leaf имеет 16 портов восходящей связи, которые подключаются к 16 коммутаторам Spine.

Использование оптического модуля: для нисходящих портов коммутатора Leaf требуются оптические модули 400G, потребность составляет 3284. Оптические модули 800G используются для портов восходящей линии коммутатора Leaf, потребность составляет 1684. Оптические модули 800G используются для нисходящие порты коммутатора Spine. Таким образом, в кластере серверов 128 H800 использовалась вычислительная сеть Оптические модули 800G Оптические модули 1536 и 400G 1024.

Оставьте комментарий

Наверх