В эпоху больших моделей ИИ обучение моделей ИИ с помощью одного графического процессора давно стало историей. Как объединить сотни или тысячи графических процессоров, чтобы сформировать суперкомпьютерную систему, которая будет выглядеть как один графический процессор, стало горячей темой в отрасли!
NVIDIA DGX SuperPOD — это архитектура искусственного интеллекта (ИИ) для центров обработки данных следующего поколения. Она разработана для обеспечения уровней вычислительной производительности, необходимых для сложных вычислительных задач в обучении моделей ИИ, выводе, высокопроизводительных вычислениях (HPC) и гибридных приложениях для улучшения предиктивной производительности и сокращения времени решения. Давайте узнаем о решении архитектуры взаимосвязи графических процессоров трех поколений продуктов NVIDIA: H100→GH200→GB200.
Создание SuperPod с 256 графическими процессорами на базе H100
В случае DGX A100 восемь графических процессоров на каждом узле соединены между собой через NVLink и NVSwitch, а различные серверы соединены между собой напрямую с помощью сети IB HDR со скоростью 200 Гбит/с (Примечание: сеть между серверами может использовать либо сеть IB, либо сеть RoCE).
В случае DGX H100 NVIDIA расширяет NVLink внутри сервера до уровня между серверами и добавляет сетевой коммутатор NVLink. NVSwitch отвечает за коммутацию внутри сервера, а сетевой коммутатор NVLink отвечает за коммутацию между серверами. SuperPod (т. е. суперкомпьютерная система), состоящая из 256 графических процессоров H100, может быть построена на основе NVSwitch и сетевого коммутатора NVLink. Пропускная способность Reduce 256 графических процессоров по-прежнему может достигать 450 ГБ/с, что в точности соответствует пропускной способности Reduce 8 графических процессоров на одном сервере.
Однако SuperPod DGX H100 также имеет определенные проблемы. Существует только 72 соединения NVLink на узлах DGX H100, и система SuperPod не является неконвергентной сетью. Как показано на рисунке ниже, в системе DGX H100 четыре NVSwitch резервируют 72 соединения NVLink для подключения к другим системам DGX H100 через сетевой коммутатор NVLink. Общая двунаправленная пропускная способность 72 соединений NVLink составляет 3.6 ТБ/с, в то время как общая двунаправленная пропускная способность 8 H100 составляет 7.2 ТБ/с. Таким образом, в системе SuperPod происходит конвергенция на NVSwitch.

SuperPod с 256 графическими процессорами на базе H100
Создание 256 GPU SuperPod на базе GH200 и GH200 NVL32
В 2023 году NVIDIA объявила о запуске массового производства движка генеративного ИИ DGX GH200. GH200 представляет собой комбинацию графического процессора H200 (основное отличие H200 от H100 заключается в объеме памяти и пропускной способности) и процессора Grace. Один процессор Grace соответствует одному графическому процессору H200. Помимо соединения NVLink4.0 между графическими процессорами, GH200 также использует соединение NVLink4.0 между графическими процессорами и центральными процессорами.
GH200 повышает вычислительную мощность за счет сверхбольшой пропускной способности сети 900 ГБ/с NVLink 4.0. Внутри сервера могут использоваться решения на основе медных проводов, но между серверами могут использоваться оптоволоконные соединения. Для одного кластера из 256 чипов GH200 один GH200 на вычислительной стороне соответствует девяти оптическим трансиверам 800 Гбит/с (каждые 800 Гбит/с соответствуют 100 ГБ/с, два соединения NVLink 4.0). Разница между GH200 SuperPod и DGX H100 SuperPod заключается в том, что GH200 использует сетевой коммутатор NVLink для соединения внутри одного узла и между узлами. DGX GH200 использует двухуровневую структуру Fat-tree, состоящую из 8 GH200 и 3 сетевых коммутаторов NVLink первого уровня (каждый лоток NVSwitch содержит 2 чипа NVSwitch и имеет 128 портов) для формирования одного сервера. 32 отдельных сервера полностью соединены между собой через 36 сетевых коммутаторов NVLink второго уровня для формирования SuperPod из 256 GH200 (обратите внимание, что имеется 36 сетевых коммутаторов NVLink второго уровня для обеспечения отсутствия конвергенции).
GH200 NVL32 — это кластер уровня стойки. Один GH200 NVL32 имеет 32 графических процессора GH200 и 9 лотков NVSwitch (18 чипов NVSwitch3.0). Если формируется суперузел GH200 NVL32 с 256 графическими процессорами, между серверами первого уровня требуется 36 коммутаторов NVLink-сети.
Сборка SuperPod с 576 GPU на базе GB200 NVL72
В отличие от GH200, GB200 состоит из 1 ЦП Grace и 2 ГП Blackwell (Примечание: вычислительная мощность одного ГП не полностью эквивалентна B200). Вычислительный лоток GB200 разработан на основе NVIDIA MGX. Один вычислительный лоток содержит 2 GB200, то есть 2 ЦП Grace и 4 ГП. Узел GB200 NVL72 содержит 18 вычислительных лотков GB200, то есть 36 ЦП Grace, 72 ГП и 9 сетевых коммутаторов NVLink (каждый графический процессор Blackwell имеет 18 NVLink, а каждый сетевой коммутатор NVLink 4-го поколения содержит 144 порта NVLink, поэтому для достижения полного взаимодействия требуется 9 (72*18/144=9) сетевых коммутаторов NVLink).
Согласно официальной рекламе NVIDIA, восемь GB200 NVL72 образуют SuperPod, таким образом формируя суперузел, состоящий из 576 графических процессоров. Однако, проведя анализ, мы видим, что 9 сетевых коммутаторов NVLink в шкафу GB200 NVL72 используются для подключения 72 GB200. Нет дополнительных интерфейсов NVLink для расширения с целью формирования более масштабного двухуровневого коммутационного кластера. Из официальных изображений NVIDIA, SuperPod из 576 графических процессоров в основном соединен через сеть Scale-Out RDMA, а не через сеть Scale-Up NVLink. Если нам нужно поддерживать SuperPod с 576 графическими процессорами через соединение NVLink, нам нужно настроить 18 коммутаторов NVSwitch для каждых 72 GB200, которые не поместятся в один шкаф.
Кроме того, NVIDIA официально заявила, что NVL72 имеет версию с одним и двумя шкафами, и каждый Compute Tray двухшкафного шкафа имеет только одну подсистему GB200. В этом случае можно использовать двухшкафную версию для поддержки SuperPod из 576 графических процессоров через соединение NVLink, и каждый двухшкафный вариант этой двухшкафной версии имеет 72 GB200 и 18 сетевых коммутаторов NVLink, что может удовлетворить потребности развертывания двухуровневого кластера. Как показано на следующем рисунке:

SuperPod с 576 графическими процессорами на базе GB200
Он похож на предыдущее поколение полностью взаимосвязанных структур 256 H200, за исключением того, что количество устройств на первом и втором уровнях отличается, что требует двух уровней взаимосвязи коммутаторов NVLink-network: половина портов на первом уровне подключает 576 графических процессоров Blackwell, поэтому требуется 576*18/(144/2) =144 коммутаторов NVLink-network, и каждый NVL72 имеет 18 лотков коммутаторов NVLink-network. Все порты второго уровня подключены к портам коммутаторов NVLink-network первого уровня, поэтому требуется 144*72/144 = 72 коммутатора NVSwitch.