Углубленный анализ: как выбрать вычислительную мощность, жидкостное охлаждение, сеть и питание для NVIDIA GB200

Имя Происхождение

G – Грейс ЦП

B – Графический процессор Blackwell

200 – Поколение

NVL – Технология межсоединений NVlink

72 – 72 графических процессора

анонс gb200 nvl72

Конфигурация вычислительной мощности

Каждый NVL72 имеет 18 вычислительных лотков, которые являются основными единицами конфигурации вычислительной мощности NVL72. Каждый лоток служит вычислительным узлом. GB200 NVL72 определяет суперчипсет платы Bianca, где каждый чипсет включает один Grace CPU (разработанный NV на основе архитектуры ARM) и два чипа Blackwell GPU. Каждый вычислительный лоток состоит из двух суперчипсетов, т. е. 2 CPU + 4 GPU. 72 вычислительных лотков NVL18 в сумме составляют 18 * 4 = 72 GPU.

Каждый вычислительный лоток в форм-факторе 1U напрямую подключается к шасси. Это минимальный блок для ежедневного развертывания и обслуживания, при этом каждый вычислительный лоток потребляет до 5400 Вт мощности.

Вся система NVL72 может похвастаться 13.8 ТБ видеопамяти, причем каждый чип B200 содержит 192 ГБ видеопамяти, что на 112 ГБ больше, чем 100 ГБ у H80. Кроме того, пропускная способность памяти одного графического процессора была увеличена с 3.35 ТБ/с в H100 до 8 ТБ/с. Система также включает 17 ТБ памяти DDR5X, причем каждый чип Bianca оснащен 480 ГБ памяти.

Конфигурация вычислительной мощности

Конфигурация охлаждения

В фазе H100 каждый графический процессор потреблял 700 Вт. Для удовлетворения требований воздушного охлаждения и создания лучшей аэродинамической среды вся система уместилась в пространстве 6-8U с 8 H100. В фазе B200 каждый чип потребляет 1200 Вт, требуя больше пространства для охлаждения, таким образом расширяя систему до размера 10U (8 * B200).

В сценарии платы GB200 Bianca с потребляемой мощностью 2700 Вт скорость воздуха недостаточна для обеспечения эффективного охлаждения в 19-дюймовой стойке, что требует решения с жидкостным охлаждением. Это позволяет контролировать объем системы в диапазоне 1-2U, значительно повышая использование пространства и эффективность охлаждения.

  1. На уровне сервера: Жидкостное охлаждение может удовлетворить потребности в охлаждении ЦП и ГП на плате Bianca с помощью охлаждающих пластин. Однако передняя часть каждого вычислительного лотка и лотка NVswitch по-прежнему содержит множество пользовательских компонентов, таких как сетевые карты, PDU, карты управления и жесткие диски, которым по-прежнему требуется воздушное охлаждение. Обычно соотношение жидкости и воздуха для вычислительного лотка составляет около 8.5:1.5. В будущем, если масштабирование будет осуществляться на основе сетевых карт CX, охлаждающие пластины могут быть разработаны для сетевых карт.
  2. На уровне стойки: в настоящее время доступны различные решения по жидкостному охлаждению:
  3. Решения по модернизации для старых помещений с воздушным охлаждением: есть два варианта, RDHx и Sidecar, первый из которых обеспечивает охлаждение 30-40 кВт, а второй — 70-140 кВт. Эти решения позволяют добавлять систему жидкостного охлаждения к каждой стойке без изменения существующих блоков HVAC с воздушным охлаждением, используя хладагент для передачи тепла радиатору для воздухообмена (сохраняя среду охлаждения воздуха в помещении). Требуются минимальные изменения, что позволяет избежать масштабной реконструкции трубопроводов.
в стойке
  • Новые высокоплотные дата-центры: для новых высокоплотных дата-центров, таких как NV72, основными вариантами являются внутристойочные CDU и внутрирядные CDU. Внутристойочные CDU требуют более 4U пространства внутри стойки и обычно обеспечивают эффективность охлаждения около 80 кВт без возможности резервирования. Напротив, внутрирядные CDU устанавливаются снаружи отдельных стоек и обеспечивают охлаждение для нескольких стоек или рядов, сконфигурированных с двумя системами CDU, предлагая охлаждение и резервирование мощностью 800–2000 кВт. В официальном маркетинге кластера NVL576 используется внутрирядное решение.
L2L встраиваемый CDU
внутрирядный CDU

Конфигурация сети

Сеть НВЛинк

NVL72 имеет полностью взаимосвязанную архитектуру NVLink, что устраняет необходимость в сетях RDMA (IB&RoCE) в режиме NVL72.

Система NVL72 оснащена 9 лотками NVSwitch, каждый из которых содержит 2 чипа коммутатора NVLink. Каждый чип поддерживает скорость 4 * 1.8 ТБ/с, что в сумме составляет 7.2 ТБ/с, что соответствует 57.6 Тбит/с. Эта емкость немного выше, чем 5 Тбит/с популярного чипа TH51.2. Каждый лоток NVSwitch обеспечивает емкость NVLink 2 * 4 * 1.8 ТБ/с = 14.4 ТБ/с.

Лоток NVswitch внутри
Лоток NVswitch внутри 2
Передний лоток NVswitch

GB200 использует NVLink 5.0, при этом каждый чип B200 соединен с чипами коммутатора NVLink через 18 соединений NVLink 5.0. Таким образом, блок NVL72 имеет 72 * 18 = 1296 портов NVLink 5.0, каждый из которых предлагает двунаправленную скорость 100 ГБ/с, состоящую из 4 пар дифференциальных сигнальных линий. Каждая пара соединена медным кабелем, что дает 1296 * 4 = 5184 физических соединений.

nvlink5.0

Как показано на рисунке, все 9 лотков NVSwitch в шкафу GB200 NVL72 используются для подключения 72 чипов B200. Каждый чип B200 подключен к 18 чипам NVSwitch через одно двунаправленное соединение NVLink 5.0 100 ГБ. Каждый чип NVSwitch поддерживает пропускную способность 7.2 ГБ, что соответствует 72 соединениям NVLink 5.0, что позволяет разместить 72 графических процессора B200. Дополнительные интерфейсы NVLink для расширения до более крупных кластеров отсутствуют.

Все 9 лотков NVSwitch в шкафу GB200 NVL72 используются для подключения 72 чипов B200.

Сеть NVLink в GB200 NVL72 формирует полностью взаимосвязанное состояние, достигая полной взаимосвязанности для 72 чипов B200 через один переход NVSwitch. Каждый чип коммутатора имеет 4 порта NVLink, каждый из которых сопряжен с 72 медными кабелями, что значительно снижает потребление энергии и стоимость оптической связи и экономит до 20 кВт на систему. Внутренняя структура связи NVL72 показана на следующей схеме:

архитектура gb200 nvl72

Сеть без NVLink (RDMA + высокоскоростная сеть TCP)

Каждый вычислительный лоток включает 4 слота OSFP и 2 слота QSFP. Схема расположения сетевых портов на передней панели вычислительного лотка показана ниже:

Расположение сетевых портов на передней панели вычислительного лотка
  1. Два слота QSFP, поддерживаемые процессором Bluefield-2 DPU, обеспечивают порты 3G/400G для высокопроизводительного взаимодействия TCP/сетей хранения данных, формируя интерфейсную сеть, предложенную NV.

б) 4 слота OSFP с портами CX7/CX8 800G/1.6TB поддерживают внешнее расширение GB200 с использованием сетевой связи RDMA, образуя внутреннюю сеть, предложенную NV.

Из-за архитектуры дизайна, стоимости передачи и возможностей чипа NV в настоящее время предоставляет чистое сетевое решение NVLink для максимум 576 графических процессоров, что эквивалентно 8 блокам GB200 NVL72. Для дальнейшего расширения кластеров обучения/вывода ИИ требуются сети RDMA. NVLink 5.0 достигает пропускной способности 100 ГБ/с на графический процессор с 18 соединениями на графический процессор, что в сумме составляет 1.8 ТБ/с. Текущая максимальная скорость одного порта RDMA составляет 200 ГБ/с (1.6 Тбит/с), что не соответствует скорости NVLink.

Конфигурация питания

Общая номинальная потребляемая мощность: система имеет общую номинальную потребляемую мощность 120 кВт. Она сконфигурирована как 2N с 4+4 (или 4+2) полками питания, каждая из которых поддерживает 33 кВт. Каждая полка питания может вместить шесть блоков питания мощностью 5.5 кВт, обеспечивая резервирование 5+1.

Общая номинальная потребляемая мощность системы составляет 120 кВт.

Характеристики полок питания: полки питания используют полки питания OCP ORv3 HPR, которые могут похвастаться более чем 97.5% энергоэффективностью, что снижает потери мощности во время процесса преобразования переменного тока в постоянный ток. Кроме того, он использует низковольтный выход постоянного тока 48 В/50 В для каждого слота, что обеспечивает меньшие потери при передаче мощности по сравнению с традиционным выходом 12 В.

ORv3 hpr

Стандарт входной мощности стойки: входная мощность стойки соответствует стандарту OCP ORv3 HPR с входным напряжением переменного тока 415 В. Каждый слот напрямую подключен к шине стойки через жесткие соединения.

OCP
Каждый слот напрямую подключен к шине стойки через жесткие соединения.

Конфигурация входа переменного тока: На стороне входа переменного тока система использует определенные ORv3 7-контактные разъемы. На схеме ниже показаны два разных стандарта разъемов (левый для Северной Америки, правый для Европы). Исходя из поддержки 33 кВт силовой полки, каждый вход, вероятно, соответствует стандарту выключателя 125 А.

Конфигурация входа переменного тока

Входные соединения переменного тока вверх по потоку: На входном конце входа переменного тока используются стандартные промышленные разъемы, соответствующие стандартам IEC 60309-2 и имеющие класс защиты IP67. Эти мобильные промышленные вилки поддерживают выключатель на 125 А. В зависимости от фазового напряжения можно выбрать конфигурацию с 3 контактами на 125 А или 5 контактами на 125 А.

Оставьте комментарий

Наверх