NVIDIA Blackwell представляет разработку для ЦАП, LACC и 1.6T OSFP-XD

Платформа Blackwell нового поколения

19 марта 2024 года NVIDIA представила на выставке GTC новое поколение архитектурной платформы Blackwell.

Эта новая платформа включает в себя новый чип искусственного интеллекта GB200, механизм Transformer второго поколения (с использованием запатентованной технологии ядра Blackwell Tensor для удвоения возможностей вывода искусственного интеллекта и увеличения размера модели), решение NVLink пятого поколения (предназначенное для ускорения триллионов параметров и сложных моделей искусственного интеллекта). , способный соединять до 576 графических процессоров, обеспечивая 9-кратное увеличение пропускной способности графического процессора), механизм RAS (надежность, доступность и удобство обслуживания) (раннее выявление потенциальных неисправностей, сокращение времени простоя, расширение возможностей интеллектуального восстановления и обслуживания), интеллектуальные службы безопасности ( защита моделей искусственного интеллекта и данных клиентов без ущерба для общей производительности, поддержка собственных протоколов шифрования интерфейса нового поколения, адаптированных для отраслей с высокими требованиями к конфиденциальности данных, таких как здравоохранение и финансы).

Рис. 1. NVIDIA представляет платформу Blackwell нового поколения

NVIDIA представляет платформу Blackwell нового поколения
Источник: https://www.nvidia.com

NVLink пятого поколения NVIDIA значительно повышает масштабируемость больших многопроцессорных кластеров с общей пропускной способностью 1.8 ТБ/с на одноядерный графический процессор Blackwell. Каждый графический процессор Blackwell Tensor Core может поддерживать до 18 подключений NVLink со скоростью 100 ГБ/с, обеспечивая общую пропускную способность до 1.8 ТБ/с. Эта производительность полосы пропускания вдвое выше, чем у продукта NVIDIA H200 предыдущего поколения, и в 14 раз выше, чем у технологии PCIe 5.0. Серверная платформа GB200 NVL72 использует новейшую технологию NVIDIA NVLink для offболее высокая масштабируемость для самых сложных в мире крупных моделей искусственного интеллекта.

Рис. 2. Производительность сетевой архитектуры NVIDIA NVLink 5-го поколения.

Производительность сетевой архитектуры NVIDIA NVLink 5-го поколения
Источник: https://www.nvidia.com

Новая платформа коммутаторов NVIDIA IB Quantum-X800 с поддержкой кластеров из тысячи карт

NVIDIA представила первый в мире комплексный InfiniBand 800 Гбит / с Платформа сетевого коммутатора Quantum-X800, специально разработанная для крупных моделей искусственного интеллекта масштаба в триллион параметров. Новая платформа коммутаторов NVIDIA IB поддерживает аппаратную технологию внутрисетевых вычислений, масштабируемый протокол уменьшения иерархической агрегации SHARP v4, адаптивную маршрутизацию и контроль перегрузки сети на основе удаленного мониторинга. Он состоит из трех основных компонентов:

Коммутатор NVIDIA Quantum-X800 Q3400-RA 4U InfiniBand: первый в мире коммутатор, использующий одноканальную технологию 200 Гбит/с, значительно повышающую производительность сети и скорость передачи данных. Этот коммутатор имеет 144 порта со скоростью 800 ГБ/с каждый, чему способствуют 72 оптических модуля 1.6T OSFP-XD (подключаются через унифицированный менеджер фабрики NVIDIA UFM). Используя высокую производительность нового коммутатора Quantum-X800 Q3400, его двухуровневая сетевая топология «толстого дерева» позволяет подключать до 10,368 3400 сетевых интерфейсных карт (NIC) с чрезвычайно низкой задержкой, сохраняя при этом максимальную локальность сети. Коммутатор Q19 оснащен воздушным охлаждением и совместим со стандартными XNUMX-дюймовыми стойками; NVIDIA также offиспользует параллельный режим жидкостного охлаждения Q3400-LD, подходящий для 21-дюймовых стоек Open Compute Project (OCP).

Рис. 3. Платформа коммутаторов IB нового поколения NVIDIA Quantum-X800.

Платформа коммутаторов IB нового поколения NVIDIA Quantum-X800
Источник: https://www.nvidia.com

Сетевая интерфейсная карта NVIDIA ConnectX-8 SuperNIC. Используя архитектуру сетевых адаптеров NVIDIA последнего поколения, она offобеспечивает сквозную изоляцию сети со скоростью 800 Гбит/с и производительность, специально разработанную для эффективного управления многопользовательскими генеративными облаками искусственного интеллекта. ConnectX-8 SuperNIC обеспечивает пропускную способность данных 800 Гбит/с через PCIe 6.0, offподдержка до 48 каналов передачи для различных приложений, включая внутреннюю коммутацию PCIe системы NVIDIA GPU. Кроме того, новый SuperNIC поддерживает новейшую технологию внутрисетевых вычислений NVIDIA, MPI_Alltoall и аппаратные механизмы сопоставления тегов MPI, а также структурные улучшения, такие как высококачественное обслуживание и контроль перегрузки сети. ConnectX-8 SuperNIC поддерживает однопортовые разъемы OSFP224 и двухпортовые разъемы QSFP112, совместимые с различными форм-факторами, включая OCP3.0 и CEM PCIe x16. Он также поддерживает 16-канальное вспомогательное расширение NVIDIA Socket Direct.

Рис. 4. Новая сетевая интерфейсная карта NVIDIA ConnectX-8 SuperNIC IB

NVIDIA ConnectX-8 SuperNIC Новая сетевая карта IB
Источник: https://www.nvidia.com

Кабели и трансиверы LinkX: портфель продуктов для межсоединения платформы Quantum-X800 от NVIDIA включает трансиверы с пассивными кабелями прямого подключения (DAC) и линейными активными медными кабелями (LACC), обеспечивающими большую гибкость при построении предпочтительных сетевых топологий. Это межсетевое решение, в частности, включает в себя двухпортовые одномодовые приемопередатчики подключения 2xDR4/2xFR4, пассивные кабели ЦАП и линейные активные медные кабели LACC.

Рис. 5. Кабели и трансиверы NVIDIA LinkX

Кабели и трансиверы NVIDIA LinkX
Источник: https://www.nvidia.com

Решение NVIDIA GB200 NVL72

Решение NVIDIA GB200NBL72 offобеспечивает 30-кратное увеличение скорости вывода, 4-кратное увеличение скорости обучения, 25-кратное повышение энергоэффективности и 18-кратное повышение производительности обработки данных для моделей ИИ с триллионом параметров.

Рис. 6. NVIDIA выпускает решение GB200 NVL72.

NVIDIA выпускает решение GB200 NVL72
Источник: https://www.nvidia.com
  1. Что касается производительности вывода, решение GB200 NVL72 использует механизм Transformer последнего поколения, поддерживающий FP4 AI, и использует NVLink пятого поколения, чтобы обеспечить 30-кратное улучшение производительности вывода модели большого языка (LLM) для больших моделей с триллионом параметров. Он обеспечивает более высокую точность и пропускную способность благодаря новому микроформату Tensor Core и реализует большой кластер графических процессоров из 72 графических процессоров в одном шкафу с помощью жидкостного охлаждения.
  2. Для повышения эффективности обучения механизм Transformer второго поколения с точностью FP8 ускоряет большие языковые модели и скорость крупномасштабного обучения в 4 раза. Он обеспечивает скорость соединения между графическими процессорами 1.8 Тбит/с через NVLink пятого поколения с использованием коммутационных сетей InfiniBand и программного обеспечения NVIDIA Magnum IO.
  3. Что касается энергоэффективности, GB200 NVL72 с жидкостным охлаждением значительно снижает энергопотребление центра обработки данных. Технология жидкостного охлаждения повышает плотность вычислений, одновременно уменьшая занимаемую площадь серверной стойки, обеспечивая высокоскоростную связь с графическим процессором с малой задержкой в ​​больших доменных архитектурах NVLink. По сравнению со шкафом NVIDIA H100 с воздушным охлаждением предыдущего поколения, шкаф GB200 с жидкостным охлаждением обеспечивает 25-кратное повышение производительности при том же энергопотреблении, одновременно эффективно сокращая потребление воды.
  4. Что касается производительности обработки данных, за счет использования памяти с высокой пропускной способностью в архитектуре NVIDIA Blackwell, технологии NVLink-C2C и специальных механизмов декомпрессии, GB200 повышает скорость критических запросов к базе данных в 18 раз по сравнению с процессорами, одновременно снижая совокупную стоимость владения в 5 раз.

Рис. 7. Решение NVIDIA GB200 NVL72 с 30-кратным повышением производительности вывода, 4-кратным повышением производительности обучения и 25-кратным повышением энергоэффективности.

Решение NVIDIA GB200 NVL72
Источник: https://www.nvidia.com

Одиночный шкаф NVIDIA GB200 NVL72 включает 9 коммутаторов L1 NV Switch и 18 вычислительных узлов. Каждый вычислительный узел состоит из однослойного лотка графического процессора в шкафу, каждый лоток содержит два модуля. Каждый блок включает в себя 2 графических процессора Blackwell и 2 процессор Grace, всего по 1 графических процессора на лоток. В шкафу размещено 4 вычислительных узлов (18 в верхней и 10 в нижней половине), всего 9 графических процессора Blackwell и 72 процессоров Grace. Вычислительная производительность достигает 36 PFLOPS (FP1440)/4 PFLOPS (FP720/FP8)/6 PFLOPS (INT720) при максимальном объеме памяти графического процессора 8 ТБ (HBM13.5e). Параметры межсоединений включают 3 однопортовых VPI OSFP ConnectX-72 (InfiniBand 400 Гбит / с), при этом параметры производительности сетевой карты ConnectX-8 еще не обновлены. Производительность чипа AI GB200 может достигать 40 PFLOPS (FP4)/20 PFLOPS (FP8/FP6)/10 PFLOPS (INT8) с максимальным объемом памяти графического процессора 384 ГБ (HBM3e).

Рис. 8. NVIDIA анонсирует AI-чип GB200 Superchip

NVIDIA анонсирует AI-чип GB200 Superchip
Источник: https://www.nvidia.com

NVIDIA выпускает AI-чип Superchip GB200

Подробные параметры производительности чипа NVIDIA GB200 NVL72 и GB200 AI

Анализ требований к сетевой архитектуре нового поколения NVIDIA GB200 для медных соединений и оптических модулей

Медное подключение имеет экономически эффективные преимущества в эпоху коммутаторов 224 ГБ.

Медное соединение имеет преимущества по соотношению цена/производительность и энергопотребление в условиях тенденции к кластеризации коммутаторов и серверов с высокой плотностью, а соединение по медному кабелю, как ожидается, станет лучшим решением для эпохи коммутаторов 224 Гбит/с поэтапно. Важным изменением в решении NVIDIA GB200 является соединение коммутаторов и вычислительных узлов в одном шкафу, а также внутреннее соединение коммутаторов с помощью медного кабеля вместо прежнего соединения печатная плата-оптический модуль-кабель. Соединения GB200 делятся на три основные категории:

(1) Межшкафное соединение GB200 NVL72 (внешний кабель): В крупных центрах обработки данных часто требуется большое количество шкафов для параллельных вычислений. Если шкафы необходимо объединить в внешнюю сеть, они подключаются через коммутатор TOR с помощью кабеля DAC/AOC (как показано на рисунке 10). При большом количестве шкафов внешнее соединение необходимо установить в шкафу над кабельным оборудованием для упорядоченного подключения. длина кабеля часто бывает большой, медный кабель составляет более 2–4 метров после того, как требования к подключению не могут быть выполнены, поэтому для соединения на большие расстояния в основном используются оптоволоконные кабели, медные кабели в этой ссылке не могут быть полностью заменить оптоволоконные кабели.

Рис. 9. Схема подключения NVIDIA GB200 NVL72 между шкафами.

Схема соединения NVIDIA GB200 NVL72 между шкафами
Источник: https://www.nvidia.com

(2) GB200 NVL72 подключение к одному шкафу (внутренние кабели шкафа) – все заменены медными кабелями: На рисунке 10 восемь вычислительных узлов и девять коммутаторов соединены внутри с помощью медных кабелей в желтой области рисунка 10, а Объединительная плата с медным кабелем заменяет предыдущее использование коммутаторов TOR и вычислительных узлов посредством соединения объединительной платы с оптическим модулем на печатной плате с кабелем. Для нового поколения коммутаторов с одним каналом 224 ГБ/с энергопотребление оптических модулей 800G/1.6T обычно составляет более 16 Вт, и если схема подключения GB200 NVL72 основана на предыдущем подключении оптических модулей, то это вызовет проблемы с высоким энергопотреблением. Медные соединения потребляют меньше энергии и более экономичны, чем оптические модули. Генеральный директор Broadcom также недавно выразил поддержку подходу к медному соединению: «Оптические устройства в сети связи будут потреблять много энергии и затрат, поэтому в новом поколении коммутаторов Broadcom следует избегать использования оптических устройств, но, насколько это возможно, использовать программу медного соединения. Оптические устройства будут использоваться только тогда, когда медная передача не сможет удовлетворить спрос».

Рис. 10. Принципиальная схема соединений коммутатора и вычислительного узла внутри одного шасси NVIDIA GB200 NVL72.

Принципиальная схема соединений коммутатора и вычислительного узла внутри одного шасси NVIDIA GB200 NVL72
Источник: https://www.nvidia.com

Рис. 11. Схема объединительной платы медного кабеля NVIDIA GB200 NVL72 и разъема объединительной платы.

Схема объединительной платы медного кабеля NVIDIA GB200 NVL72 и разъема объединительной платы
Источник: https://www.nvidia.com

3) Внутренний коммутатор NV – использование медного кабеля для реализации соединения разъема объединительной платы с микросхемой коммутатора: для одноканального коммутатора 224 Гбит/с, как показано в желтой части рисунка 13, площадь печатной платы также ограничена, недостаточно, чтобы охватить всю площадь, поэтому невозможно реализовать соединение на большем расстоянии, а медная перемычка может реализовать соединение от объединительной платы к коммутационному чипу.

Рис. 12. Принципиальная схема решения для внутреннего медного подключения коммутатора NVIDIA GB200 NVL72.

Принципиальная схема решения для внутреннего медного подключения коммутатора NVIDIA GB200 NVL72
Источник: https://www.nvidia.com

Оптический модуль 1.6 Тл ожидается, что они откроют возможности ускоренного увеличения объема продаж благодаря решениям GB200.

Платформа NVIDIA Blackwell нового поколения будет стимулировать спрос на оптические модули 1.6T с более высокими скоростями передачи. Согласно характеристикам недавно выпущенного коммутатора NVIDIA Quantum-X800 Q3400-RA 4U InfiniBand от NVIDIA, первого в мире коммутатора с одноканальной технологией 200 Гбит/с, обеспечивающего 144 порта со скоростью соединения 800 ГБ/с, что реализуется 72 1.6T OSFP. оптические модули. Поэтому ожидается, что постепенное применение коммутаторов нового поколения в решениях GB200 приведет к увеличению спроса на оптические модули 1.6 Тл.

Платформа Blackwell в сценариях применения крупномасштабных кластеров графических процессоров по-прежнему нуждается в оптических модулях для реализации межшкафного соединения, спрос на оптические модули 800G сохранится.

(1) Одиночный шкаф GB200 (соответствует 72 графическим процессорам): новое поколение программы одного шкафа GB200 больше не потребует оптических модулей для обеспечения взаимного соединения.

(2) Между 1–8 кластерами NVL200 ГБ72 (что соответствует 72–576 графическим процессорам) все еще необходимы некоторые оптические модули 800G для реализации соединения между шкафами. Если 20% данных необходимо передать между шкафами, общая пропускная способность однонаправленной передачи NVLink 7200 Гбит соответствует соотношению требований к одному графическому процессору и оптическому модулю 800G 1:2.

(3) Более 8 крупномасштабных кластеров GB200 NVL72 (что соответствует более чем 576 графическим процессорам), ожидается настройка сети InfiniBand уровня 3 в соответствии с соотношением спроса на графические процессоры и оптические модули 800G 1:2.5, а также второй уровень 1:2, ожидается, что общий коэффициент спроса GB200 составит 1:4.5.

Оставьте комментарий

Наверх