Понимание эволюции NvLink и NvSwitch от Nvidia: топология и скорости

Стремительный рост искусственного интеллекта (ИИ), высокопроизводительных вычислений (HPC) и аналитики данных требует передовых технологий межсоединений. Графический процессор NVIDIA H100 в сочетании с передовыми технологиями NVLink и NVSwitch находится на переднем крае этой революции, обеспечивая непревзойденную производительность для ресурсоемких рабочих нагрузок. NVIDIA H100, построенный на архитектуре Hopper, использует NVLink 4.0 и NVSwitch для обеспечения высокоскоростного масштабируемого обмена данными между графическими процессорами, преобразуя центры обработки данных и суперкомпьютеры. В этом руководстве рассматривается развитие NVLink и NVSwitch, а также то, как NVIDIA H100 максимально использует их потенциал для приложений ИИ, HPC и корпоративных приложений. Независимо от того, разрабатываете ли вы суперкомпьютер с ИИ или модернизируете свой центр обработки данных, понимание синергии NVIDIA H100, NVLink и NVSwitch критически важно для достижения нового уровня производительности.

Графический процессор NVIDIA H100, представленный в 2022 году в рамках архитектуры Hopper, является самым передовым графическим процессором NVIDIA для ИИ, высокопроизводительных вычислений и анализа данных. Благодаря наличию до 80 миллиардов транзисторов и поддержке точности FP8, NVIDIA H100 обеспечивает до 3 раз большую производительность, чем его предшественник A100. Интеграция с NVLink 4.0 и NVSwitch является ключевым этапом в развитии межсоединений NVIDIA. NVLink 4.0 обеспечивает двустороннюю пропускную способность до 900 ГБ/с, а NVSwitch обеспечивает масштабируемую высокоскоростную связь между несколькими графическими процессорами NVIDIA H100 в таких системах, как NVIDIA DGX H100. Эта синергия позволяет NVIDIA H100 обрабатывать масштабные модели ИИ, научное моделирование и аналитику в реальном времени с беспрецедентной эффективностью.

2014: Внедрение архитектуры Pascal с Tesla P100

В 2014 году Nvidia выпустила Tesla P100 на базе архитектуры Pascal. Этот графический процессор использовал технологию NVLink первого поколения, которая обеспечивала высокоскоростную связь между 4 или 8 графическими процессорами. Двунаправленная пропускная способность межсоединений NVLink 1.0 была в пять раз больше, чем у PCIe 3.0×16. Вот расчет:

  • PCIe 3.0×16: двунаправленная пропускная способность связи 32 ГБ/с (1 ГБx16x2).
  • NVLink 1.0: двунаправленная пропускная способность межсоединения 160 ГБ/с (20 ГБx4x2).

Из-за отсутствия чипов NvSwitch графические процессоры были соединены между собой по топологии ячеистой сети, где общая пропускная способность от одного графического процессора до четырех напрямую подключенных графических процессоров составляла 160 ГБ/с.

Архитектура Pascal с Tesla P100

2017: Архитектура Volta с V100

В 2017 году Nvidia выпустила архитектуру Volta с графическим процессором V100. NVLink в V100 увеличил однонаправленную пропускную способность на соединение с 20 ГБ/с до 25 ГБ/с и количество соединений с 4 до 6, увеличив общую поддерживаемую пропускную способность GPU NVLink до 300 ГБ/с. Однако система V100 DGX-1, выпущенная в 2017 году, не имела NvSwitch. Топология была похожа на NVLink 1.0 с увеличенным количеством соединений.

Архитектура Volta с V100

2018: Представление системы V100 DGX-2

Для дальнейшего повышения пропускной способности связи между графическими процессорами и общей производительности системы в 100 году компания Nvidia представила систему V2 DGX-2018. Это была первая система, включающая чип NvSwitch, обеспечивающий полную взаимосвязь между 16 графическими процессорами SXM V100 в рамках одной системы DGX-2.

Система V100 DGX-2

NVSwitch имеет 18 портов NVLink, 8 из которых подключаются к GPU, а 8 — к другому чипу NVSwitch на другой базовой плате. Каждая базовая плата содержит шесть NVSwitch для связи с другой базовой платой.

Каждая базовая плата содержит шесть NVSwitch для связи с другой базовой платой.

2020: Архитектура Ampere с A100

В 2020 году Nvidia запустила архитектуру Ampere с графическим процессором A100. Чипы NVLink и NVSwitch были обновлены до версий 3.0 и 2.0 соответственно. Хотя однонаправленная пропускная способность на соединение осталась на уровне 25 ГБ/с, количество соединений увеличилось до 12, что привело к общей двунаправленной пропускной способности межсоединений в 600 ГБ/с. Система DGX A100 оснащена 6 чипами NVSwitch 2.0, причем каждый графический процессор A100 соединен через 12 соединений NVLink с 6 чипами NVSwitch, что обеспечивает два соединения с каждым NVSwitch.

Логическая топология системы GPU выглядит следующим образом:

логическая топология системы GPU

Многие не понимают логической связи между модулем HGX и «головкой сервера». Ниже представлена ​​схема, показывающая, что основная плата графического процессора SXM соединена с материнской платой сервера через каналы PCIe. Чип коммутатора PCIe (PCIeSw) интегрирован в материнскую плату головки сервера. Сигналы сетевой карты и NVMe U.2 PCIe также исходят от PCIeSw.

логическая связь между модулем HGX и головкой сервера

2022: Архитектура бункера с H100

Графический процессор H100 на основе архитектуры Hopper был выпущен в 2022 году с версиями NVLink и NVSwitch 4.0 и 3.0 соответственно. В то время как однонаправленная пропускная способность на соединение осталась неизменной на уровне 25 ГБ/с, количество соединений увеличилось до 18, что привело к общей двунаправленной пропускной способности соединения 900 ГБ/с. Каждый графический процессор соединен с 4 NVSwitch с использованием группировки 5+4+4+5.

Архитектура бункера с H100

Интерфейсы OSFP чипов NVSwitch в системе DGX используются для более крупной сети графических процессоров Nvidia, например, в решении DGX H100 256 SuperPOD.

DGX H100 256 СуперПОД

2024: Blackwell Architecture с B200

В 2024 году Nvidia представила архитектуру Blackwell с графическим процессором B200, включающим версии NVLink и NVSwitch 5.0 и 4.0 соответственно. Однонаправленная пропускная способность на соединение удвоилась до 50 ГБ/с с 18 соединениями, что привело к общей двунаправленной пропускной способности межсоединений в 1.8 ТБ/с. Каждый чип NVSwitch имеет 72 порта NVLink 5.0, а каждый графический процессор использует 9 соединений NVLink с двумя чипами NVSwitch.

Архитектура Blackwell с B200

С выпуском B200 компания Nvidia также представила NVL72 — интегрированную систему графических процессоров, которая использует сетевой коммутатор NVLink для достижения полной взаимосвязанности между 72 графическими процессорами.

Логическая топология соединения 72 графических процессоров с использованием 9 коммутаторов NVLink выглядит следующим образом:

72 графических процессора с использованием 9 коммутаторов NVLink

Каждый графический процессор B200 имеет 18 портов NVLink, что в сумме дает 1,296 подключений NVLink (72×18). Один лоток коммутатора содержит два чипа коммутатора NVLink, каждый из которых обеспечивает 72 интерфейса (всего 144). Таким образом, для полного соединения 9 графических процессоров требуется 72 лотков коммутатора.

Графический процессор NVIDIA H100 в сочетании с NVLink 4.0 и NVSwitch обеспечивает революционные преимущества для высокопроизводительных вычислений:

  • Непревзойденная пропускная способность: NVLink 4.0 обеспечивает 900 ГБ/с на NVIDIA H100, что обеспечивает быструю передачу данных для рабочих нагрузок ИИ и HPC.
  • Высокая масштабируемость: NVSwitch подключает до 256 графических процессоров NVIDIA H100, поддерживая такие крупномасштабные системы, как DGX H100.
  • Сверхнизкая задержка: связь со скоростью менее микросекунды обеспечивает обработку данных в режиме реального времени для чувствительных ко времени приложений.
  • Оптимизация ИИ: Transformer Engine NVIDIA H100 в сочетании с NVLink ускоряет большие языковые модели и генеративный ИИ.
  • Энергоэффективность: каналы с высокой пропускной способностью сокращают количество подключений, снижая потребление энергии.
  • Когерентная память: NVSHMEM обеспечивает когерентный доступ к кэш-памяти на графических процессорах NVIDIA H100, повышая эффективность.
  • Готовность к будущему: поддержка новых рабочих нагрузок, таких как вывод ИИ и научное моделирование.

Эти преимущества делают NVIDIA H100 с NVLink и NVSwitch краеугольным камнем вычислений следующего поколения.

Сравнение NVIDIA H100 с другими графическими процессорами с поддержкой NVLink, такими как A100, помогает выявить его преимущества:

ОсобенностьНвидиа Н100Нвидиа А100NVIDIA В100
АрхитектураХоппер (2022)Ампер (2020)Вольта (2017)
Версия NVLinkNVLink 4.0 (900 ГБ/с)NVLink 3.0 (600 ГБ/с)NVLink 2.0 (300 ГБ/с)
Поддержка NVSwitch3-го поколения (57.6 ТБ/с)2-го поколения (4.8 ТБ/с)1-го поколения (2.4 ТБ/с)
Эффективности3x A100 (точность FP8)2x В100Базовая линия
Память141 GB HBM380 ГБ HBM2e32 GB HBM2
КейсыИИ, HPC, крупномасштабная аналитикаИИ, HPC, аналитика данныхРанний ИИ, HPC

NVIDIA H100 с NVLink 4.0 и NVSwitch обеспечивает превосходную производительность и масштабируемость, что делает его предпочтительным выбором для передовых приложений искусственного интеллекта и высокопроизводительных вычислений.

Развертывание NVIDIA H100 с NVLink и NVSwitch требует тщательного планирования:

  • Выберите оборудование: используйте графические процессоры NVIDIA H100 и системы, совместимые с NVLink 4.0 (например, DGX H100, HGX H100).
  • Внедрение NVSwitch: внедрение NVSwitch третьего поколения для масштабируемости нескольких GPU в крупных системах.
  • Настройка NVLink: оптимизация подключений NVLink 4.0 для максимальной пропускной способности (900 ГБ/с на NVIDIA H100).
  • Установка программного обеспечения: используйте библиотеки NVIDIA CUDA, NVSHMEM и NCCL для включения функций когерентного кэширования NVIDIA H100.
  • Тестирование производительности: тестирование передачи данных с помощью таких инструментов, как NCCL, для обеспечения производительности NVIDIA H100.
  • Масштабируемая инфраструктура: проектирование с учетом будущего роста с использованием NVSwitch для подключения нескольких графических процессоров NVIDIA H100.

Хотя NVIDIA H100 с NVLink и NVSwitch обеспечивает исключительную производительность, у нее есть свои недостатки:

  • Высокая стоимость: графические процессоры NVIDIA H100 и системы NVSwitch стоят дорого и требуют значительных инвестиций.
  • Собственная экосистема: NVIDIA H100 ограничена NVIDIA NVLink/NVSwitch, что снижает совместимость с оборудованием сторонних производителей.
  • Сложность конфигурации: оптимизация NVIDIA H100 с NVLink 4.0 и NVSHMEM требует специальных знаний.
  • Энергопотребление: крупномасштабные развертывания NVIDIA H100 с NVSwitch увеличивают энергопотребление.
  • Ограничения масштабируемости: NVSwitch оптимизирован для экосистем NVIDIA, менее гибок, чем открытые стандарты, такие как CXL.

NVIDIA H100, NVLink и NVSwitch будут развиваться вместе с новыми технологиями:

  • Более высокая пропускная способность: будущие версии NVLink могут превысить 1 ТБ/с, что повысит производительность NVIDIA H100.
  • Оптимизация ИИ: улучшенные NVSHMEM и NVSwitch оптимизируют модели ИИ следующего поколения на NVIDIA H100.
  • Более широкая интеграция: NVIDIA H100 может поддерживать гибридные межсоединения, такие как CXL, для гетерогенных систем.
  • Энергоэффективность: Будущие разработки позволят снизить энергопотребление при развертывании NVIDIA H100.
  • Edge AI: NVIDIA H100 с NVLink будет поддерживать ИИ-вывод с малой задержкой на периферии.

Оставьте комментарий

Наверх