Эволюция NVLink, NVSwitch и NVIDIA H100
Стремительный рост искусственного интеллекта (ИИ), высокопроизводительных вычислений (HPC) и аналитики данных требует передовых технологий межсоединений. Графический процессор NVIDIA H100 в сочетании с передовыми технологиями NVLink и NVSwitch находится на переднем крае этой революции, обеспечивая непревзойденную производительность для ресурсоемких рабочих нагрузок. NVIDIA H100, построенный на архитектуре Hopper, использует NVLink 4.0 и NVSwitch для обеспечения высокоскоростного масштабируемого обмена данными между графическими процессорами, преобразуя центры обработки данных и суперкомпьютеры. В этом руководстве рассматривается развитие NVLink и NVSwitch, а также то, как NVIDIA H100 максимально использует их потенциал для приложений ИИ, HPC и корпоративных приложений. Независимо от того, разрабатываете ли вы суперкомпьютер с ИИ или модернизируете свой центр обработки данных, понимание синергии NVIDIA H100, NVLink и NVSwitch критически важно для достижения нового уровня производительности.
Роль NVIDIA H100 в развитии NVLink и NVSwitch
Графический процессор NVIDIA H100, представленный в 2022 году в рамках архитектуры Hopper, является самым передовым графическим процессором NVIDIA для ИИ, высокопроизводительных вычислений и анализа данных. Благодаря наличию до 80 миллиардов транзисторов и поддержке точности FP8, NVIDIA H100 обеспечивает до 3 раз большую производительность, чем его предшественник A100. Интеграция с NVLink 4.0 и NVSwitch является ключевым этапом в развитии межсоединений NVIDIA. NVLink 4.0 обеспечивает двустороннюю пропускную способность до 900 ГБ/с, а NVSwitch обеспечивает масштабируемую высокоскоростную связь между несколькими графическими процессорами NVIDIA H100 в таких системах, как NVIDIA DGX H100. Эта синергия позволяет NVIDIA H100 обрабатывать масштабные модели ИИ, научное моделирование и аналитику в реальном времени с беспрецедентной эффективностью.
2014: Внедрение архитектуры Pascal с Tesla P100
В 2014 году Nvidia выпустила Tesla P100 на базе архитектуры Pascal. Этот графический процессор использовал технологию NVLink первого поколения, которая обеспечивала высокоскоростную связь между 4 или 8 графическими процессорами. Двунаправленная пропускная способность межсоединений NVLink 1.0 была в пять раз больше, чем у PCIe 3.0×16. Вот расчет:
- PCIe 3.0×16: двунаправленная пропускная способность связи 32 ГБ/с (1 ГБx16x2).
- NVLink 1.0: двунаправленная пропускная способность межсоединения 160 ГБ/с (20 ГБx4x2).
Из-за отсутствия чипов NvSwitch графические процессоры были соединены между собой по топологии ячеистой сети, где общая пропускная способность от одного графического процессора до четырех напрямую подключенных графических процессоров составляла 160 ГБ/с.

2017: Архитектура Volta с V100
В 2017 году Nvidia выпустила архитектуру Volta с графическим процессором V100. NVLink в V100 увеличил однонаправленную пропускную способность на соединение с 20 ГБ/с до 25 ГБ/с и количество соединений с 4 до 6, увеличив общую поддерживаемую пропускную способность GPU NVLink до 300 ГБ/с. Однако система V100 DGX-1, выпущенная в 2017 году, не имела NvSwitch. Топология была похожа на NVLink 1.0 с увеличенным количеством соединений.

2018: Представление системы V100 DGX-2
Для дальнейшего повышения пропускной способности связи между графическими процессорами и общей производительности системы в 100 году компания Nvidia представила систему V2 DGX-2018. Это была первая система, включающая чип NvSwitch, обеспечивающий полную взаимосвязь между 16 графическими процессорами SXM V100 в рамках одной системы DGX-2.

NVSwitch имеет 18 портов NVLink, 8 из которых подключаются к GPU, а 8 — к другому чипу NVSwitch на другой базовой плате. Каждая базовая плата содержит шесть NVSwitch для связи с другой базовой платой.

2020: Архитектура Ampere с A100
В 2020 году Nvidia запустила архитектуру Ampere с графическим процессором A100. Чипы NVLink и NVSwitch были обновлены до версий 3.0 и 2.0 соответственно. Хотя однонаправленная пропускная способность на соединение осталась на уровне 25 ГБ/с, количество соединений увеличилось до 12, что привело к общей двунаправленной пропускной способности межсоединений в 600 ГБ/с. Система DGX A100 оснащена 6 чипами NVSwitch 2.0, причем каждый графический процессор A100 соединен через 12 соединений NVLink с 6 чипами NVSwitch, что обеспечивает два соединения с каждым NVSwitch.
Логическая топология системы GPU выглядит следующим образом:

Многие не понимают логической связи между модулем HGX и «головкой сервера». Ниже представлена схема, показывающая, что основная плата графического процессора SXM соединена с материнской платой сервера через каналы PCIe. Чип коммутатора PCIe (PCIeSw) интегрирован в материнскую плату головки сервера. Сигналы сетевой карты и NVMe U.2 PCIe также исходят от PCIeSw.

2022: Архитектура бункера с H100
Графический процессор H100 на основе архитектуры Hopper был выпущен в 2022 году с версиями NVLink и NVSwitch 4.0 и 3.0 соответственно. В то время как однонаправленная пропускная способность на соединение осталась неизменной на уровне 25 ГБ/с, количество соединений увеличилось до 18, что привело к общей двунаправленной пропускной способности соединения 900 ГБ/с. Каждый графический процессор соединен с 4 NVSwitch с использованием группировки 5+4+4+5.

Интерфейсы OSFP чипов NVSwitch в системе DGX используются для более крупной сети графических процессоров Nvidia, например, в решении DGX H100 256 SuperPOD.

2024: Blackwell Architecture с B200
В 2024 году Nvidia представила архитектуру Blackwell с графическим процессором B200, включающим версии NVLink и NVSwitch 5.0 и 4.0 соответственно. Однонаправленная пропускная способность на соединение удвоилась до 50 ГБ/с с 18 соединениями, что привело к общей двунаправленной пропускной способности межсоединений в 1.8 ТБ/с. Каждый чип NVSwitch имеет 72 порта NVLink 5.0, а каждый графический процессор использует 9 соединений NVLink с двумя чипами NVSwitch.

С выпуском B200 компания Nvidia также представила NVL72 — интегрированную систему графических процессоров, которая использует сетевой коммутатор NVLink для достижения полной взаимосвязанности между 72 графическими процессорами.
Логическая топология соединения 72 графических процессоров с использованием 9 коммутаторов NVLink выглядит следующим образом:

Каждый графический процессор B200 имеет 18 портов NVLink, что в сумме дает 1,296 подключений NVLink (72×18). Один лоток коммутатора содержит два чипа коммутатора NVLink, каждый из которых обеспечивает 72 интерфейса (всего 144). Таким образом, для полного соединения 9 графических процессоров требуется 72 лотков коммутатора.
Преимущества NVIDIA H100 с NVLink и NVSwitch
Графический процессор NVIDIA H100 в сочетании с NVLink 4.0 и NVSwitch обеспечивает революционные преимущества для высокопроизводительных вычислений:
- Непревзойденная пропускная способность: NVLink 4.0 обеспечивает 900 ГБ/с на NVIDIA H100, что обеспечивает быструю передачу данных для рабочих нагрузок ИИ и HPC.
- Высокая масштабируемость: NVSwitch подключает до 256 графических процессоров NVIDIA H100, поддерживая такие крупномасштабные системы, как DGX H100.
- Сверхнизкая задержка: связь со скоростью менее микросекунды обеспечивает обработку данных в режиме реального времени для чувствительных ко времени приложений.
- Оптимизация ИИ: Transformer Engine NVIDIA H100 в сочетании с NVLink ускоряет большие языковые модели и генеративный ИИ.
- Энергоэффективность: каналы с высокой пропускной способностью сокращают количество подключений, снижая потребление энергии.
- Когерентная память: NVSHMEM обеспечивает когерентный доступ к кэш-памяти на графических процессорах NVIDIA H100, повышая эффективность.
- Готовность к будущему: поддержка новых рабочих нагрузок, таких как вывод ИИ и научное моделирование.
Эти преимущества делают NVIDIA H100 с NVLink и NVSwitch краеугольным камнем вычислений следующего поколения.
NVIDIA H100 против других графических процессоров с NVLink и NVSwitch
Сравнение NVIDIA H100 с другими графическими процессорами с поддержкой NVLink, такими как A100, помогает выявить его преимущества:
Особенность | Нвидиа Н100 | Нвидиа А100 | NVIDIA В100 |
---|---|---|---|
Архитектура | Хоппер (2022) | Ампер (2020) | Вольта (2017) |
Версия NVLink | NVLink 4.0 (900 ГБ/с) | NVLink 3.0 (600 ГБ/с) | NVLink 2.0 (300 ГБ/с) |
Поддержка NVSwitch | 3-го поколения (57.6 ТБ/с) | 2-го поколения (4.8 ТБ/с) | 1-го поколения (2.4 ТБ/с) |
Эффективности | 3x A100 (точность FP8) | 2x В100 | Базовая линия |
Память | 141 GB HBM3 | 80 ГБ HBM2e | 32 GB HBM2 |
Кейсы | ИИ, HPC, крупномасштабная аналитика | ИИ, HPC, аналитика данных | Ранний ИИ, HPC |
NVIDIA H100 с NVLink 4.0 и NVSwitch обеспечивает превосходную производительность и масштабируемость, что делает его предпочтительным выбором для передовых приложений искусственного интеллекта и высокопроизводительных вычислений.
Как реализовать NVIDIA H100 с NVLink и NVSwitch
Развертывание NVIDIA H100 с NVLink и NVSwitch требует тщательного планирования:
- Выберите оборудование: используйте графические процессоры NVIDIA H100 и системы, совместимые с NVLink 4.0 (например, DGX H100, HGX H100).
- Внедрение NVSwitch: внедрение NVSwitch третьего поколения для масштабируемости нескольких GPU в крупных системах.
- Настройка NVLink: оптимизация подключений NVLink 4.0 для максимальной пропускной способности (900 ГБ/с на NVIDIA H100).
- Установка программного обеспечения: используйте библиотеки NVIDIA CUDA, NVSHMEM и NCCL для включения функций когерентного кэширования NVIDIA H100.
- Тестирование производительности: тестирование передачи данных с помощью таких инструментов, как NCCL, для обеспечения производительности NVIDIA H100.
- Масштабируемая инфраструктура: проектирование с учетом будущего роста с использованием NVSwitch для подключения нескольких графических процессоров NVIDIA H100.
Проблемы NVIDIA H100 с NVLink и NVSwitch
Хотя NVIDIA H100 с NVLink и NVSwitch обеспечивает исключительную производительность, у нее есть свои недостатки:
- Высокая стоимость: графические процессоры NVIDIA H100 и системы NVSwitch стоят дорого и требуют значительных инвестиций.
- Собственная экосистема: NVIDIA H100 ограничена NVIDIA NVLink/NVSwitch, что снижает совместимость с оборудованием сторонних производителей.
- Сложность конфигурации: оптимизация NVIDIA H100 с NVLink 4.0 и NVSHMEM требует специальных знаний.
- Энергопотребление: крупномасштабные развертывания NVIDIA H100 с NVSwitch увеличивают энергопотребление.
- Ограничения масштабируемости: NVSwitch оптимизирован для экосистем NVIDIA, менее гибок, чем открытые стандарты, такие как CXL.
Будущее NVIDIA H100, NVLink и NVSwitch
NVIDIA H100, NVLink и NVSwitch будут развиваться вместе с новыми технологиями:
- Более высокая пропускная способность: будущие версии NVLink могут превысить 1 ТБ/с, что повысит производительность NVIDIA H100.
- Оптимизация ИИ: улучшенные NVSHMEM и NVSwitch оптимизируют модели ИИ следующего поколения на NVIDIA H100.
- Более широкая интеграция: NVIDIA H100 может поддерживать гибридные межсоединения, такие как CXL, для гетерогенных систем.
- Энергоэффективность: Будущие разработки позволят снизить энергопотребление при развертывании NVIDIA H100.
- Edge AI: NVIDIA H100 с NVLink будет поддерживать ИИ-вывод с малой задержкой на периферии.
Сопутствующие товары:
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $550.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $650.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $650.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $900.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1199.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $700.00
-
Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $139.00
-
Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
-
Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $260.00
-
NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
-
NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
-
NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $190.00