Что такое NVIDIA NVLink

Введение

В связи с быстрым развитием технологий искусственного интеллекта и высокопроизводительных вычислений, высокоскоростным соединением и масштабируемостью графических процессоров выдвигаются более высокие требования, поэтому технология высокопроизводительных соединений с высокой пропускной способностью, малой задержкой и высокой производительностью имеет решающее значение для общего повышения производительности вычислений с использованием ИИ. В апреле этого года Лао Хуан предложил на конференции GTC третье поколение NVIDIA NVSwitch и четвертое поколение технологии NVLink, которые обеспечивают высокоскоростное решение для двухточечного соединения для недавно выпущенных графических процессоров H100, которое даже быстрее, чем графические процессоры A100, и эта сеть имеет прототип сети NVLink.

Чип NVSwitch третьего поколения, называемый NVSwitch3, можно использовать для подключения каждой карты графического процессора внутри сервера и расширения внешнего соединения сервера графического процессора для создания полностью независимого высокоскоростного кластера графического процессора. В то же время чип NVSwitch поддерживает ускорение многоадресной рассылки сообщений с помощью аппаратных педалей газа и представляет SHARP (протокол масштабируемой иерархической агрегации и сокращения), который является важной функцией, доступной ранее только в коммутаторах IB, и в основном используется для ускорения и оптимизации всех Уменьшите объем вычислений ИИ. -Снижение производительности вычислений ИИ. Между тем, с помощью чипа NVSwitch третьего поколения, состоящего из физических коммутаторов, можно создать кластер из 256 графических карт H100, а вся сеть обеспечивает общую пропускную способность 57.6 ТБ/с. Спецификация NVLink 4.0, которую он принимает, может значительно оптимизировать производительность и масштабируемость графического процессора, например, структура блоков параллельных процессов архитектуры графического процессора повторяет параллельную структуру NVLink, а интерфейс NVLink дополнительно оптимизирован для обмена данными в кэше L2 графического процессора.

Чип NVSwitch
NVLink

NVLink — это протокол для решения двухточечной связи между графическими процессорами внутри сервера. Традиционная скорость переключения PCIe следующая: последняя версия PCIE5.0 имеет пропускную способность всего 32 Гбит/с на полосу, что в основном не удовлетворяет требованиям к пропускной способности связи между графические процессоры, а благодаря технологии NVLink графические процессоры могут находиться непосредственно внутри сервера. Благодаря технологии NVLink графические процессоры могут напрямую взаимодействовать друг с другом внутри сервера на высоких скоростях без необходимости обмена данными через коммутаторы PCIe. NVLink четвертого поколения имеет пропускную способность 112 Гбит/с на линию, что в три раза превышает пропускную способность линии PCIe Gen5.

Производительность PCI Express Link

Основная цель NVLink — предоставить высокоскоростную сеть «точка-точка» для Соединения графического процессора без затрат на сквозную повторную передачу сообщений, адаптивную маршрутизацию и повторную сборку сообщений по сравнению с традиционными сетями. Чрезвычайно упрощенный интерфейс NVLink обеспечивает ускорение CUDA от сеансового уровня к уровню представления и к уровню приложений, тем самым еще больше снижая сетевые издержки из-за связи.

HC34-NVIDIA-NVSwitch-NVLink-Generations
Пропускная способность NVlink на графический процессор

Как показано на рисунке, мы видим, что NVLink развивался вместе с архитектурой графического процессора: от NVLink1 первого поколения для P100 до текущего NVLink4 для H100. NVLink3 поддерживает как 50G NRZ, так и 56G PAM4, а NVLink4 впервые представляет 112G PAM4 Serdes, который может обеспечить двунаправленную пропускную способность 900 ГБ/с, что в 1.5 раза больше, чем у NVLink3 предыдущего поколения со скоростью 600 ГБ/с. Так как же рассчитывается скорость 900 ГБ/с? Каждый графический процессор H100 подключен к внутреннему чипу NVSwitch3 через 18 каналов NVLink4, и каждый канал NVLink4 фактически представляет собой две линии, каждая линия — это 112G PAM4, поэтому один канал NVLink4 имеет однонаправленную пропускную способность 224 Гбит/с или 25 ГБ/с (обратите внимание, что здесь он меняется с битов на байт), однонаправленная полоса пропускания, двунаправленная полоса пропускания 50 ГБ/с, а 18 каналов NVLink4 имеют общую двунаправленную пропускную способность 900 ГБ/с.

НВСвитч Чип

Чип NVSwitch третьего поколения

Чип NVSwitch — это тип коммутатора ASIC, который может связывать несколько графических процессоров с помощью высокоскоростных интерфейсов NVLink, улучшая связь и пропускную способность между графическими процессорами внутри сервера. Когда P100 использовал NVLink1, чипа NVSwitch не было, и графические процессоры образовывали кольцевое соединение, что препятствовало прямой связи между графическими процессорами на разных узлах NUMA. Начиная с V100 с NVLink2 был добавлен чип NVSwitch1, а затем A100 с NVLink3 использовался чип NVSwitch2. Следующий — чип NVSwith3 для H100.

nvlink-4-nvswitch
НВлинк плюс острый

Чип изготовлен по технологии TSMC 4N и умещает 25.1 миллиарда транзисторов на кристалле площадью 294 квадратных миллиметра. Чип имеет размеры 50 на 50 мм и оснащен контроллером SHARP, который может одновременно обрабатывать 128 параллельных групп SHARP. В него также встроен SHARP ALU, который может выполнять логические операции с данными, хранящимися в памяти SRAM, поддерживающей вычисления SHARP. SHARP ALU позволяет NVSwitch достигать 400 гигафлопс вычислительной производительности FP32, а также поддерживает различные прецизионные режимы, такие как FP16, FP32, FP64 и BF16. Чип может взаимодействовать либо с Ethernet 400 Гбит/с, либо с НДР ИБ соединения через PHY-схему, а в каждой клетке можно разместить четыре оптических модуля NVLink4 OSFP с возможностью FEC. Чип имеет функции безопасности, позволяющие разбивать сеть NVLink на подсети, а также функции мониторинга телеметрии, аналогичные IB. Чип NVSwitch3 имеет 64 порта NVLink4, каждый с двумя линиями, которые обеспечивают однонаправленную пропускную способность 200 Гбит/с. Таким образом, чип может offв общей сложности 64*200 Гбит/с = 12.8 Тбит/с однонаправленной полосы пропускания или 3.2 ТБ/с двунаправленной полосы пропускания.

-2x эффективная пропускная способность NVlink

Чип NVSwitch3 является первым, в котором интегрирована вся функция SHARP, которая использует аппаратное обеспечение для агрегирования и обновления результатов вычислений нескольких блоков графического процессора во время всего процесса сокращения, тем самым уменьшая количество сетевых пакетов и повышая производительность вычислений.

HC34-NVIDIA-NVSwitch-NVLink-Generations-Server-Any-to-Any

Сервер NVLink — это сервер, который использует технологии NVLink и NVSwitch для соединения графических процессоров, обычно это собственные серверы NVIDIA серии DGX или OEM-серверы HGX с аналогичной архитектурой.

pcle

Сервер DGX-1 с графическими процессорами P100 не имел NVSwitch, и все 8 графических процессоров были подключены через NVLink1, причем каждый P100 имел 4 соединения NVLink1. NVSwitch1 и NVLink2 были представлены в архитектуре графического процессора NVIDIA V100, обеспечивая высокую пропускную способность и любое соединение между несколькими графическими процессорами на сервере. NVSwitch2 и NVLink3 были запущены в графическом процессоре NVIDIA A100.

Внутренняя схема сервера DGX A100

На приведенной выше внутренней схеме сервера DGX A100 соединение между графическим процессором и процессором осуществляется через коммутатор PCIe, а соединение между 8 графическими процессорами осуществляется в основном через 6 чипов NVSwitch2. Каждый графический процессор подключается к чипу NVSwitch2 с помощью 12 портов NVlink3, и каждый NVlink3 имеет однонаправленную пропускную способность 25 ГБ, что может обеспечить в общей сложности однонаправленную пропускную способность 12*25 ГБ = 300 ГБ/с или двустороннюю пропускную способность 600 ГБ/с для графического процессора. Давайте посмотрим на параметры сервера DGX H100:

ДГС Н100
  • 8 графических процессоров NVIDIA H100 с тензорными ядрами и 640 ГБ совокупной памяти графического процессора
  • 4 чипа NVIDIA NVSwitch третьего поколения
  • 18 сетевых OSFP NVLink
  • Полнодуплексная пропускная способность сети NVLink 3.6 ТБ/с, обеспечиваемая 72 каналами NVLink.
  • 8 портов NVIDIA ConnectX-7 Ethernet/InfiniBand
  • 2 двухпортовых DPU BlueField-3
  • Двойные процессоры Sapphire Rapids
  • Поддержка PCIe Gen 5 
ГП H100
Поддержка сети NVlink

Графический процессор H100 представил NVSwitch третьего поколения и технологию NVLink четвертого поколения, которые могут обеспечить однонаправленную пропускную способность 450 ГБ/с для одного графического процессора H100. Компания также представила внешний коммутатор NVLink блочного типа высотой 1U, который обеспечивает высокоскоростную связь между несколькими серверами графических процессоров. В DGX H8 имеется 100 графических процессоров H100, и каждый H100 подключен к 4 чипам NVSwitch3 с 18 NVLinks (5,4,4,5) одновременно. Трафик между графическими процессорами распределяется по 4 плоскостям коммутации, тем самым обеспечивая общий трафик внутри графического процессора. Каждый внутренний чип NVSwitch3 имеет коэффициент сходимости 2:1 для внешнего NVLink, что в основном разработано с учетом сложности и стоимости полосы пропускания межсерверного соединения.

НВСвитч

Коммутатор NVLlink был выпущен только в этом году и предназначен для соединения H100 Superpod. Он имеет конструкцию размером 1U с 32 портами OSFP, каждый OSFP включает 8 линий 112G PAM4, а каждый коммутатор имеет 2 встроенных чипа NVSwitch3. Каждый NVSwitch3 имеет 64 порта NVLink4, поэтому два чипа могут обеспечить до 128 интерфейсов NVLink4, обеспечивая однонаправленную полосу пропускания 128*400 Гбит/с = 51.2 ТБ/с или двустороннюю полосу пропускания 6.4 ТБ/с. Коммутатор NVLink поддерживает порты внешнего управления, кабели ЦАП, а также кабели AOC и OSFP со специальной прошивкой. Публичной информации об этом модуле OSFP пока нет. Предполагается, что внешний вид будет похож на форму NDR OSFP ниже. Два порта MPO каждый подключают порт 400G или напрямую подключают порт 800G к 24-ядерному процессору. Кабель МПО.

С помощью физического коммутатора NVSwitch мы можем подключить несколько серверов NVLink GPU в большую сеть Fabric, то есть сеть NVLink. Эта сеть в основном предназначена для решения проблем высокоскоростной связи и эффективности между графическими процессорами и не включает в себя вычислительную сеть и сеть хранения данных между процессорами. В эпоху без Сеть НВЛинкКаждый сервер внутри себя выделяет локальное адресное пространство для графических процессоров, а затем обменивается данными друг с другом через NVLink. В сети NVLink каждый сервер имеет собственное независимое адресное пространство, которое используется для обеспечения передачи данных, изоляции и защиты графических процессоров в сети NVLink. При запуске системы сеть NVLink автоматически устанавливает соединения через программные API и может менять адреса в любой момент работы.

Сеть НВЛинк

На следующем рисунке сравниваются сеть NVLink и традиционная сеть Ethernet. Видно, что с помощью NVlink, чипа NVSwitch и коммутатора NVSwitch можно сформировать сеть NVLink, независимую от IP Ethernet и предназначенную для обслуживания графического процессора.

сравнение

DGX H100 СуперПОД

DGX H100 СуперПОД

SuperPOD состоит из восьми стоек, в каждой из которых установлено по четыре сервера DGX H100, всего 32 сервера и 256 графических карт H100, обеспечивающих 1 экзафлопс (один квинтиллион) точной производительности разреженного искусственного интеллекта FP8. Сеть NVLink в этом SuperPOD может обеспечить общую двунаправленную пропускную способность 57.6 ТБ/с для 256 графических процессоров, а CX7 внутри 32 серверов DGX H100 может соединяться с коммутатором IB, обеспечивая двунаправленную пропускную способность 25.6 ТБ/с. , который позволяет использовать или подключать несколько SuperPOD в одном POD.

Сеть суперподов

NVS — это упомянутый ранее чип NVSwitch3, а L2NVS — упомянутый ранее физический коммутатор NVSwitch. Каждый графический процессор в DGX H100 расширяет 18 соединений NVLink4 на север, обеспечивая двунаправленную пропускную способность 1850 ГБ = 900 ГБ/с. Эти 18 NVLink4 разделены на четыре группы по 5,4,4,5 и подключены к четырем встроенным чипам NVSwitch3. Таким образом, для 8 графических процессоров каждый чип NVS соединяет 40,32,32,40 NVLink4 в южном направлении, всего 114 NVLink4, а затем каждый чип NVS выполняет конвергенцию 2:1, подключая 4,4,4,4 NVLink4. на север к внешним 18 L2NVS, которые представляют собой коммутаторы NVSwitch 1U, о которых мы упоминали ранее. Эти переключатели разделены на четыре группы по 5,4,4,5. Таким образом, один встроенный чип NVS соединяет 20,16,16,20 NVLink4 в северном направлении, всего 72 NVLink4 и 114 NVLlink4 в южном направлении, образуя коэффициент конвергенции 2:1. Здесь каждый NVLink4 состоит из двух линий 112G PAM4, поэтому для каждых четырех каналов NVLink требуется пара 800G ОСФП модули для сквозного соединения. Таким образом, верхняя половина рисунка показывает высокоскоростную сеть комплексного соединения графических процессоров, которая образует сеть NVlink.  

Чип NVSwitch3

В видео ниже показано, как использовать 800G OSFP SR8 на коммутаторах NVIDIA Quantum-2.

Соединение между графическим процессором и процессором осуществляется через коммутатор PCIe GEN5 внутри сетевой карты CX7. Сетевая карта CX7 внутри DGX H100 не представляет собой восемь независимых сетевых карт CX6, как в предыдущем DGX A100, а состоит из двух плат с чипами сетевых карт для подключения к серверу. Каждый из четырех чипов CX7 образует плату Cedar и выводит два 800G ОСФП порты. Восемь чипов сетевых карт CX7 образуют две платы Cedar и выводят в общей сложности четыре порта OSFP 800G. Это обеспечивает двунаправленную пропускную способность 800 Гбит/с4*2=800 ГБ/с. Сетевая карта CX7 здесь может запускать RoCE в режиме Ethernet или работать в сети NDR IB. Как показано на рисунке ниже, 1024 графических процессора в четырех H100 SuperPOD могут быть построены с использованием топологии жирного дерева NDR IB.

Каждый DGX H100 также имеет два Bluefield 3 для подключения к сети хранения данных.

Каждый DGX H100 также имеет два Bluefield 3 для подключения к сети хранения данных.

Насколько быстрее будет соединение графического процессора H100 после использования сети NVLink по сравнению с сетью IB A100? Вот сравнение пропускной способности между DGX A100 256 POD и DGX H100 256 POD:

сравнение DGX A100 256 POD и DGX H100 256 POD

Bisection — это показатель производительности, показывающий, сколько данных каждый графический процессор должен отправить всем остальным графическим процессорам одновременно в сценарии «все ко всем». Обычно он рассчитывает пропускную способность сети, когда половина узлов сети отправляет данные другой половине, и обычно измеряет неблокирующий трафик 1:1. 1 внутренний DGX A100: 8/2600 ГБ/с = 2400 ГБ/с 32 внутренних DGX A100, всего 256 графических процессоров A100, каждый сервер соединен с помощью 8 карт HDR 200 Гбит/с, а коммутатор TOR должен иметь коэффициент сходимости 4:1: 256/ 2/4200 ГБ/с = 6400 ГБ/с 1 внутренний DGX H100: 8/2900 ГБ/с = 3600 ГБ/с 32 внутренний DGX H100, коэффициент сходимости сети составляет 2:1, поэтому: 256/2/2900 ГБ/с = 57600 57.6 ГБ/с (отсюда и предыдущее упоминание о 1.5 ТБ/с). Разделение одного DGX пополам может увеличить пропускную способность в 3 раза, двунаправленную полосу пропускания в 32 раза, а разделение пополам 9 DGX может увеличить пропускную способность в 4.5 раз и двунаправленная полоса пропускания в XNUMX раза.

нейронный рекомендательный механизм

Как показано на рисунке, при обучении рекомендательной системы с таблицей внедрения объемом 14 ТБ, работающей на модели данных all2all, H100 с NVLink имеет более высокую производительность, чем H100 с IB. Ниже приведены общедоступные результаты NCCL сравнения пропускной способности «все-все» и «все-все» для нескольких графических процессоров и многоузловых графических процессоров, работающих на сервере. Оптимизируя NVLink4 и NVSwitch3, H100 может обеспечить постоянную пропускную способность для внутренних и внешних нескольких карт.

все снижает производительность
общая пропускная способность

Заключение

Заключение

Технологии NVlink и NVSwitch разработаны для удовлетворения потребностей в высокоскоростной связи «точка-точка» и «точка-многоточка» с малой задержкой для нескольких графических процессоров. Они также постоянно внедряют инновации в связи с изменениями в архитектуре графических процессоров. После приобретения Mellanox NVIDIA также начала комбинировать технологию NVLink и технологию IB, выпустив новое поколение чипов и коммутаторов NVSwitch с функциями SHARP, которые оптимизированы для внешних сетей GPU-серверов. Текущая масштабируемая сеть NVLink, поддерживающая до 256 графических процессоров, — это только начало. Считается, что масштаб сети NVlink будет и дальше развиваться и совершенствоваться в будущем и, возможно, создаст суперкомпьютерный кластер, подходящий для вычислений ИИ, вычислений на ЦП, хранения данных и другой сетевой интеграции.

Оставьте комментарий

Наверх