Анализ NVIDIA GB200: архитектура межсоединений и будущая эволюция

Анализ архитектуры межсоединения GB200

У NVIDIA большая путаница в расчете пропускной способности передачи NVLink и понятиях SubLink/Port/Lane. Обычно пропускная способность NVLink одного чипа B200 составляет 1.8 ТБ/с. Обычно это рассчитывается с использованием алгоритма пропускной способности памяти, при этом единицей измерения являются байты в секунду (Б/с). Однако в отношении коммутаторов NVLink или коммутаторов IB/Ethernet и сетевых карт точка зрения принадлежит Mellanox, который рассчитывает пропускную способность сети в битах в секунду (бит/с). Давайте подробно объясним метод расчета NVLink. Начиная с NVLink 3.0, четыре дифференциальные пары образуют «субканал» (NVIDIA часто использует термины Port/Link с несколько расплывчатым определением). Эти 4 пары линий дифференциального сигнала содержат сигналы направления приема и передачи. При расчете пропускной способности сети интерфейс 400 Гбит/с обычно подразумевает возможность одновременной передачи и приема данных со скоростью 400 Гбит/с.

Интерфейс 400 Гбит/с

Он состоит из 4 пар дифференциальных сигнальных линий, по 2 пары для RX и TX. С точки зрения сети это однонаправленный канал со скоростью 400 Гбит/с, а с точки зрения пропускной способности памяти он поддерживает пропускную способность доступа к памяти 100 ГБ/с.

Пропускная способность межсоединения NVLINK 5.0

Поколение Blackwell использует 224G Serdes со скоростью передачи по подканалу 200 Гбит/с * 4 (4 дифференциальные пары) / 8 = 100 ГБ/с и пропускной способностью сети в одном направлении 400 Гбит/с. B200 имеет 18 дополнительных каналов, что обеспечивает пропускную способность 100 ГБ/с * 18 = 1.8 ТБ/с, что с точки зрения сети эквивалентно 9 однонаправленным интерфейсам со скоростью 400 Гбит/с. Аналогичным образом, во введении к NVSwitch упоминается, что Dual SerDes со скоростью 200 Гбит/с составляет 400 Гбит/с.

с Порт.

чип переключателя nvlink

Для ясности определим следующие термины:

хм

Пропускная способность B200 NVLINK составляет 1.8 ТБ/с, состоит из 18 портов, каждый со скоростью 100 ГБ/с, состоящих из четырех дифференциальных пар, при этом каждый порт содержит два порта 224 Гбит/с (2x224G PAM4 соответствует 400Gbps полоса пропускания в одном направлении на порт).

Соединение NVLINK 4.0

Что касается Hopper, NVLINK 4.0 использует 112G Serdes с одной дифференциальной сигнальной линией, обеспечивающей скорость 100 Гбит/с, в результате чего совокупная скорость одного подканала NVLINK составляет 4x100 Гбит/с = 50 ГБ/с. Продукты Hopper, поддерживающие NVLINK 4.0, имеют 18 дополнительных каналов (портов), поэтому один H100 поддерживает скорость 50 ГБ/с * 18 = 900 ГБ/с. Одна система с 8 картами может использовать для подключения 4 NVSwitch, как показано на рисунке.

ДГС Н100

Также возможно добавить коммутатор второго уровня для создания кластера из 256 карт.

масштабирование с помощью сети nvlink

Интерфейс расширения использует оптические модули OSFP, которые могут поддерживать 16 линий дифференциального сигнала, что позволяет одному OSFP поддерживать 4 порта NVLINK.

один OSFP для поддержки 4 портов NVLINK
распиновка модуля osfp

Коммутатор NVLink на изображении содержит 32 разъема оптического модуля OSFP, поддерживающих в общей сложности 32 * 4 = 128 портов NVLINK 4.

128nvlink 4 порта

ГБ200 НВЛ72

Система GB200 NVL72 имеет следующие характеристики, при этом основное внимание уделяется межсоединению NVLINK:

Межсоединение NVLINK

Каждый GB200 содержит один 72-ядерный процессор Grace ARM и два графических процессора Blackwell.

Каждый GB200 содержит один 72-ядерный процессор Grace ARM и два графических процессора Blackwell.

Вся система состоит из вычислительных лотков и коммутаторных лотков. Каждый вычислительный лоток содержит две подсистемы GB200, всего 4 графических процессора Blackwell.

ГБ200 НВЛ72

Каждый лоток коммутатора содержит две микросхемы коммутатора NVLINK, что обеспечивает в общей сложности 72 * 2 = 144 порта NVLINK. Показана внутренняя структура одного чипа коммутатора: 36 портов сверху и снизу, обеспечивающие пропускную способность 7.2 ТБ/с. Согласно сетевым расчетам, это соответствует пропускной способности 28.8 Тбит/с, что немного меньше, чем у нынешнего ведущего чипа коммутатора со скоростью 51.2 Тбит/с, но это связано с реализацией функциональности SHARP (NVLS).

Функциональность SHARP (NVLS)

Вся стойка поддерживает 18 вычислительных лотков и 9 коммутаторных лотков, образующих архитектуру NVL72 с 72 полностью взаимосвязанными микросхемами Blackwell.

Вся стойка поддерживает 18 вычислительных лотков и 9 коммутаторных лотков.

Каждая подсистема GB200 имеет 2 * 18 = 36 портов NVLink5. Для внешнего межсоединения системы не используются оптические модули OSFP, а используется прямое соединение медной объединительной платы, как показано на схеме.

Подсистема GB200
Внешнее соединение системы

Общая топология межсоединений NVL72 выглядит следующим образом:

общая топология межсоединений NVL72

Каждый B200 имеет 18 портов NVLINK, а в 18 лотках коммутаторов установлено 9 микросхем коммутаторов NVLINK. Таким образом, порты каждого B200 подключаются к одному чипу NVSwitch, в результате чего на каждый NVSwitch приходится 72 порта, и именно так система NVL72 полностью соединяет все 72 чипа B200.

НВЛ576

Заметим, что в шкафу NVL72 все коммутаторы больше не имеют дополнительных интерфейсов для формирования более крупного двухуровневого кластера коммутаторов. Из offНа официальных изображениях NVIDIA 16 шкафов расположены в два ряда, и хотя общее количество составляет ровно 72*8=576 карт кластера с жидкостным охлаждением, соединительные кабели между картами, судя по всему, идут скорее через межсетевое соединение Scale-Out RDMA, а не межсетевое соединение Scale-Up NVLINK.

Вычислительные стойки GB200 NVL72

Для кластера на 32,000 72 карт это также осуществляется через такие шкафы NVL9, один ряд из 4 шкафов, 72 NVL5 и 18 сетевых шкафов, два ряда по XNUMX шкафов, образующих Sub-Pod, и подключенных через сеть RDMA Scale-Out.

полноценный дата-центр с 32000 графическими процессорами

Конечно, это не так называемый NVL576. Если требуется NVL576, каждые 72 ГБ200 необходимо сконфигурировать с 18 коммутаторами NVSwitch, которые не поместятся в один шкаф. Мы замечаем, что offКомпания icial упомянула, что существует версия NVL72 с одним шкафом, а также версия с двумя шкафами, а в версии с двумя шкафами каждый вычислительный лоток имеет только одну подсистему GB200.

NVIDIA GB200 NVL36

С другой стороны, мы заметили, что на NVSwitch есть запасные разъемы для медных кабелей, которые, вероятно, настроены для различных соединений медной объединительной платы.

различные соединения медной объединительной платы

Неизвестно, будут ли эти интерфейсы иметь дополнительные клетки OSFP над объединительной платой медных межсоединений для межсоединений NVSwitch второго уровня, но у этого метода есть одно преимущество: версия с одним шкафом не масштабируется, а версия с двумя шкафами масштабируется, поскольку показано на изображении.

межсоединение NVSwitch второго уровня

Версия с двумя шкафами имеет 18 лотков NVSwitch, которые можно соединить друг с другом, образуя NVL72. Хотя количество коммутаторов увеличилось вдвое, каждый коммутатор обеспечивает 36 портов восходящей связи для будущего расширения до кластера из 576 карт. Один шкаф имеет в общей сложности 36*2*9 = 648 портов восходящей связи, а для формирования NVL16 требуется 576 шкафов, в результате чего в общей сложности получается 648*16 = 10,368 9 портов восходящей связи, которые могут быть построены с помощью 36 плоскостей коммутатора второго уровня. , каждая из которых имеет 18 подплоскостей, образованных 576 лотками переключателей. Структура межсоединений NVLXNUMX показана ниже.

Структура межсоединений NVL576

Изучение NVL576 с точки зрения бизнеса

Я скептически отношусь к тому, что действительно найдутся клиенты для такой масштабной масштабируемой сети NVLink, как NVL576. Даже AWS решила лишь offиспользуйте NVL72 в своих облачных сервисах. Основными проблемами являются проблемы надежности и масштабируемости двухуровневой сетевой архитектуры, что делает NVL576 не идеальным решением из-за высокой сложности системы.

С другой стороны, при рассмотрении вычислительных требований больших моделей следующего поколения мета-документ «Как построить недорогие сети для больших языковых моделей (без ущерба для производительности)?» обсуждает это. В документе масштабируемая сеть на основе NVLink называется «доменом высокой пропускной способности (HBD)» и анализируется оптимальное количество карт в HBD:

Домен высокой пропускной способности (HBD)

Для модели GPT-1T прирост производительности по-прежнему весьма значителен при K>36 по сравнению с K=8, но предельные преимущества масштабирования от K>72 до K=576 не оправдывают увеличение сложности системы. Кроме того, по мере увеличения размера сети Scale-Up NVLINK преимущества в производительности полосы пропускания RDMA между HBD начинают уменьшаться. Окончательный баланс — использовать NVL72 в сочетании с RDMA Scale-Out для создания кластера на 32,000 XNUMX карт.

Масштабируемая сеть NVLINK увеличивается

Эволюция межсетевых систем: история Cisco

Распределенная архитектура из-за узкого места в вычислительных ресурсах и памяти

Вначале маршрутизаторы Cisco использовали для пересылки один процессор PowerPC. По мере бурного развития Интернета узким местом в производительности стали операции с интенсивным использованием памяти, такие как поиск в таблице маршрутизации. Это привело к постепенному появлению таких подходов, как коммутация процессов/CEF, которые соединяли несколько процессоров через шину данных:

Распределенная архитектура

Эти методы аналогичны ранним NVLINK 1.0/NVLINK 2.0, где чипы напрямую соединялись между собой через шину, как в поколениях Pascal.

любой к любому

Появление коммутационной ткани

В 1995 году Ник Маккион в своей статье «Быстрая коммутируемая объединительная плата для гигабитного коммутируемого маршрутизатора» предложил использовать коммутационную фабрику CrossBar для поддержки высокопроизводительных гигабитных маршрутизаторов, которые позже стали высокопроизводительными маршрутизаторами Cisco серии 12000.

линейная карта

Коммутационные фабрики в этих системах концептуально идентичны современным NVSwitch и NVSwitch Tray, на которых построены системы NVL8–NVL72. Все они направлены на объединение нескольких чипов для создания более масштабной системы, когда один чип сталкивается со стеной памяти.

NVSwitch лоток

Конструкция Cisco 12000 с одним корпусом, коммутационной фабрикой посередине и 9 лотками коммутаторов, аналогична GB200, где верхняя и нижняя части имеют по 8 слотов для линейных карт каждый, что соответствует вычислительным лоткам в GB200.

Основной технологией здесь является конструкция VOQ (Virtual Output Queuing) и алгоритм планирования iSLIP. Когда модель выполняет принцип «все ко всем», несколько B200 могут одновременно записывать данные в один и тот же B200, вызывая блокировку начала строки (HOLB). Люди ловко добавляют буферы до и после пересечений, которые представляют собой очередь ввода и очередь вывода:

Очередь ввода и очередь вывода

К сожалению, очередь вывода может максимизировать использование полосы пропускания, но требует скорости N*R, тогда как очередь ввода может обрабатывать со скоростью R, но страдает от HOLB. Максимальная пропускная способность коммутатора IQ, ограниченная HOLB, составляет 58.6%.

Простое решение проблемы IQ HOLB — использовать виртуальную очередь вывода (VOQ), где каждый входной порт имеет очередь для каждого вывода, устраняя HOLB и сохраняя при этом буферизацию R-скорости.

Виртуальная очередь вывода

Конечно, NVLINK от NVIDIA использует дизайн, основанный на кредитах, и арбитраж по распределению кредитов — это область, заслуживающая углубленного исследования для отечественных стартапов, работающих с графическими процессорами.

Многоступенчатая архитектура и эволюция оптических межсоединений

NVL576 аналогичен системе маршрутизации операторов Cisco (CRS-1), представленной в 2003 году.

Система маршрутизации оператора связи

В то время Cisco построила многоступенчатую коммутационную сетевую систему, столкнувшись с огромным спросом на полосу пропускания во время интернет-пузыря.

многоступенчатая коммутационная сетевая система

Трехступенчатая коммутационная сеть в одном шкафу, построенная с использованием лотков коммутаторов, эквивалентна существующей немасштабируемой сети GB3 NVL200. Тогда многошкафная структура соответствует NVL72. Тогда Cisco могла расшириться от одного шкафа с 576 линейными картами до системы с 16 шкафами Fabric + 8 шкафами с линейными картами, создав крупномасштабный кластер из 72 линейных карт. Внутренние соединения Cisco также используют оптические межсоединения.

крупномасштабный кластер линейных карт 1152

Оптические разъемы между шасси показаны на рисунке.

межкорпусные оптические разъемы

Стоит отметить, что в это время Билл Далли, ныне главный научный сотрудник NVIDIA, основал Avici и использовал межсоединения 3D-Torus для создания маршрутизаторов терабитного масштаба.

Терабитные маршрутизаторы

Соединение 3D-Torus напоминает TPU от Google. Позже компания Huawei выпустила систему Avici OEM и назвала ее NE5000, прежде чем разработать свой основной продукт-маршрутизатор NE5000E. В то же время появление Juniper также оказало значительное давление на Cisco в области основных маршрутизаторов. Возможно, доминирование NVIDIA также столкнется с новыми проблемами в будущем.

С другой стороны, примерно в то же время были представлены оптические переключатели на основе MEMS, которые, похоже, имеют некоторое сходство с нынешним использованием оптических переключателей Google.

Оптические переключатели на базе МЭМС

Будущая эволюция NVIDIA

На конференции HOTI 2023 года по межсетевым системам Билл Далли выступил с основным докладом под названием «Кластеры ускорителей, новый суперкомпьютер», обсудив три основные темы с точки зрения встроенных сетей и систем межсоединений:

Топология:

  • CLOS/3D-Тор/Стрекоза
  • Маршрутизация:
  • Управление потоком

Различные подключения устройств имеют разную пропускную способность и энергопотребление.

Новый суперкомпьютер

Задача состоит в том, как органично объединить их с учетом таких факторов, как мощность, стоимость, плотность и расстояние подключения.

Задача состоит в том, как их органично соединить.

Оптические межсоединения

Благодаря этим габаритным размерам Co-Package Optic DWDM становится жизнеспособным выбором:

Совместный пакет оптических DWDM

Концептуальная схема системы для построения оптических межсоединений выглядит следующим образом:

концепция системы

Конечная цель — построить крупномасштабную систему оптических межсоединений.

стойка для графического процессора

В этом аспекте вы увидите, что она почти идентична системе CRS-1 с несколькими шасси, созданной Cisco, где стойка графического процессора эквивалентна шасси Cisco LineCard, а стойка коммутатора эквивалентна шасси Cisco Fabric. Оба они используют оптические соединения и технологию DWDM для упрощения соединения и увеличения пропускной способности.

Корпус линейной карты Cisco

На уровне архитектуры чипа в качестве микросхемы для межсоединения используется оптический процессор.

фотонный подключенный графический процессор

Что касается структуры межсоединений, существует большая склонность к принятию топологии Dragonfly и использованию оптических переключателей OCS.

стрекоза

Что касается алгоритмов управления потоком и контроля перегрузки, Билл обсудил механизмы, аналогичные HOMA/NDP и адаптивной маршрутизации. В этом нет необходимости быть таким сложным, поскольку у нас есть лучшие алгоритмы MultiPath CC, которые не требуют каких-либо новых функций коммутатора.

Алгоритмы и интеграция специального оборудования

С другой стороны, Transformer существует уже 7 лет, и это отличный алгоритм, который балансирует операторы, связанные с вычислениями и памятью. Однако существует ли в отрасли еще более сложный алгоритм?

Исследуются модели разреженного внимания, такие как Monarch Mixer, и модели, не требующие внимания, такие как Mamba/RMKV, а также алгоритмы, основанные на теории категорий, алгебраической геометрии и алгебраической топологии. Существуют также различные числовые форматы, такие как FP4/FP6, поддерживаемые Blackwell, и, возможно, Log8 в будущем.

Исторически сложилось так, что Cisco также полагалась на алгоритмы и специальное оборудование для постепенного улучшения производительности одного кристалла и преодоления сложности структур межсоединений. Они использовали такие алгоритмы, как TreeBitMap, для крупномасштабного поиска в таблицах маршрутизации в обычной DRAM.

ДеревоБитКарта

С развитием многоядерных и встроенных сетей они создали высокопроизводительные сетевые процессоры SPP/QFP/QFA, и эти технологии вновь появились в процессорах AWS Nitro, NVIDIA BlueField и Intel IPU DPU.

Заключение

FibeMall проанализировал архитектуру межсоединений новейшего графического процессора Blackwell и исследовал конструкцию распределенной системы и архитектуру межсоединений, с которой столкнулись Cisco и NVIDIA, когда однокристальная производительность не могла удовлетворить взрывной спрос во время двух технологических волн, как обсуждалось в «NVIDIA's Cisco Moment». Также был проанализирован доклад Билла Далли на HOTI 2023 года, который дал четкое представление о будущем пути развития NVIDIA.

Однако мы также отмечаем, что во время пика интернет-пузыря такие компании, как Juniper и Avici, стали конкурентами Cisco, а NVIDIA также победила 3Dfx как претендента в ту эпоху, прежде чем доминировать на профессиональном рынке. В каждой эпохе есть свои возможности, и побеждают не просто те, кто накапливает больше ресурсов, но и те, кто внедряет инновации за счет сочетания алгоритмов и вычислительной мощности с аппаратным обеспечением.

С точки зрения претендента, сложность самого вычислительного ядра, не считая экосистемы CUDA, не так уж и велика. В последнее время Джим Келлер и некоторые игроки HBM в Южной Корее и Японии проявили активность, и стоит посмотреть, станет ли BUDA+RISC-V+HBM новой развивающейся силой.

новая тенденция к дезагрегированным вычислениям

С точки зрения замены систем межсоединений IB/NVLINK, Ethernet уже имеет микросхемы коммутатора со скоростью 51.2 Тбит/с, а протоколы связи, основанные на высокоскоростных соединениях Ethernet с HBM и поддерживающие внутрисетевые вычисления, такие как SHARP, уже были разработаны в NetDAM три года назад.

Оставьте комментарий

Наверх