Анализ архитектуры межсоединения GB200
Расчет пропускной способности NVLink
У NVIDIA большая путаница в расчете пропускной способности передачи NVLink и понятиях SubLink/Port/Lane. Обычно пропускная способность NVLink одного чипа B200 составляет 1.8 ТБ/с. Обычно это рассчитывается с использованием алгоритма пропускной способности памяти, при этом единицей измерения являются байты в секунду (Б/с). Однако в отношении коммутаторов NVLink или коммутаторов IB/Ethernet и сетевых карт точка зрения принадлежит Mellanox, который рассчитывает пропускную способность сети в битах в секунду (бит/с). Давайте подробно объясним метод расчета NVLink. Начиная с NVLink 3.0, четыре дифференциальные пары образуют «субканал» (NVIDIA часто использует термины Port/Link с несколько расплывчатым определением). Эти 4 пары линий дифференциального сигнала содержат сигналы направления приема и передачи. При расчете пропускной способности сети интерфейс 400 Гбит/с обычно подразумевает возможность одновременной передачи и приема данных со скоростью 400 Гбит/с.
Он состоит из 4 пар дифференциальных сигнальных линий, по 2 пары для RX и TX. С точки зрения сети это однонаправленный канал со скоростью 400 Гбит/с, а с точки зрения пропускной способности памяти он поддерживает пропускную способность доступа к памяти 100 ГБ/с.
Пропускная способность межсоединения NVLINK 5.0
Поколение Blackwell использует 224G Serdes со скоростью передачи по подканалу 200 Гбит/с * 4 (4 дифференциальные пары) / 8 = 100 ГБ/с и пропускной способностью сети в одном направлении 400 Гбит/с. B200 имеет 18 дополнительных каналов, что обеспечивает пропускную способность 100 ГБ/с * 18 = 1.8 ТБ/с, что с точки зрения сети эквивалентно 9 однонаправленным интерфейсам со скоростью 400 Гбит/с. Аналогичным образом, во введении к NVSwitch упоминается, что Dual SerDes со скоростью 200 Гбит/с составляет 400 Гбит/с.
с Порт.
Для ясности определим следующие термины:
Пропускная способность B200 NVLINK составляет 1.8 ТБ/с, состоит из 18 портов, каждый со скоростью 100 ГБ/с, состоящих из четырех дифференциальных пар, при этом каждый порт содержит два порта 224 Гбит/с (2x224G PAM4 соответствует 400Gbps полоса пропускания в одном направлении на порт).
Соединение NVLINK 4.0
Что касается Hopper, NVLINK 4.0 использует 112G Serdes с одной дифференциальной сигнальной линией, обеспечивающей скорость 100 Гбит/с, в результате чего совокупная скорость одного подканала NVLINK составляет 4x100 Гбит/с = 50 ГБ/с. Продукты Hopper, поддерживающие NVLINK 4.0, имеют 18 дополнительных каналов (портов), поэтому один H100 поддерживает скорость 50 ГБ/с * 18 = 900 ГБ/с. Одна система с 8 картами может использовать для подключения 4 NVSwitch, как показано на рисунке.
Также возможно добавить коммутатор второго уровня для создания кластера из 256 карт.
Интерфейс расширения использует оптические модули OSFP, которые могут поддерживать 16 линий дифференциального сигнала, что позволяет одному OSFP поддерживать 4 порта NVLINK.
Коммутатор NVLink на изображении содержит 32 разъема оптического модуля OSFP, поддерживающих в общей сложности 32 * 4 = 128 портов NVLINK 4.
ГБ200 НВЛ72
Система GB200 NVL72 имеет следующие характеристики, при этом основное внимание уделяется межсоединению NVLINK:
Каждый GB200 содержит один 72-ядерный процессор Grace ARM и два графических процессора Blackwell.
Вся система состоит из вычислительных лотков и коммутаторных лотков. Каждый вычислительный лоток содержит две подсистемы GB200, всего 4 графических процессора Blackwell.
Каждый лоток коммутатора содержит две микросхемы коммутатора NVLINK, что обеспечивает в общей сложности 72 * 2 = 144 порта NVLINK. Показана внутренняя структура одного чипа коммутатора: 36 портов сверху и снизу, обеспечивающие пропускную способность 7.2 ТБ/с. Согласно сетевым расчетам, это соответствует пропускной способности 28.8 Тбит/с, что немного меньше, чем у нынешнего ведущего чипа коммутатора со скоростью 51.2 Тбит/с, но это связано с реализацией функциональности SHARP (NVLS).
Вся стойка поддерживает 18 вычислительных лотков и 9 коммутаторных лотков, образующих архитектуру NVL72 с 72 полностью взаимосвязанными микросхемами Blackwell.
Каждая подсистема GB200 имеет 2 * 18 = 36 портов NVLink5. Для внешнего межсоединения системы не используются оптические модули OSFP, а используется прямое соединение медной объединительной платы, как показано на схеме.
Общая топология межсоединений NVL72 выглядит следующим образом:
Каждый B200 имеет 18 портов NVLINK, а в 18 лотках коммутаторов установлено 9 микросхем коммутаторов NVLINK. Таким образом, порты каждого B200 подключаются к одному чипу NVSwitch, в результате чего на каждый NVSwitch приходится 72 порта, и именно так система NVL72 полностью соединяет все 72 чипа B200.
НВЛ576
Заметим, что в шкафу NVL72 все коммутаторы больше не имеют дополнительных интерфейсов для формирования более крупного двухуровневого кластера коммутаторов. Из offНа официальных изображениях NVIDIA 16 шкафов расположены в два ряда, и хотя общее количество составляет ровно 72*8=576 карт кластера с жидкостным охлаждением, соединительные кабели между картами, судя по всему, идут скорее через межсетевое соединение Scale-Out RDMA, а не межсетевое соединение Scale-Up NVLINK.
Для кластера на 32,000 72 карт это также осуществляется через такие шкафы NVL9, один ряд из 4 шкафов, 72 NVL5 и 18 сетевых шкафов, два ряда по XNUMX шкафов, образующих Sub-Pod, и подключенных через сеть RDMA Scale-Out.
Конечно, это не так называемый NVL576. Если требуется NVL576, каждые 72 ГБ200 необходимо сконфигурировать с 18 коммутаторами NVSwitch, которые не поместятся в один шкаф. Мы замечаем, что offКомпания icial упомянула, что существует версия NVL72 с одним шкафом, а также версия с двумя шкафами, а в версии с двумя шкафами каждый вычислительный лоток имеет только одну подсистему GB200.
С другой стороны, мы заметили, что на NVSwitch есть запасные разъемы для медных кабелей, которые, вероятно, настроены для различных соединений медной объединительной платы.
Неизвестно, будут ли эти интерфейсы иметь дополнительные клетки OSFP над объединительной платой медных межсоединений для межсоединений NVSwitch второго уровня, но у этого метода есть одно преимущество: версия с одним шкафом не масштабируется, а версия с двумя шкафами масштабируется, поскольку показано на изображении.
Версия с двумя шкафами имеет 18 лотков NVSwitch, которые можно соединить друг с другом, образуя NVL72. Хотя количество коммутаторов увеличилось вдвое, каждый коммутатор обеспечивает 36 портов восходящей связи для будущего расширения до кластера из 576 карт. Один шкаф имеет в общей сложности 36*2*9 = 648 портов восходящей связи, а для формирования NVL16 требуется 576 шкафов, в результате чего в общей сложности получается 648*16 = 10,368 9 портов восходящей связи, которые могут быть построены с помощью 36 плоскостей коммутатора второго уровня. , каждая из которых имеет 18 подплоскостей, образованных 576 лотками переключателей. Структура межсоединений NVLXNUMX показана ниже.
Изучение NVL576 с точки зрения бизнеса
Я скептически отношусь к тому, что действительно найдутся клиенты для такой масштабной масштабируемой сети NVLink, как NVL576. Даже AWS решила лишь offиспользуйте NVL72 в своих облачных сервисах. Основными проблемами являются проблемы надежности и масштабируемости двухуровневой сетевой архитектуры, что делает NVL576 не идеальным решением из-за высокой сложности системы.
С другой стороны, при рассмотрении вычислительных требований больших моделей следующего поколения мета-документ «Как построить недорогие сети для больших языковых моделей (без ущерба для производительности)?» обсуждает это. В документе масштабируемая сеть на основе NVLink называется «доменом высокой пропускной способности (HBD)» и анализируется оптимальное количество карт в HBD:
Для модели GPT-1T прирост производительности по-прежнему весьма значителен при K>36 по сравнению с K=8, но предельные преимущества масштабирования от K>72 до K=576 не оправдывают увеличение сложности системы. Кроме того, по мере увеличения размера сети Scale-Up NVLINK преимущества в производительности полосы пропускания RDMA между HBD начинают уменьшаться. Окончательный баланс — использовать NVL72 в сочетании с RDMA Scale-Out для создания кластера на 32,000 XNUMX карт.
Эволюция межсетевых систем: история Cisco
Распределенная архитектура из-за узкого места в вычислительных ресурсах и памяти
Вначале маршрутизаторы Cisco использовали для пересылки один процессор PowerPC. По мере бурного развития Интернета узким местом в производительности стали операции с интенсивным использованием памяти, такие как поиск в таблице маршрутизации. Это привело к постепенному появлению таких подходов, как коммутация процессов/CEF, которые соединяли несколько процессоров через шину данных:
Эти методы аналогичны ранним NVLINK 1.0/NVLINK 2.0, где чипы напрямую соединялись между собой через шину, как в поколениях Pascal.
Появление коммутационной ткани
В 1995 году Ник Маккион в своей статье «Быстрая коммутируемая объединительная плата для гигабитного коммутируемого маршрутизатора» предложил использовать коммутационную фабрику CrossBar для поддержки высокопроизводительных гигабитных маршрутизаторов, которые позже стали высокопроизводительными маршрутизаторами Cisco серии 12000.
Коммутационные фабрики в этих системах концептуально идентичны современным NVSwitch и NVSwitch Tray, на которых построены системы NVL8–NVL72. Все они направлены на объединение нескольких чипов для создания более масштабной системы, когда один чип сталкивается со стеной памяти.
Конструкция Cisco 12000 с одним корпусом, коммутационной фабрикой посередине и 9 лотками коммутаторов, аналогична GB200, где верхняя и нижняя части имеют по 8 слотов для линейных карт каждый, что соответствует вычислительным лоткам в GB200.
Основной технологией здесь является конструкция VOQ (Virtual Output Queuing) и алгоритм планирования iSLIP. Когда модель выполняет принцип «все ко всем», несколько B200 могут одновременно записывать данные в один и тот же B200, вызывая блокировку начала строки (HOLB). Люди ловко добавляют буферы до и после пересечений, которые представляют собой очередь ввода и очередь вывода:
К сожалению, очередь вывода может максимизировать использование полосы пропускания, но требует скорости N*R, тогда как очередь ввода может обрабатывать со скоростью R, но страдает от HOLB. Максимальная пропускная способность коммутатора IQ, ограниченная HOLB, составляет 58.6%.
Простое решение проблемы IQ HOLB — использовать виртуальную очередь вывода (VOQ), где каждый входной порт имеет очередь для каждого вывода, устраняя HOLB и сохраняя при этом буферизацию R-скорости.
Конечно, NVLINK от NVIDIA использует дизайн, основанный на кредитах, и арбитраж по распределению кредитов — это область, заслуживающая углубленного исследования для отечественных стартапов, работающих с графическими процессорами.
Многоступенчатая архитектура и эволюция оптических межсоединений
NVL576 аналогичен системе маршрутизации операторов Cisco (CRS-1), представленной в 2003 году.
В то время Cisco построила многоступенчатую коммутационную сетевую систему, столкнувшись с огромным спросом на полосу пропускания во время интернет-пузыря.
Трехступенчатая коммутационная сеть в одном шкафу, построенная с использованием лотков коммутаторов, эквивалентна существующей немасштабируемой сети GB3 NVL200. Тогда многошкафная структура соответствует NVL72. Тогда Cisco могла расшириться от одного шкафа с 576 линейными картами до системы с 16 шкафами Fabric + 8 шкафами с линейными картами, создав крупномасштабный кластер из 72 линейных карт. Внутренние соединения Cisco также используют оптические межсоединения.
Оптические разъемы между шасси показаны на рисунке.
Стоит отметить, что в это время Билл Далли, ныне главный научный сотрудник NVIDIA, основал Avici и использовал межсоединения 3D-Torus для создания маршрутизаторов терабитного масштаба.
Соединение 3D-Torus напоминает TPU от Google. Позже компания Huawei выпустила систему Avici OEM и назвала ее NE5000, прежде чем разработать свой основной продукт-маршрутизатор NE5000E. В то же время появление Juniper также оказало значительное давление на Cisco в области основных маршрутизаторов. Возможно, доминирование NVIDIA также столкнется с новыми проблемами в будущем.
С другой стороны, примерно в то же время были представлены оптические переключатели на основе MEMS, которые, похоже, имеют некоторое сходство с нынешним использованием оптических переключателей Google.
Будущая эволюция NVIDIA
На конференции HOTI 2023 года по межсетевым системам Билл Далли выступил с основным докладом под названием «Кластеры ускорителей, новый суперкомпьютер», обсудив три основные темы с точки зрения встроенных сетей и систем межсоединений:
Топология:
- CLOS/3D-Тор/Стрекоза
- Маршрутизация:
- Управление потоком
Различные подключения устройств имеют разную пропускную способность и энергопотребление.
Задача состоит в том, как органично объединить их с учетом таких факторов, как мощность, стоимость, плотность и расстояние подключения.
Оптические межсоединения
Благодаря этим габаритным размерам Co-Package Optic DWDM становится жизнеспособным выбором:
Концептуальная схема системы для построения оптических межсоединений выглядит следующим образом:
Конечная цель — построить крупномасштабную систему оптических межсоединений.
В этом аспекте вы увидите, что она почти идентична системе CRS-1 с несколькими шасси, созданной Cisco, где стойка графического процессора эквивалентна шасси Cisco LineCard, а стойка коммутатора эквивалентна шасси Cisco Fabric. Оба они используют оптические соединения и технологию DWDM для упрощения соединения и увеличения пропускной способности.
На уровне архитектуры чипа в качестве микросхемы для межсоединения используется оптический процессор.
Что касается структуры межсоединений, существует большая склонность к принятию топологии Dragonfly и использованию оптических переключателей OCS.
Что касается алгоритмов управления потоком и контроля перегрузки, Билл обсудил механизмы, аналогичные HOMA/NDP и адаптивной маршрутизации. В этом нет необходимости быть таким сложным, поскольку у нас есть лучшие алгоритмы MultiPath CC, которые не требуют каких-либо новых функций коммутатора.
Алгоритмы и интеграция специального оборудования
С другой стороны, Transformer существует уже 7 лет, и это отличный алгоритм, который балансирует операторы, связанные с вычислениями и памятью. Однако существует ли в отрасли еще более сложный алгоритм?
Исследуются модели разреженного внимания, такие как Monarch Mixer, и модели, не требующие внимания, такие как Mamba/RMKV, а также алгоритмы, основанные на теории категорий, алгебраической геометрии и алгебраической топологии. Существуют также различные числовые форматы, такие как FP4/FP6, поддерживаемые Blackwell, и, возможно, Log8 в будущем.
Исторически сложилось так, что Cisco также полагалась на алгоритмы и специальное оборудование для постепенного улучшения производительности одного кристалла и преодоления сложности структур межсоединений. Они использовали такие алгоритмы, как TreeBitMap, для крупномасштабного поиска в таблицах маршрутизации в обычной DRAM.
С развитием многоядерных и встроенных сетей они создали высокопроизводительные сетевые процессоры SPP/QFP/QFA, и эти технологии вновь появились в процессорах AWS Nitro, NVIDIA BlueField и Intel IPU DPU.
Заключение
FibeMall проанализировал архитектуру межсоединений новейшего графического процессора Blackwell и исследовал конструкцию распределенной системы и архитектуру межсоединений, с которой столкнулись Cisco и NVIDIA, когда однокристальная производительность не могла удовлетворить взрывной спрос во время двух технологических волн, как обсуждалось в «NVIDIA's Cisco Moment». Также был проанализирован доклад Билла Далли на HOTI 2023 года, который дал четкое представление о будущем пути развития NVIDIA.
Однако мы также отмечаем, что во время пика интернет-пузыря такие компании, как Juniper и Avici, стали конкурентами Cisco, а NVIDIA также победила 3Dfx как претендента в ту эпоху, прежде чем доминировать на профессиональном рынке. В каждой эпохе есть свои возможности, и побеждают не просто те, кто накапливает больше ресурсов, но и те, кто внедряет инновации за счет сочетания алгоритмов и вычислительной мощности с аппаратным обеспечением.
С точки зрения претендента, сложность самого вычислительного ядра, не считая экосистемы CUDA, не так уж и велика. В последнее время Джим Келлер и некоторые игроки HBM в Южной Корее и Японии проявили активность, и стоит посмотреть, станет ли BUDA+RISC-V+HBM новой развивающейся силой.
С точки зрения замены систем межсоединений IB/NVLINK, Ethernet уже имеет микросхемы коммутатора со скоростью 51.2 Тбит/с, а протоколы связи, основанные на высокоскоростных соединениях Ethernet с HBM и поддерживающие внутрисетевые вычисления, такие как SHARP, уже были разработаны в NetDAM три года назад.
Сопутствующие товары:
- OSFP-800G-FR4 800G OSFP FR4 (200G на линию) PAM4 CWDM Duplex LC 2 км SMF Оптический модуль приемопередатчика $11200.00
- OSFP-800G-2FR2L 800G OSFP 2FR2 (200G на линию) PAM4 1291/1311 нм 2 км DOM Duplex LC SMF Оптический модуль приемопередатчика $8500.00
- OSFP-800G-2FR2 800G OSFP 2FR2 (200G на линию) PAM4 1291/1311 нм 2 км DOM Dual CS SMF Оптический модуль приемопередатчика $8500.00
- OSFP-800G-DR4 800G OSFP DR4 (200G на линию) PAM4 1311 нм MPO-12 500 м SMF DDM Оптический модуль приемопередатчика $6300.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $2000.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $1400.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $2000.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $1400.00
- Совместимость с NVIDIA MMS1Z00-NS400 400G NDR QSFP112 DR4 PAM4 1310 нм 500 м MPO-12 с модулем оптического приемопередатчика FEC $1350.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $1450.00
- Совместимый с OSFP NVIDIA MMS4X50-NM 2x400G FR4 PAM4 1310 нм 2 км DOM двухдуплексный оптический модуль LC SMF $4650.00
- OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm 2 км SN SMF Оптический модуль приемопередатчика $17000.00
- OSFP-XD-1.6T-2FR4 1.6T OSFP-XD 2xFR4 PAM4 2x CWDM4 TBD Двухдуплексный оптический модуль LC SMF $22400.00
- OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311 нм 2 км MPO-16 Модуль оптического приемопередатчика SMF $12600.00