Решение NDR 400G/800G от NVIDIA

Как новая технология, искусственный интеллект в последние годы претерпел бурное развитие. Среди них ряд технологий искусственного интеллекта, таких как ChatGPT, которые начали постепенно менять производство и образ жизни. Непрерывная оптимизация алгоритмов глубокого обучения и расширение обучающих наборов данных также привели к увеличению вычислительных ресурсов, необходимых для обучения больших языковых моделей, включая ЦП, ГП и DPU, которые необходимо подключать к серверам для обучения моделей через сети. Таким образом, пропускная способность сети и задержка напрямую влияют на скорость и эффективность обучения. Чтобы решить эту проблему, NVIDIA запустила платформу Quantum-2 InfiniBand, которая обеспечивает высокую производительность сети и комплексные функции, помогающие разработчикам и исследователям ИИ преодолевать трудности.

Основываясь на своем понимании тенденций развития высокоскоростных сетей и богатом опыте реализации высокопроизводительных сетевых проектов, NVIDIA представила сетевое решение NDR (Next Data Rate), построенное на базе платформы Quantum-2 InfiniBand. Решение NDR от NVIDIA в основном состоит из коммутаторов Quantum-2 InfiniBand 800G (2 интерфейса NDR по 400G), хост-адаптеров ConnectX-7 InfiniBand и оптических разъемов LinkX InfiniBand, предназначенных для обеспечения высокой производительности сети с малой задержкой и высокой пропускной способностью для критически важных областей, таких как как высокопроизводительные вычисления, крупномасштабные облачные центры обработки данных и искусственный интеллект.

Варианты использования включают в себя:

1. Подключить два коммутатора на скорости 800Гб/с или подключить к двум коммутаторам на скорости 400Гб/с каждый.

Для подключения двух коммутаторов на базе OSFP можно использовать два трансивера OSFP с двумя портами (MMA4Z00-НС) и два прямых многомодовых оптоволоконных кабеля (MFP7E10-Nxxx) на расстояние до 50 метров. Это позволит вам достичь скорости 800G (2x400G). В качестве альтернативы вы можете проложить два оптоволоконных кабеля к двум разным коммутаторам, чтобы создать два отдельных канала 400 Гбит/с. Затем дополнительные порты OSFP с двумя портами можно использовать для подключения к большему количеству коммутаторов, если это необходимо.

переключиться на переключатель

2. Подключиться к двум комбинациям ConnectX-7 BlueField-3 со скоростью 400G каждая.

Используя двухпортовый трансивер OSFP с двумя прямыми оптоволоконными кабелями, вы можете подключить до двух адаптеров и/или комбинаций DPU с помощью ConnectX-7 или BlueField-3. Каждый кабель имеет четыре канала и может подключаться к трансиверу 400G в любом OSFP (ММА4З00-НС400) или форм-фактор QSFP112 (MMA1Z00-NS400) для расстояний до 50 метров. И однопортовые форм-факторы OSFP, и QSFP112 имеют одинаковую электронику, оптику и оптические разъемы и потребляют 8 Вт мощности.

Обратите внимание, что только ConnectX-7/OSFP поддерживают однопортовый форм-фактор OSFP, а форм-фактор QSFP112 используется в ConnectX-7/QSFP112 и/или BlueField-3/QSFP112 DPU. Вы можете одновременно использовать любую комбинацию ConnectX-7 и BlueField-3 с OSFP или QSFP112 на одном и том же трансивере OSFP с двумя портами.

переключиться на 2

3. Подключиться к четырем комбинациям ConnectX-7 и/или BlueField-3 со скоростью 200G каждая.

Если вы хотите подключить до четырех адаптеров и/или комбинаций DPU с помощью ConnectX-7 или BlueField-3, вы можете использовать двухпортовый трансивер OSFP с двумя оптоволоконными разветвителями 1:2. Каждый из двух 4-канальных волоконно-оптических кабелей-разветвителей 1:2 (MFP7E20-N0xx) может подключаться к трансиверу 400G на расстоянии до 50 метров либо в OSFP (MMA4Z00-NS400), либо в QSFP112 (ММА1З00-НС400) фактор формы. Одинаковая электроника, оптика и оптические разъемы используются как для однопортовых форм-факторов OSFP, так и для форм-факторов QSFP112. Когда вы соединяете концы двухволоконного канала, активируются только две полосы в приемопередатчике 400G, создавая устройство 200G. Это также автоматически снижает энергопотребление приемопередатчиков 400G с 8 Вт до 5.5 Вт, в то время как энергопотребление двухпортового OSFP остается на уровне 15 Вт.

Обратите внимание, что только модули ConnectX-7/OSFP совместимы с форм-фактором OSFP с одним портом, в то время как форм-фактор QSFP112 используется в модулях ConnectX-7/QSFP112 и/или BlueField-3/QSFP112 DPU. Вы можете использовать любую комбинацию типов ConnectX-7 и BlueField-3 на одном трансивере OSFP с двумя портами.

переключиться на 4

4. Связать коммутатор с шасси ЦП DGX H100 «Викинг» в комплексе «Кедр-7».

Система DGX-H100 оснащена восемью графическими процессорами Hopper H100, расположенными в верхнем шасси, а также двумя ЦП, хранилищем и InfiniBand или сеть Ethernet в нижней секции сервера. Для облегчения связи между графическими процессорами используются карты Cedar-7, содержащие восемь микросхем ConnectX-400 7 Гбит/с, установленных на двух мезонинных платах. Эти карты подключены внутри к четырем двухпортовым клеткам OSFP 800G с внутренними радиаторами для охлаждения.

Коммутаторам, поддерживающим 400G IB/EN, требуются приемопередатчики 2x400G с ребристым верхом из-за уменьшенного воздухозаборника. В соединениях Cedar-7-to-Switch может использоваться одномодовая или многомодовая оптика или активные медные кабели (ACC) для подключения InfiniBand или Ethernet.

Двухпортовый приемопередатчик 2x400G обеспечивает два канала 400G ConnectX-7 от DGX до коммутатора Quantum-2 или Spectrum-4, тем самым уменьшая сложность и количество необходимых приемопередатчиков по сравнению с DGX A100. DGX-H100 также поддерживает до четырех блоков обработки данных (DPU) ConnectX-7 и/или двух BlueField-3 в InfiniBand и/или Ethernet для традиционного сетевого взаимодействия с хранилищем, кластерами и управлением.

Слоты для карт PCIe, расположенные по обеим сторонам отсеков для графических процессоров OSFP, могут использоваться для отдельных кабелей и/или приемопередатчиков для облегчения создания дополнительных сетей с использованием скоростей 400G или 200G с устройствами OSFP или QSFP112.

перейти на дгх

InfiniBand Квант-2 Коммутатор

Коммутаторы QM9700 и QM9790 от NVIDIA Quantum-2 — это основные коммутаторы IB (InfiniBand) в области современного искусственного интеллекта и высокопроизводительных вычислений. Благодаря технологическим инновациям и услугам тестирования надежности NVIDIA Networks предоставляет пользователям отличные услуги по ускорению сети.

InfiniBand Квантум-2

Эти два коммутатора используют стандартную конструкцию корпуса 1U с 32 физическими интерфейсами 800G и поддерживают 64 порта InfiniBand NDR 400 Гбит/с (которые можно разделить на 128 портов 200 Гбит/с). Они поддерживают технологию NVIDIA SHARP третьего поколения, расширенный контроль перегрузки, адаптивную маршрутизацию и сетевую технологию самовосстановления. По сравнению с продуктами HDR предыдущего поколения, NDR обеспечивает вдвое большую скорость порта, в три раза большую плотность портов коммутатора, в пять раз большую емкость системы коммутатора и в 32 раза большую способность ускорения искусственного интеллекта коммутатора.

ndr переключатель

Коммутаторы QM9700 и QM9790 — это продукты для стоечных решений InfiniBand, включая коммутаторы с воздушным и жидкостным охлаждением, а также управляемые и неуправляемые коммутаторы. Каждый коммутатор может поддерживать двунаправленную совокупную пропускную способность 51.2 Тбит/с и обладает потрясающей пропускной способностью более 66.5 миллиардов пакетов в секунду (BPPS). Это примерно в пять раз превышает коммутационную способность предыдущего поколения Quantum-1.

внутри сети

Коммутаторы QM9700 и QM9790 обладают высокой гибкостью и могут поддерживать различные сетевые топологии, такие как Fat Tree, DragonFly+ и многомерный тор. Они также поддерживают обратную совместимость с предыдущими поколениями продуктов и имеют расширенную поддержку программных систем.

Квант-2 ConnectX-7 Умная сетевая карта

NVIDIA предлагает однопортовые или двухпортовые интеллектуальные сетевые карты NDR или NDR200 NVIDIA ConnectX 7 в качестве решения Quantum-2. Используя технологию NVIDIA Mellanox Socket Direct, эта сетевая карта поддерживает 32 канала PCIe Gen4. Разработанный с использованием 7-нанометровой технологии, ConnectX-7 содержит 8 миллиардов транзисторов и имеет скорость передачи данных, в два раза превышающую скорость ведущего высокопроизводительного вычислительного сетевого чипа NVIDIA ConnectX-6. Это также удваивает производительность RDMA, GPUDirect Storage, GPUDirect RDMA и сетевых вычислений.

NDR HCA включает в себя несколько программируемых вычислительных ядер, которые могут выгружать алгоритмы предварительной обработки данных и пути управления приложениями из ЦП или графического процессора в сеть, обеспечивая более высокую производительность, масштабируемость и дублирование вычислительных и коммуникационных задач. Эта интеллектуальная сетевая карта отвечает самым строгим требованиям для традиционных предприятий и глобальных рабочих нагрузок в области искусственного интеллекта, научных вычислений и крупных облачных центров обработки данных.

Интеллектуальная сетевая плата Quantum-2 ConnectX-7

Оптический разъем LinkX InfiniBand

ФайберМолл offЭто гибкие решения для оптических соединений InfiniBand со скоростью 400 Гбит/с, включая одномодовые и многомодовые приемопередатчики, оптоволоконные перемычки MPO, активные медные кабели (ACC) и пассивные медные кабели (DAC), для удовлетворения потребностей различных сетевых топологий.

Решение включает в себя двухпортовые приемопередатчики с разъемами OSFP с ребрами, предназначенными для коммутаторов фиксированной конфигурации с воздушным охлаждением, а трансиверы с плоскими разъемами OSFP подходят для модульных коммутаторов с жидкостным охлаждением и HCA.

Для соединения коммутаторов можно использовать новый оптический модуль OSFP 2xNDR (800 Гбит/с) для соединения двух коммутаторов QM97XX. Конструкция ребер значительно улучшает рассеивание тепла оптическими модулями.

Для соединения между коммутаторами и HCA на стороне коммутатора используется оптический модуль 2xNDR (800 Гбит/с) в корпусе OSFP с ребрами, а на стороне сетевой карты используется плоский Оптический модуль OSFP 400 Гбит/с. Волоконно-оптические перемычки MPO могут обеспечить 3–150 метров, а оптоволокно-разветвитель «один на два» может обеспечить 3–50 метров.

оптический трансивер

Соединение между коммутатором и HCA обеспечивает решение с использованием DAC (до 1.5 м) или ACC (до 3 м). Для подключения одного порта OSFP коммутатора (оснащенного двумя портами InfiniBand 400 Гбит/с) к двум независимым HCA 400 Гбит/с можно использовать соединительный кабель от одного до двух. Отводной кабель от одного до четырех можно использовать для подключения одного порта коммутатора OSFP к четырем HCA 200 Гбит/с.

соединение между коммутатором и HCA

Преимущества

Платформа NVIDIA Quantum-2 InfiniBand — это высокопроизводительное сетевое решение, способное достигать скорости передачи 400 Гбит/с на порт. Благодаря внедрению технологии NVIDIA Port Splitting, плотность портов в два раза выше, плотность портов коммутатора в три раза выше, а емкость системы коммутатора в пять раз выше. При использовании топологии Dragonfly+ сеть на основе Quantum-2 может обеспечить подключение со скоростью 400 Гбит/с для более чем миллиона узлов в течение трех переходов при одновременном снижении энергопотребления, задержек и требований к пространству.

Что касается производительности, NVIDIA представила технологию SHARP третьего поколения (SHARPv3), которая обеспечивает почти бесконечную масштабируемость для агрегации больших объемов данных через масштабируемую сеть, поддерживающую до 64 параллельных потоков. Возможности ускорения ИИ увеличились в 32 раза по сравнению с предыдущим продуктом HDR.

С точки зрения затрат пользователей использование устройств NDR может снизить сложность сети и повысить ее эффективность. При последующем повышении тарифа необходимо заменить только кабели и сетевые карты. Для сетей NDR требуется меньше устройств, чем для тех, которые поддерживают ту же сеть, что делает их более рентабельными с точки зрения общего бюджета и будущих инвестиций. По сравнению с предыдущим HDR, устройства NDR могут снизить затраты и повысить эффективность.

Оставьте комментарий

Наверх