FiberMall поставляет сетевые решения HPC для AIGC

27 марта 2023

мой

Консультант по оптической передаче

AIGC (AI-Generated Content) в последнее время быстро развивается, и скорость итерации растет в геометрической прогрессии. Среди них запуск GPT-4 и ERNIE Bot привлек большое внимание к его ценности для бизнеса и сценариям применения. С развитием AIGC масштаб параметров обучающей модели увеличился с сотен миллиардов до триллионов уровней, а масштаб базовой поддержки GPU также достиг триллиона уровней карт. В результате масштаб сети продолжает увеличиваться, а связь между сетевыми узлами сталкивается с растущими проблемами. В этом контексте то, как улучшить вычислительную мощность сервера ИИ и возможности сетевой связи, а также принять во внимание стоимость, стало одним из важных направлений исследований в текущей области ИИ.

FiberMall запустил передовое в отрасли высокопроизводительное сетевое решение Smart Speed DDC (Distributed Disaggregated Chassis) для решения взаимосвязи между вычислительной мощностью AIGC, использованием графического процессора и сетью, а также проблем, с которыми сталкиваются основные сети HPC, чтобы помочь бизнес-вычислениям AIGC сила взлетает.

Схема подключения продукта FiberMall DDC

Содержание

Взаимосвязь между арифметической мощностью AIGC, использованием графического процессора и сетью

Взаимосвязь между временем обучения и использованием графического процессора ChatGPT

Если взять в качестве примера ChatGPT, то с точки зрения арифметической мощности общее арифметическое энергопотребление для обучения на суперкомпьютерной инфраструктуре искусственного интеллекта Microsoft Azure (кластер с высокой пропускной способностью из 10,000 100 V 3,640 GPU) составляет около 3,640 PF-дней (одна тысяча триллионов вычислений в секунду). , работающий в течение 10,000 дней), вот формула для преобразования времени, необходимого для обучения 100 XNUMX V XNUMX.

Вычислительная мощность ChatGPT и график обучения

Примечание. Требования к вычислительной мощности ChatGPT доступны в Интернете и приведены здесь только для справки. В статье «ИИ и вычисления» OpenAI предполагает коэффициент использования 33%, в то время как группа исследователей из NVIDIA, Stanford и Microsoft добилась коэффициента использования от 44% до 52% для обучения больших языковых моделей в распределенных системах.

Видно, что основными факторами, влияющими на время обучения модели, являются загрузка графического процессора и вычислительная мощность кластера графического процессора. Эти ключевые показатели, в свою очередь, тесно связаны с эффективностью сети. Эффективность сети — важный фактор, влияющий на использование графического процессора в кластерах ИИ. В кластерах ИИ графические процессоры обычно являются основным ресурсом вычислительных узлов, поскольку они могут эффективно справляться с крупномасштабными задачами глубокого обучения. Однако на использование графического процессора влияет несколько факторов, среди которых эффективность сети является ключевым фактором.

Взаимосвязь между эффективностью сети и использованием графического процессора

Сеть играет решающую роль в обучении ИИ, а кластеры ИИ обычно состоят из нескольких вычислительных узлов и узлов хранения, которым необходимо часто взаимодействовать и обмениваться данными. Если сеть будет неэффективной, связь между этими узлами станет медленной, что напрямую повлияет на вычислительную мощность ИИ-кластера.

Неэффективные сети могут привести к следующим проблемам, которые могут снизить использование графического процессора.

Увеличено время передачи данных: В неэффективной сети время передачи данных увеличится. Использование графического процессора уменьшится, когда графическим процессорам необходимо дождаться завершения передачи данных, прежде чем они смогут выполнять вычисления.

Узкое место пропускной способности сети: в кластере ИИ графическим процессорам обычно необходимо часто обмениваться данными с другими вычислительными узлами. Если пропускная способность сети недостаточна, графические процессоры не получат достаточно данных для вычислений, что приведет к снижению использования графического процессора.

Несбалансированное планирование задач: в неэффективной сети задачи могут быть назначены не на GPU, а на другие вычислительные узлы. Это может привести к бездействию графического процессора, когда требуется передача большого объема данных, что снижает загрузку графического процессора.

Чтобы улучшить использование графического процессора, необходимо оптимизировать эффективность сети. Этого можно достичь, используя более быстрые сетевые методы, оптимизируя топологию сети и рационализируя распределение полосы пропускания. В модели обучения параллелизм распределенного обучения: параллелизм данных, тензорный параллелизм и параллелизм потоков определяет модель связи между данными, обрабатываемыми графическими процессорами. На эффективность коммуникации между моделями влияет несколько факторов:

Факторы, влияющие на общение

Среди них пропускная способность и задержка переадресации устройства ограничены аппаратным обеспечением, задержка конечной обработки зависит от выбора технологии (TCP или RDMA), РДМА будет ниже, а организация очередей и повторная передача зависят от оптимизации сети и выбора технологии.

На основе количественной модели: загрузка графического процессора = время итерационных вычислений в графическом процессоре / (время итерационных вычислений в графическом процессоре + общее время обмена данными по сети) можно сделать следующие выводы:

График пропускной способности и использования графического процессора График динамической задержки и использования графического процессора

Видно, что пропускная способность сети и динамическая задержка (перегрузка/потеря пакетов) оказывают значительное влияние на использование графического процессора.

Исходя из состава общей латентности связи:

Состав общей задержки связи

Статическая задержка оказывает меньшее влияние, поэтому более важно сосредоточиться на том, как уменьшить динамическую задержку, что может эффективно улучшить использование графического процессора для достижения цели повышения вычислительной мощности.

Проблемы массовой сети высокопроизводительных вычислений

Сеть IB стоит дорого и закрыта

Infiniband networking — наиболее эффективное решение для современных высокопроизводительных сетей, использующее сверхвысокую пропускную способность и механизмы на основе кредитов для обеспечения отсутствия перегрузок и сверхнизкой задержки, но это также и самое дорогое решение. Это также самое дорогое решение. Это в несколько раз дороже, чем традиционная сеть Ethernet с той же пропускной способностью. В то же время, Infiniband технология закрыта, и в отрасли есть только один зрелый поставщик, что делает невозможным для конечных пользователей получение второго источника поставок.

Поэтому большинство пользователей в отрасли выберут традиционное сетевое решение Ethernet.

PFC и ECN могут вызвать падение скорости

Текущее основное сетевое решение для высокопроизводительных сетей основано на RoCE v2 для создания сетей с поддержкой RDMA. Двумя важными технологиями коллокации являются PFC и ECN, обе они созданы для предотвращения перегрузки канала.

В многоступенчатой сети PFC он будет нацелен на перегрузку входа коммутатора и обратное давление на исходный сервер, чтобы шаг за шагом приостановить передачу, чтобы уменьшить перегрузку сети и избежать потери пакетов; однако это решение может столкнуться с риском взаимоблокировки PFC, что приведет к остановке пересылки трафика RDMA в многоступенчатой сети.

Принципиальная схема рабочего механизма PFC

В то время как ECN генерирует пакет RoCEv2 CNP напрямую, чтобы уведомить источник о снижении скорости на основе информации о перегрузке на стороне назначения на выходе коммутатора, исходный сервер получает сообщение CNP и точно снижает скорость отправки соответствующего QP, чтобы уменьшить перегрузку, избегая при этом бессистемное снижение скорости.

Принципиальная схема ECN

Обе эти технологии предназначены для устранения перегрузок, но часто могут срабатывать из-за возможных перегрузок в сети. В конце концов, исходный конец приостановит или замедлит скорость передачи, и пропускная способность связи будет уменьшена. Сильно влияет коэффициент использования графического процессора, что снижает вычислительную мощность всей высокопроизводительной сети.

Несбалансированный ECMP может вызвать перегрузку

В расчетах обучения ИИ есть две основные модели: All-Reduce и All-to-All, обе из которых требуют частого обмена данными с одного графического процессора на несколько графических процессоров.

Модели расчета обучения ИИ

В традиционной сети устройства ToR и Leaf используют сетевой режим маршрутизации + ECMP. ECMP выполняет маршрутизацию хеш-нагрузки на основе потоков. В крайнем случае один канал ECMP переполнен из-за одного слонового потока, в то время как другие каналы ECMP относительно простаивают, что приводит к неравномерной нагрузке.

Традиционная схема развертывания ECMP

В тестовой среде с 8 внутренне смоделированными каналами ECMP результаты тестирования следующие:

Результаты тестирования трафика ECMP

Как видно, ECMP на основе потока вызывает более очевидную занятость определенных каналов (ECMP1-5 и 1-6) и бездействие (ECMP1-0 - 1-3 простаивают). Как в модели All-Reduce, так и в модели All-to-All маршрут может легко стать перегруженным из-за неравномерной нагрузки на ECMP. Как только перегрузка вызывает повторную передачу, это увеличивает общую общую задержку связи и снижает загрузку графического процессора.

Поэтому исследовательское сообщество предложило богатые решения, такие как phost, Homa, NDP, 1RMA и Aeolus. Они адресованы incast в разной степени, а также направлены на балансировку нагрузки и трафик запроса/ответа с малой задержкой. Но они также приносят новые вызовы. Часто эти изученные решения требуют комплексного решения проблем с большими изменениями хостов, сетевых карт и сетей, что дорого обходится среднему пользователю.

Проблемы кластеризации ИИ с переключателями Box

Некоторые интернет-компании обращаются к коммутаторам с микросхемами DNX, поддерживающими технологию VOQ, для решения проблемы низкого использования полосы пропускания из-за дисбаланса нагрузки, но они также сталкиваются с рядом следующих проблем.

Средняя масштабируемость. Размер кадра ограничивает максимальное количество портов. Если вы хотите создать кластер большего масштаба, вам необходимо расширить несколько фреймов по горизонтали, что также создаст многоуровневые ссылки PFC и ECMP. Таким образом, рама подходит только для мелкомасштабного развертывания.

Большое энергопотребление устройства. Количество чипов линейных карт, чипов Fabric, вентиляторов и т. д. в корпусе велико, а энергопотребление одного устройства велико, легко превышает 20,000 30,000 Вт, а некоторые даже более XNUMX XNUMX Вт, при высоких требованиях к мощности для корпуса. .

Количество портов одного устройства велико, и область отказа велика.

Таким образом, по вышеуказанным причинам блочные устройства подходят только для небольшого развертывания вычислительных кластеров ИИ.

Продукты DDC созданы для поддержки AIGC

DDC — это решение для распределенных развязанных каркасных устройств, в котором используются почти те же чипы и ключевые технологии, что и в традиционных кадровых коммутаторах, но архитектура DDC проста для поддержки гибкого расширения и быстрой итерации функций, проще в развертывании и имеет низкое энергопотребление на машину.

Как показано на рисунке ниже, карта служебной линии становится ролью NCP в качестве внешнего интерфейса, а плата коммутатора становится ролью NCF в качестве внутреннего интерфейса. Первоначальные компоненты соединителя между ними теперь заменены оптоволоконными кабелями, а механизм управления исходного каркасного устройства становится централизованным/распределенным компонентом управления NCC в архитектуре DDC.

Схема подключения продукта DDC

DDC поддерживает сверхкрупномасштабное развертывание

Преимущество архитектуры DDC по сравнению с коробочной архитектурой заключается в том, что она может обеспечить гибкую масштабируемость, а масштаб сети можно гибко выбирать в соответствии с размером кластера ИИ.

В единой сети POD в качестве доступов используется 96 NCP, из которых 36 интерфейсов 200G на нисходящем канале NCP отвечают за подключение NIC вычислительных кластеров ИИ. Всего вверх по течению 40 Интерфейсы 200G может подключить 40 NCF, NCF предоставляет 96 интерфейсов 200G, а пропускная способность восходящего и нисходящего потоков для этой шкалы составляет 1.1:1. Весь POD может поддерживать 3456 сетевых интерфейсов 200G, и, согласно расчетам, один сервер с 8 графическими процессорами может поддерживать 432 вычислительных сервера AI.

Схема сетевой архитектуры с одним POD

В многоуровневой сети POD может быть реализовано построение по запросу на основе POD. Поскольку оборудование NCF в этом сценарии, POD должен пожертвовать половиной SerDes для подключения NCF второго уровня, поэтому в настоящее время один POD использует 48 NCP в качестве доступа с общим количеством 36 интерфейсов 200G в нисходящем канале и может поддержка 1728 интерфейсов 200G в одном POD. За счет увеличения POD по горизонтали для расширения масштаба общий максимум может поддерживать более 10,368 200 сетевых портов XNUMXG.

Восходящий канал NCP 40 200G к 40 NCF в POD, NCF в POD используют 48 нисходящих интерфейсов 200G, а 48 интерфейсов 200G разделены на 16 групп для восходящего канала к NCF на втором уровне. 40 плоскостей используются для NCF на втором уровне, и каждая плоскость рассчитана на 3 блока, что соответствует 40 NCF в POD.

Во всей сети достигается передаточное отношение 1:1:1 в POD и коэффициент конвергенции 1:1 между POD и NCF второго этапа.

Сетевой порт 200G совместим с 100G сетевая карта доступа, а в особых случаях он совместим с сетевым адаптером 25/50G с использованием кабелей 1 из 2 или 1 из 4.

Более сбалансированная нагрузка на основе механизма VOQ+Cell, меньшая скорость потери пакетов

Опираясь на механизм пересылки ячеек после разделения для динамической балансировки нагрузки, он обеспечивает стабильность задержки и уменьшает пиковую разницу пропускной способности разных каналов.

Процесс переадресации показан на рисунке:

Сначала отправитель получает пакеты из сети и сортирует их по VOQ для хранения. Перед отправкой пакетов отправляется кредитное сообщение, чтобы определить, достаточно ли у получателя места в кэше для их обработки.

Если это так, пакеты разбиваются на ячейки и динамически распределяются по промежуточным узлам Fabric. Эти ячейки повторно собираются и сохраняются на принимающей стороне, а затем пересылаются в сеть.

Ячейки — это методы нарезки пакетов, обычно размером 64–256 байт.

Нарезанные ячейки пересылаются в соответствии с запросом назначения ячейки в таблице достижимости и отправляются с использованием механизма опроса. Преимущество этого заключается в том, что нагрузка разделенных ячеек будет полностью использована для каждого восходящего канала, а количество данных, передаваемых по всем восходящим каналам, будет примерно одинаковым по сравнению с режимом ECMP выбора конкретного пути после хэширования по потоку.

Если получатель временно не может обработать сообщение, сообщение будет временно сохранено в VOQ на стороне отправителя и не будет напрямую переслано получателю, что приведет к потере пакетов. Каждый чип DNX может предоставить кэш OCB на чипе и кэш HBM на 8 ГБ вне чипа, что эквивалентно кэшированию около 150 мс данных для порта 200G. Кредитные сообщения отправляются только тогда, когда они явно приемлемы на другом конце. С таким механизмом полное использование кэша может значительно сократить потерю пакетов или даже не генерировать потерю пакетов. При меньшей повторной передаче данных общая задержка связи становится более стабильной и низкой, таким образом можно улучшить использование полосы пропускания и, таким образом, повысить эффективность пропускной способности сервиса.

Отсутствие взаимоблокировок при развертывании PFC с одним переходом

По логике DDC все NCP и NCF можно рассматривать как одно устройство. Следовательно, после развертывания домена RDMA в этой сети на интерфейсе, нацеленном на сервер, остается только 1 уровень PFC, что не будет генерировать многоуровневое подавление PFC и взаимоблокировку, как в традиционных сетях. Кроме того, в соответствии с механизмом пересылки данных DDC, ECN может быть развернут на интерфейсе, и если внутренний механизм кредита и кэширования не может поддерживать пакетный трафик, сообщения CNP могут быть отправлены на сторону сервера для запроса снижения скорости (обычно при коммуникационная модель AI, All-to-All и All-Reduce+Cell slicing может максимально сбалансировать трафик, и это сложно иметь (1 порт заполнен, поэтому ECN в большинстве случаев может быть не настроен).

Конструкция без NCC с распределенной ОС для повышения надежности

В плоскости управления и контроля, чтобы устранить влияние сбоя сети управления и единой точки отказа NCC, мы устраняем плоскость централизованного управления NCC и создаем распределенную ОС, настраивая устройства управления через стандартные интерфейсы (Netconf, GRPC, и т. д.) с помощью контроллеров эксплуатации и обслуживания SDN, а каждый NCP и NCF управляется независимо с помощью независимых плоскостей контроля и управления.

Результаты сравнения тестов

С теоретической точки зрения DDC имеет много преимуществ, таких как поддержка гибкого расширения и быстрого повторения функций, более простое развертывание и низкое энергопотребление отдельной машины; однако с практической точки зрения традиционная сеть также имеет такие преимущества, как большее количество брендов и линеек продуктов, доступных на рынке, и может поддерживать кластеры большего масштаба и другие преимущества, предоставляемые зрелой технологией. Поэтому, когда клиенты сталкиваются с проектными требованиями, они могут обратиться к следующим результатам сравнения и тестирования, чтобы определить, следует ли выбрать более производительный DDC или традиционную сеть для крупномасштабного развертывания:

Результат сравнения традиционной сети и теста DDC

Введение в оборудование FiberMall

Основываясь на глубоком понимании потребностей клиентов, компания FiberMall первой выпустила два поставляемых продукта: коммутатор 200G NCP и коммутатор 200G NCF.

NCP: переключатель FM-S6930-36DC40F1

Этот коммутатор имеет высоту 2U и имеет 36 панельных портов 200G, 40 встроенных портов 200G Fabric, 4 вентилятора и 2 блока питания.

NCF: переключатель FM-X56-96F1

Этот коммутатор высотой 4U оснащен 96 встроенными портами 200G, 8 вентиляторами и 4 блоками питания.

В будущем FiberMall продолжит разработку и выпуск продуктов с форм-фактором порта 400G.

Заключение

FiberMall, как лидер отрасли, стремится предоставлять высококачественное и надежное сетевое оборудование и решения для удовлетворения растущего спроса клиентов на интеллектуальные вычислительные центры. Запуская решение DDC «Smart Speed», FiberMall также активно исследует и разрабатывает решения для оптимизации конечной сети в традиционных сетях. Благодаря полному использованию серверных интеллектуальных сетевых карт и оптимизации протоколов сетевого оборудования можно повысить эффективность использования полосы пропускания всей сети, чтобы помочь клиентам быстрее вступить в эру интеллектуальных вычислений AIGC.