Архитектура продукта центра обработки данных 800G/400G AI

Искусственный интеллект стимулирует рост рынка оптических модулей 400G/800G

30 ноября 2022 года OpenAI, американская исследовательская компания в области искусственного интеллекта (ИИ), выпустила ChatGPT, модель чат-бота, которая привлекла более миллиона пользователей за пять дней и более 100 миллионов пользователей за два месяца, став самой быстрорастущей потребительское применение в истории. 28 апреля 2023 года OpenAI завершила финансирование на сумму 10.3 миллиарда долларов с послеинвестиционной оценкой от 27 до 29 миллиардов долларов, став самым быстрорастущим единорогом в мире.

С развитием технологии искусственного интеллекта большие модели, большие данные и большие вычислительные мощности все чаще становятся основными ограничениями для приложений AIGC. Большие модели и наборы данных являются основой программного обеспечения для разработки AIGC, а вычислительная мощность является наиболее важной инфраструктурой. Искусственный интеллект в основном основан на параллельных вычислениях, а основной процессор — это главным образом графический процессор. Но помимо производительности графического процессора узким местом для суперкомпьютеров также станет фактор связи. Пока на канале существует перегрузка сети, будет происходить задержка передачи данных. Таким образом, к AI-серверу предъявляются очень высокие требования к базовой скорости передачи данных и задержке, а также к необходимости соответствия высокоскоростным оптическим модулям, поэтому у AI-сервера есть большой спрос на оптические модули 800G.

Чтобы устранить узкое место в пропускной способности сети ИИ, необходимо изменить сетевую архитектуру центра обработки данных.

сетевая архитектура центра обработки данных

Поскольку обучение больших моделей искусственного интеллекта постепенно применяется в различных областях, традиционные сети, подходящие для высокопроизводительных вычислений, больше не могут соответствовать требованиям к пропускной способности и задержкам, предъявляемым к обучению кластеров больших моделей. Распределенное обучение больших моделей требует связи между графическими процессорами, что увеличивает трафик с востока на запад в центрах обработки данных AI/ML, а структура трафика отличается от традиционных облачных вычислений. Данные ИИ являются краткосрочными и имеют большой объем, что приводит к задержкам в сети и снижению скорости обучения в традиционной сетевой архитектуре облачных вычислений. В традиционной топологии древовидной сети пропускная способность сходится слой за слоем, а пропускная способность сети в корне дерева намного меньше суммы всех пропускных способностей на каждом листе. Толстое дерево больше похоже на настоящее дерево: чем ближе к корню, тем толще ветви, то есть от листа к корню, пропускная способность сети не сходится, что может повысить эффективность сети и ускорить обучение. Это основа архитектуры толстого дерева для поддержки неблокирующих сетей. Поскольку конвергенция отсутствует, необходимо больше оптических портов для обеспечения согласованности скоростей восходящей и нисходящей линии связи, что увеличивает количество оптических модулей.

Когда чип коммутатора будет обновлен до электрического интерфейса 112G, он откроет соответствующие приложения модуля 400G/800G. Из-за больших различий в топологической архитектуре различных центров обработки данных ИИ предполагается, что спрос на оптические модули, управляемые ИИ, основан на типичной ситуации. Когда приложение типа GPT достигнет 1 миллиарда активных пользователей в месяц, по оценкам, потребуется 69.4 A100. Если предположить, что один A100 соответствует трем требованиям к оптическим модулям, это соответствует примерно 2 миллионам требований к оптическим модулям 800G. В реальных приложениях, от коммутатора до сервера, 800G часто делится на два, а нижний уровень — 400G. Обновление до 800G неизбежно приведет к росту спроса на 400G.

С точки зрения рынка оптических модулей Северной Америки, следующие несколько лет в основном разделены на две части: одна часть — это традиционный спрос на центры обработки данных, а другая часть — новый спрос, связанный с развитием искусственного интеллекта. Ожидается, что новый спрос на ИИ может превысить традиционный спрос на центры обработки данных в период с 2024 по 2025 год.

С точки зрения внутреннего рынка оптических модулей, 200GРазвертывание /400G по-прежнему будет основой и продлится какое-то время. В настоящее время внутренний спрос на 400G и 800G не растет быстрыми темпами. С одной стороны, спрос на традиционные дата-центры относительно невелик, поэтому темпы роста не особенно очевидны; с другой стороны, спрос в сфере телекоммуникаций по-прежнему имеет медленную тенденцию развития, и нет никаких взлетов и падений. Таким образом, рост 400G и 800G в 2024 году будет обусловлен увеличением спроса, вызванным суперкомпьютерами, а CPO и подключаемые модули будут сосуществовать в течение длительного времени.

порт отгрузки

Источник: Делл'оро, 2022.10.

отгрузка

Источник: Lightcounting 2022.5.

Эволюция повышения скорости Интернета в центрах обработки данных

Эволюционные пути разделены, и множество вариантов сосуществуют. Пользователи могут выбирать в соответствии с бизнес-требованиями, сетевой архитектурой и временем развертывания.

эволюция
Скорость Интернета в дата-центре

Типичные области применения продуктов 400G/800G

400G/800G ЦАП/АКК

Случай 1. Подключение коммутатора Quantum-2 Infiniband или коммутатора Quantum-2 IB к DGX-H100.

Подключение коммутатора Quantum-2 IB или коммутатора Quantum-2 IB, подключаемого к DGX-H100

Случай 2: переход Quantum-2 Infiniband на отраслевое приложение

Случай 2: переход Quantum-2 IB на филиальное приложение

Оптический трансивер 400G SR4/800G SR8

Случай 3. Коммутатор Quantum-2 Infiniband с двумя сетевыми адаптерами ConnectX-2 7G

Случай 3: переход Quantum-2 IB на 2 сетевых адаптера ConnectX-7 400G

Модуль оптического приемопередатчика 800G OSFP SR8 предназначен для каналов 400G InfiniBand NDR по многомодовому оптоволокну с использованием длины волны 850 нм. Модуль имеет два порта 4-канальной оптической модуляции 100G-PAM4, каждый из которых использует разъем MTP/MPO-12. В видео ниже вы увидите, как подключить его к другому устройству с помощью оптоволоконных кабелей и как настроить протокол коммутатора на основе InfiniBand или Ethernet. Вы также узнаете о ключевых функциях и преимуществах модуля 800G OSFP SR8, таких как его высокая пропускная способность, низкое энергопотребление и возможность горячего подключения.

Выпуск нового продукта FiberMall 400G/800G

Запущен FiberMall 800G QSFP-DD SR8, оптические приемопередатчики 800G OSFP SR8, 400G QSFP112 SR4 и 400G OSFP-RHS SR4 и кабели AOC. Линейка продуктов включает высокопроизводительные лазеры VCSEL со скоростью 112 Гбит/с и цифровые процессоры обработки сигналов 7 нм с электрическим хост-интерфейсом сигналов PAM112 со скоростью 4 Гбит/с на канал и поддержкой CMIS 4.0.

Глазковая диаграмма и показатели чувствительности

TDECQ менее 3 дБ на канал; Чувствительность OMA RXsen соответствует -5.2 дБм при 2.4E-4 Pre-FEC 53.125 ГБд.

Глазковая диаграмма и показатели чувствительности

Расстояние передачи

400G OSFP SR4 поддерживает 30 метров (OM3 MMF) и 50 метров (OM4 MMF).

800G OSFP SR8 поддерживает 60 метров (OM3 MMF) и 100 метров (OM4 MMF).

Тип упаковки

Оптические модули 400G/800G поддерживают как QSFP-DD, так и OSFP.

Расчет энергопотребления

Потребляемая мощность оптического модуля 800G/AOC составляет менее 14 Вт при трехтемпературном испытании, а потребляемая мощность оптического модуля 400G/AOC составляет менее 8 Вт.

Полный портфель продуктов этой серии выглядит следующим образом:

Линия многомодовых продуктов 800G (8×112G)

  • 800G ОСФП СР8 (Двойной MPO12/APC или MPO16/APC)
  • 800G QSFP-DD AOC
  • 800G КСФП-ДД СР8 (МПО16/АПК)

Линии многомодовых продуктов 400G (4×112G)

Первый активный медный кабель FiberMall 800G, 800G OSFP ACC, обеспечивающий питание высокоскоростных центров обработки данных и приложений для высоких вычислений на базе искусственного интеллекта.

FiberMall's ЦАП/АКК 800G OSFP соответствует спецификациям OSFP MSA и IEEE802.3ck и использует 16 пар медных кабелей для поддержки 8-канальной двунаправленной передачи со скоростью 112 ГБ/с и достижения обратной совместимости по скорости. По сравнению с максимальной поддержкой ЦАП 800G OSFP 2 м, расстояние передачи ACC составляет от 4 до 5 м и может удовлетворить общие потребности в межблочных кабелях на короткие расстояния, характеристики продукта следующие:

800G OSFP АСС

Отличная производительность SI и хорошая стабильность на частоте 44 ГГц.

Отличная производительность SI и хорошая стабильность на частоте 44 ГГц.
  • На сетевом тестере 800G и включении KP4-FEC тест соответствует требованиям IEEE к автосогласованию и обучению каналов, BER после FEC <1E-15, запас FEC лучше 27 %, а коэффициент потери кадров FEC равен 0 для весь процесс.
  • В продукте используется решение Re-Driver с типичным энергопотреблением около 2.5 Вт и задержкой менее 20 нс. Эквализация и баланс отношения сигнал/шум имеют решающее значение и намного лучше, чем решение Re-Timer с точки зрения энергопотребления и задержки.
  • Благодаря инновационному производственному процессу надежность высокая: 800G OSFP ACC 26AWG 4 м весит всего около 600 г.

FiberMall выпустила различные модули 400G/800G DAC/ACC/AOC/оптических приемопередатчиков, не стесняйтесь спрашивать!

Оставьте комментарий

Наверх