Обновления рабочих групп консорциума UItra Ethernet

Направления исследований консорциума UItra Ethernet

Консорциум UItra Ethernet стремится улучшить технологию Ethernet на физическом уровне, канальном уровне, транспортном уровне и программном уровне. Учитывая совместимость с текущей экосистемой Ethernet, он улучшает производительность пересылки Ethernet и стремится улучшить протоколы связи Ethernet и интерфейс прикладных программ. Он также улучшает возможности хранения, управления, структуры безопасности и телеметрии, так что технология UItra Ethernet может удовлетворить сетевые потребности искусственного интеллекта и высокопроизводительных вычислений.

Консорциум Ultra Ethernet определил тип сети, на котором необходимо сосредоточить внимание, как сеть типа 2 (внутренняя сеть) и не возражает против его использования в сети типа 1 (внешняя сеть), но это не снизит производительность сети типа 2, поскольку ему необходимо адаптироваться к Type1.

Сети типа 1 и типа 2

ОДК определяет показатели производительности для каждого типа сети

Рабочие группы ОДК

Первоначально ОДК создала четыре рабочие группы, а именно рабочие группы по физическому уровню, канальному уровню, транспортному уровню и программному уровню, которые добились выдающихся результатов. Недавно были созданы рабочие группы по хранению, управлению, совместимости и тестированию, производительности и отладке, которые только начали работу. На рисунке ниже показаны рабочие группы ОДК:

Четыре рабочие группы ОДК

Рабочая группа по физическому уровню

Рабочая группа по физическому уровню стремится улучшить физическую производительность, уменьшить задержки и улучшить управление физической инфраструктурой Ethernet. Он включает в себя разработку спецификаций физического уровня Ethernet, электрических и оптических характеристик сигналов, прикладных интерфейсов и структур данных. Его цель — укрепить фундамент и гарантировать, что Ethernet сможет соответствовать строгим требованиям AI и HPC. Текущая рабочая группа по физическому уровню занимается разработкой спецификаций PHY для 100G/Lane и 200G/Lane и определила тип среды 100G/Lane, а также поддерживаемую скорость и тип PHY. Спецификации для 200G/Lane будут определены после утверждения IEEE P802.3djis.

Рабочая группа по физическому уровню представила несколько новых концепций прогнозирования качества канала: UCR (соотношение неисправимых кодовых слов), MTBPE (среднее время между ошибками PHY) и MTTFPA (среднее время до принятия ложных пакетов), предназначенных для прогнозирования и измерения физических качество связи слоя более точно.

Рабочая группа канального уровня стремится повысить надежность и эффективность передачи данных на канальном уровне, а также улучшить возможности телеметрии канального уровня.

Основными направлениями исследований канального уровня являются:

Надежность канального уровня:

Добавьте подуровень LLR к канальному уровню, расположенный между подуровнями LLC и MAC CONTROL, для сквозной повторной передачи пакетов ошибок на канальном уровне.

Управление потоком на основе кредитов:

Поддерживает механизм сквозного управления потоком на основе кредитов на канальном уровне для управления передачей кадров между каналами без потерь. Механизм CBFC (Credit-Based Flow Control) используется для замены управления потоками PFC. Получатель периодически отправляет буферное пространство партнеру, а отправитель отправляет сообщения в зависимости от приоритета сообщения и размера буфера. Буферное пространство также можно использовать для выбора адаптивной маршрутизации.

Управление потоками на основе кредитов

Управление потоками на основе кредитов

Улучшение скорости передачи пакетов:

Он предназначен для сжатия заголовков сообщений Ethernet для повышения эффективности передачи кадров. В ходе долгосрочного развития Ethernet заголовки сообщений продолжали расширяться, что приводило к относительно низкой эффективности передачи. Многие поля не используются в интеллектуальных вычислительных сетях. Поэтому крайне важно сжимать заголовки сообщений и повышать эффективность передачи кадров.

В заголовке сообщения должен быть флаг, указывающий, является ли сообщение сжатым или несжатым, чтобы сжатое и несжатое сообщение могли сосуществовать в сети. Отправитель может выбрать, следует ли сжимать сообщение, не затрагивая исходную функцию.

В настоящее время существует множество решений для сжатия заголовков сообщений, которые находятся в стадии обсуждения.

Переговоры:

Он устанавливает метод согласования параметров и характеристик канального уровня. Некоторые новые возможности канального уровня, такие как LLR, CBFC и PRI, требуют согласования для их поддержки. Основная идея состоит в том, чтобы расширить LLDP и добавить UEC OUI для согласования новых возможностей канального уровня между устройствами.

Рабочая группа транспортного уровня

Рабочая группа UET (транспортный уровень UEC) занимается расширением самых сложных приложений, надежной передачей сообщений, безопасной передачей данных и предотвращением перегрузок в сети. Его цель — устранить недостатки передачи RoCE и обеспечить эффективную, надежную и безопасную крупномасштабную передачу. Целевая конечная точка транспорта достигает 256,000 100,000,000, а количество поддерживаемых процессов достигает XNUMX XNUMX XNUMX.

Основные модули УЭТ показаны на рисунке ниже:

Основные модули УЭТ

UET содержит три модуля: доставка пакетов, безопасность и семантика. Функции каждого модуля следующие:

  • Подуровень доставки пакетов (PDS):

PDS содержит два модуля: надежность и управление перегрузками.

Модуль надежности должен отвечать трем ключевым требованиям:

  1. Чрезвычайная масштабируемость
  2. Упорядоченная передача сообщений
  3. Неупорядоченная передача сообщений

Модуль надежности спроектирован с четырьмя режимами передачи сообщений, и каждый режим используется для определенной цели для удовлетворения сценариев HPC, AI, ML и других приложений. Четыре режима передачи сообщений:

Надежная, заказная доставка (РОД):

Этот режим передает сообщения по порядку и используется для приложений, требующих упорядоченной передачи сообщений.

Надежная, незаказная поставка на операции (РУД):

Этот режим может передавать сообщения на семантический уровень только один раз, но допускает неупорядоченную доставку в сети. Надежный транспортный уровень должен обнаруживать повторяющиеся сообщения, чтобы гарантировать, что каждое сообщение может быть передано на семантический уровень только один раз.

Надежная неупорядоченная доставка для идемпотентных операций (RUDI):

Этот режим оптимизирован для операций чтения и записи RDMA.

Ненадежная, незаказная доставка (НУД):

Ненадежные сообщения могут нести в себе много новой семантики UET. Пользователям UDD не нужна надежная передача, и они используют другие методы обеспечения надежности.

Модуль управления перегрузкой все еще находится в стадии изучения, включая управление перегрузкой и балансировку нагрузки, и может выполнять управление перегрузкой на основе каждого FEP. Основой является управление потоком на основе кредита получателя. Контроль перегрузки определяет размер окна и скорость впрыска. Цель состоит в том, чтобы снизить скорость и ограничить количество сообщений, чтобы избежать перегрузки на промежуточных узлах и конечных точках. Балансировка нагрузки по пути определяет, какой путь выбирает конкретное сообщение, и для выбора пути можно использовать ECMP.

  • Транспортная безопасность:

Транспортная безопасность является главным приоритетом при разработке UET, с дополнительным шифрованием и аутентификацией всех полезных данных и большинства заголовков передачи.

  • Семантика:

Семантический уровень UET обеспечивает высокопроизводительные и масштабируемые операции, обеспечивая возможность специализированного искусственного интеллекта и полнофункционального развертывания высокопроизводительных вычислений.

Семантический уровень — это мост между пользовательским программным обеспечением и PDS (уровень доставки сообщений). Семантический слой определяет ряд
операции, такие как отправка, получение, запись, чтение и т. д. Уровень обеспечивает дополнительную сортировку, включая различные дополнительные инициаторы и возможности уведомления о завершении цели.

Семантический уровень предоставляет API вызовов без установления соединения и должен изначально поддерживать *CCL, MPI, OpenSHMEM и другие API.

Рабочая группа по программному уровню

Уровень программного обеспечения способствует быстрому внедрению UEC за счет использования API libfabric в качестве структуры плоскости данных благодаря совместимости с различными широко распространенными в настоящее время коммуникационными библиотеками, такими как *CCL, MPI и SHMEM. Он определяет взаимодействие между различными ускорителями и FEP, включая связанные API-интерфейсы ускорителей. Он определяет механизмы плоскости управления и плоскости данных для коммутаторов, FEP и менеджеров агрегации (AM), чтобы обеспечить взаимодействие между различными поставщиками UEC. Он учитывает необходимость поддержки UEC нескольких профилей рабочей нагрузки.

Рабочая группа по уровню программного обеспечения

Работа, которую должен выполнить уровень программного обеспечения для INC, включает в себя:

  • Определите APl (используя язык C), используя систему обмена данными INC (libfabric).
  • Определите механизм обнаружения для подтверждения доступного INC offвозможности нагрузки.
  • Определите интерфейс RPC, который эти библиотеки используют для связи с диспетчером агрегирования (AM). Укажите интерфейс RPC, используемый для связи между AM и коммутатором UEC, предоставляющим ресурсы INC.
  • Расширение OpenConfig для настройки FEP сетевых устройств (настраиваемых АМ) для коллективной связи. offзагрузка и мониторинг производительности и ошибок.
  • Поведение INC-совместимых сетевых устройств с несколькими профилями функций. Руководствуйтесь разработкой протоколов передачи UEC, чтобы технологию INC можно было легко применить к аппаратной реализации.

Оставьте комментарий

Наверх