Что такое РоЦЭ?

RoCE известен как RDMA через конвергентный Ethernet. Поэтому важно признать RDMA как технологию, прежде чем понимать RoCE.

Что такое РДМА?

RDMA, удаленный прямой доступ к памяти, может передавать данные с одного сервера на другой или из хранилища на сервер с минимальной загрузкой процессора. Чтобы отправить данные, традиционные приложения должны пройти через операционную систему, чтобы упаковать TCP/IP, а затем пройти через основной кэш, кэш сетевого адаптера и, наконец, быть отправлены. Это приводит к двум ограничениям.

Ограничение 1: обработка стека TCP/IP приводит к задержке в несколько десятков микросекунд. Когда стек протоколов TCP получает и отправляет сообщения, ядру необходимо выполнить несколько переключений контекста, каждое из которых занимает 5–10 микросекунд. Плюс от ЦП зависит как минимум три копии данных и работа протокола. Это означает, что сама обработка протокола приведет к фиксированной задержке в несколько десятков микросекунд. Задержка стека протоколов становится наиболее очевидным узким местом.

Ограничение 2. Обработка с помощью стека протоколов TCP приводит к высокой нагрузке на процессор сервера. Помимо проблемы более длительной фиксированной задержки, сеть TCP/IP требует, чтобы центральный процессор несколько раз участвовал в копировании протокола в памяти. Чем больше размер сети и чем выше пропускная способность сети, тем больше нагрузка на планирование ЦП при отправке и получении данных, что приводит к постоянно высокой нагрузке ЦП.

В центрах обработки данных, если традиционный TCP/IP используется для сетевого соединения сверхкрупномасштабных распределенных вычислительных ресурсов хранения данных, он потребляет много вычислительных ресурсов системы, что приводит к узким местам ввода-вывода и неспособности удовлетворить сетевые требования к более высоким пропускная способность и меньшая задержка.

из традиционного режима в режим rdma

RDMA — это технология межсетевого взаимодействия, которая offобеспечивает высокую пропускную способность, низкую задержку и низкое потребление ресурсов ЦП. Эта технология преодолевает многие препятствия, обычно связанные с традиционными сетями TCP/IP.

Удаленный: относится к передаче данных между двумя узлами в сети.

непосредственный: Никакого участия ядра не требуется. Вся обработка передачи offзагружено в оборудование NIC (сетевой интерфейсной карты).

Память: данные передаются напрямую между виртуальной памятью приложений на обоих узлах, без необходимости дополнительного копирования и кэширования.

О компании: операции доступа включают отправку/получение, чтение/запись и т. д.

По сравнению с TCP/IP, РДМА снижает использование вычислительных ресурсов и увеличивает скорость передачи данных.

Механизм обхода ядра RDMA позволяет осуществлять прямое чтение/запись данных между приложением и сетевой платой, сокращая задержку передачи данных внутри сервера почти до 1 микросекунды. Кроме того, механизм нулевого копирования RDMA позволяет принимающей стороне напрямую считывать данные из памяти отправителя, что значительно снижает нагрузку на ЦП и улучшает загрузку ЦП.

Преимущества использования RDMA включают в себя:

  • Нулевое копирование: приложения RDMA могут обходить сетевой стек ядра и напрямую передавать данные, устраняя необходимость копировать данные из памяти пользовательского пространства приложения в пространство памяти сетевого стека ядра.
  • Обход ядра: приложения RDMA могут инициировать передачу данных непосредственно из пользовательского режима, избегая необходимости переключения контекста между режимом ядра и пользовательским режимом.
  • ЦП offнагрузка: RDMA может напрямую обращаться к памяти удаленного хоста, не потребляя никаких ресурсов ЦП на удаленном хосте. Затем ЦП удаленного хоста может сосредоточиться на своих прерогативах, избегать нарушения кэша и предотвращать крупномасштабное переполнение данных доступа к памяти.

Что такое РоЦЭ?

Начиная с 2010 года RDMA привлекал все больше и больше внимания, когда IBTA выпустила первую спецификацию для запуска RDMA через Converged Ethernet (RoCE). Однако первоначальная спецификация ограничивала развертывание RoCE одним доменом уровня 2, поскольку инкапсулированные кадры RoCE не имели возможностей маршрутизации. В 2014 году IBTA выпустила RoCEv2, который обновил первоначальную спецификацию RoCE для поддержки маршрутизации между сетями уровня 3, что сделало ее более подходящей для крупномасштабных сетей центров обработки данных и корпоративных центров обработки данных.

РОСЕ

Протоколы RDMA включают Infiniband (IB), протокол RDMA глобальной сети Интернет (iWARP) и RDMA через конвергентный Ethernet (RoCE):

  • InfiniBand: Разработанный с учетом RDMA, он перепроектировал уровень физического канала, сетевой уровень и транспортный уровень, чтобы обеспечить надежную передачу на аппаратном уровне, а также обеспечить более высокую пропускную способность и меньшую задержку. Но это дорого и требует сетевых карт и коммутаторов IB.
  • iWARP: Сеть RDMA на основе TCP, использующая TCP для обеспечения надежной передачи. По сравнению с RoCE, в случае крупномасштабной сети большое количество TCP-соединений iWARP будет потреблять много ресурсов памяти и требовать более высоких системных характеристик. Он может использовать обычные коммутаторы Ethernet, но для этого требуются сетевые карты, поддерживающие iWARP.
  • РОСЕ: RDMA основан на Ethernet, версия RoCEv1 основана на уровне сетевых каналов, не может пересекать сегменты сети и практически не имеет применения. RoCEv2 основан на UDP, может пересекать сегменты сети, имеет хорошую масштабируемость и может обеспечить хорошую пропускную способность и задержку, поэтому это решение, принятое в больших масштабах. RoCE потребляет меньше ресурсов, чем iWARP, и поддерживает больше функций, чем iWARP. Он может использовать обычные коммутаторы Ethernet, но требует сетевых карт, поддерживающих RoCE.
приложение рдма

Почему RoCE является основным протоколом RDMA?

Во-первых, давайте поговорим об iWARP. Стек протоколов iWARP более сложен, чем два других, и из-за ограничений TCP он может поддерживать только надежную передачу. Поэтому разработка iWARP не так хороша, как RoCE и Infiniband.

Сам протокол Infiniband определяет новый набор иерархической архитектуры, от канального уровня до транспортного уровня, который несовместим с существующими устройствами Ethernet. Например, если центр обработки данных хочет перейти с Ethernet на Infiniband технологии из-за узких мест в производительности, ей приходится приобретать полный набор устройств Infiniband, включая сетевые карты, кабели, коммутаторы, маршрутизаторы и т. д., что слишком дорого.

Здесь преимущество протокола RoCE совершенно очевидно. Пользователям нужно только купить сетевые карты, поддерживающие RoCE, для переключения с Ethernet на RoCE, и другие сетевые устройства совместимы. Таким образом, главным преимуществом RoCE перед Infiniband является более низкая стоимость.

Преимущество протокола RoCE

RoCEv1

В апреле 2010 года IBTA выпустила RoCE, который был опубликован как дополнение к спецификации архитектуры Infiniband, поэтому его также называют IBoE (InfiniBand over Ethernet). В то время стандарт RoCE использовал сетевой уровень IB вместо сетевого уровня TCP/IP поверх канального уровня Ethernet, поэтому он не поддерживал функцию IP-маршрутизации. Протокол RoCE V1 имеет идентификатор типа 0x8915 на уровне Ethernet.

В RoCE заголовок протокола канального уровня Infiniband удаляется, а GUID, используемый для указания адреса, преобразуется в MAC-адрес Ethernet. Infiniband полагается на физическую передачу без потерь, а RoCE также полагается на передачу Ethernet без потерь, что приводит к увеличению затрат и затрат на управление при развертывании Ethernet.

Передача Ethernet без потерь должна опираться на поддержку QoS L2, например PFC (Priority Flow Control). Когда пул буферов превышает пороговое значение, получатель отправляет отправителю кадр паузы. После получения кадра паузы уровень MAC отправителя автоматически снижает скорость передачи. Это требование означает, что все узлы на всем канале передачи, включая конец, коммутатор и маршрутизатор, должны поддерживать качество обслуживания L2, в противном случае PFC на канале не может играть эффективную роль на обоих концах.

RoCEv2

Поскольку кадр данных RoCEv1 не имеет заголовка IP, он может обмениваться данными только внутри подсети L2. Чтобы решить эту проблему, IBTA в 2 году предложила RoCE V2014, который расширил RoCEv1, заменив GRH (глобальный заголовок маршрутизации) заголовком UDP + заголовком IP. Структура расширенного кадра показана на следующем рисунке. Для RoCE v1 и RoCE v2 стоит отметить следующие два момента:

  • RoCE v1 (уровень 2) работает на канальном уровне Ehternet (уровень 2), поэтому Ethertype 0x8915, поэтому нормальный размер кадра составляет 1500 байт, а Jumbo Frame — 9000 байт.
  • RoCE v2 (уровень 3) работает по протоколам UDP/IPv4 или UDP/IPv6 (уровень 3) и использует для передачи порт UDP 4791. Поскольку пакет RoCE v2 может маршрутизироваться на уровне 3, его иногда называют маршрутизируемым RoCE или просто RRoCE.
RoCE v1 (уровень 2) работает на уровне канала Ehternet (уровень 2).

Поскольку RDMA требует сети без потерь пакетов, чтобы избежать резкого снижения производительности, технология RoCE должна преобразовать традиционную сеть Ethernet в сеть Ethernet без потерь с использованием технологий PFC, ECN и DCQCN, чтобы гарантировать нулевую потерю пакетов.

сеть без потерь для Roce

PFC: управление потоком на основе приоритета. PFC обеспечивает управление потоком на основе приоритета каждого перехода для различных типов трафика.

При пересылке пакетов устройство распределяет пакеты по очередям для планирования и пересылки, проверяя приоритет пакетов в таблице сопоставления приоритетов. Когда скорость отправки приоритетных пакетов 802.1p превышает скорость приема и пространство буфера данных в получателе недостаточно, получатель отправляет отправителю кадр паузы PFC. Когда отправитель получает кадр паузы PFC, отправитель прекращает отправку пакетов с указанным приоритетом 802.1p до тех пор, пока отправитель не получит кадр PFC XON или пока не истечет время таймера устаревания. При настройке PFC перегрузка пакетов определенного типа не влияет на нормальную пересылку пакетов других типов.

ECN: явное уведомление о перегрузке. ECN определяет механизм управления трафиком и сквозного уведомления о перегрузках на основе уровня IP и транспортного уровня. Когда устройство перегружено, ECN отмечает поле ECN в IP-заголовке пакета. Получатель отправляет пакет уведомления о перегрузке (CNP), чтобы уведомить отправителя о необходимости снизить скорость отправки. ECN реализует сквозное управление перегрузками, уменьшая распространение и усугубление перегрузок.

PFC ECN

DCQCN (Квантизированное уведомление о перегрузке центра обработки данных): в настоящее время наиболее широко используемый алгоритм контроля перегрузки в сетях RoCEv2. Он объединяет алгоритмы QCN и DTCCP и требует, чтобы коммутаторы центров обработки данных поддерживали WRED и ECN. DCQCN может обеспечить лучшую справедливость, высокий коэффициент использования полосы пропускания, низкий уровень занятости буфера очереди и меньшее дрожание буфера очереди.

В настоящее время многие производители имеют собственные сетевые решения без потерь.

Huawei

Решение интеллектуального алгоритма без потерь iLossless от Huawei — это алгоритм искусственного интеллекта, который использует искусственный интеллект для планирования перегрузки сети и самооптимизации сети. Он основан на автоматическом ECN и внедряет глубокое обучение с подкреплением (DRL) в сверхскоростные коммутаторы центров обработки данных. На основе интеллектуального алгоритма без потерь iLossless компания Huawei выпустила суперконвергентное сетевое решение для центров обработки данных CloudFabric 3.0, которое положило начало интеллектуальной эпохе без потерь в версии 1.0.

В 2022 году гиперконвергентная сеть центров обработки данных Huawei предложила интеллектуальную технологию интеграции веб-вычислений без потерь и инновационную архитектуру топологии прямого соединения, которая может реализовать крупномасштабную вычислительную центральную сеть с 270 тысячами пользователей. Задержка может быть дополнительно уменьшена на 25% на основе технологии Intelligent Lossless 1.0.

Huawei Intelligent Lossless 2.0 основан на внутрисетевых вычислениях и вычислениях с учетом топологии для достижения синергии сети и вычислений. Сеть участвует в сборе и синхронизации вычислительной информации, сокращая количество раз синхронизации вычислительной информации. Одновременно он обеспечивает выполнение вычислительных задач рядом с вычислительными узлами посредством планирования, уменьшения скачков связи и дальнейшего снижения задержки приложений.

H3C

Интеллектуальный алгоритм без потерь AI ECN от H3C, основанный на модели сетевого трафика (значения Incast, максимальная глубина очереди, пропорция больших и малых потоков, а также другие характеристики трафика в модели N-to-1), использует алгоритмы обучения с подкреплением для обучения ИИ с моделью трафика. Искусственный интеллект может определять и прогнозировать тенденции сетевого трафика в режиме реального времени, а также автоматически настраивать наиболее оптимальный порог ECN для точного планирования очереди. При этом он балансирует передачу чувствительных к задержке небольших потоков и более крупных потоков, чувствительных к пропускной способности, чтобы обеспечить оптимальную производительность сети, избегая при этом срабатывания контроля перегрузки сети PFC.

Сетевое решение без потерь AD-DC SeerFabric от H3C основано на архитектуре совместной работы с искусственным интеллектом на границе облака. Благодаря инновациям и оптимизации отраслевого алгоритма настройки AI ECN и объединению возможностей локального AI Inside коммутатора центра обработки данных H3C это решение повышает пропускную способность и снижает задержку, обеспечивая при этом нулевую потерю пакетов. Это обеспечивает точное качество сетевых услуг и пересылку. Более того, благодаря детальным интеллектуальным операциям и обслуживанию он визуализирует опыт обслуживания сетей RoCE.

Inspur

В апреле 2022 года Inspur Networks запустила свое типичное решение Ethernet без потерь, основанное на коммутаторах Ethernet для центров обработки данных, поддерживающих технологию RoCE. Решение offимеет следующие преимущества:

1. Бесшовная интеграция вычислений, хранения, сети и AIStation. Он поддерживает технологии управления перегрузкой, такие как PFC и ECN, что позволяет создавать сквозные сети без потерь и с малой задержкой, несущие RDMA. Превосходное преимущество буфера коммутатора позволяет плавно поглощать пакетный трафик, эффективно справляясь с TCP в сценариях трансляции.

2. Упреждающее обнаружение неисправностей и автоматическое переключение при сбое. Сети RoCE-SAN могут взаимодействовать с операциями хранения данных для быстрого обнаружения неисправностей. Коммутатор может быстро обнаруживать состояния сбоев и уведомлять серверы, подписавшиеся на уведомляющие сообщения в соответствующем бизнес-секторе, позволяя быстро переключаться на резервные пути и снижая влияние на бизнес. Для крупномасштабных сред Ethernet без потерь, в которых возникают проблемы взаимоблокировок PFC, решение предоставляет механизм предотвращения взаимоблокировок PFC на уровне чипа для автоматического обнаружения и восстановления взаимоблокировок.

3. Готовое к использованию хранилище. Сети RoCE-SAN могут автоматически обнаруживать включение серверов устройств и устройств хранения, уведомляя серверы о необходимости автоматического установления соединений с устройствами хранения.

Оставьте комментарий

Наверх