Broadcom против NVIDIA: гонка коммутаторов 400G/800G

На Computex NVIDIA пообещала предоставить «Ethernet без потерь» для рабочих нагрузок ИИ с помощью своей платформы Spectrum-X. Однако, если вы спросите Broadcom, это даже не новая идея. Рэм Велага, старший вице-президент Core Switching Group в Broadcom, прокомментировал, что «в их устройстве нет ничего уникального». Он объяснил, что NVIDIA, по сути, строит вертикально интегрированную платформу Ethernet, которая превосходно справляется с перегрузками таким образом, что минимизирует хвостовую задержку (высокие процентили времени отклика) и сокращает время выполнения задач ИИ. Велага считает, что это ничем не отличается от того, что сделала Broadcom со своими ASIC для коммутаторов Tomahawk5 и Jericho3-AI. Он также рассматривает запуск этого коммутатора как признание NVIDIA важности Ethernet для обработки потоков GPU в ИИ.
Платформа Спектр-Х
Что касается NVIDIA, то компания не отказалась от сети InfiniBand. Фактически, они вложили значительную сумму денег (17 миллиардов долларов США) в приобретение Mellanox. InfiniBand отлично подходит для пользователей, выполняющих небольшое количество очень больших рабочих нагрузок, таких как GPT-3 или цифровые двойники. Однако Гилад Шейнер, вице-президент по маркетингу сетевого подразделения NVIDIA, объяснил, что в определенных средах, особенно в мультиарендных облаках, предпочтение отдается Ethernet. Шейнер заявил, что традиционная инфраструктура Ethernet хорошо работает для небольших рабочих нагрузок AI/ML, но теперь рост этих рабочих нагрузок превышает возможности одного узла, что приводит к снижению скорости. Платформа NVIDIA Spectrum-X претендует на решение этой проблемы.
Следует отметить, что NVIDIA Spectrum-X не является самостоятельным продуктом. Это сочетание аппаратного и программного обеспечения с основными компонентами, включая Ethernet-коммутатор NVIDIA Spectrum-51.2 4 Тбит/с и блок обработки данных BlueField-3 (DPU). Основная идея заключается в том, что при совместном использовании коммутатора NVIDIA и DPU они совместно уменьшают перегрузку трафика и, если верить NVIDIA, полностью исключают потерю пакетов.
Хотя Шайнер утверждает, что это новый функциональный блок NVIDIA, Велага считает, что идея «Ethernet без потерь» — всего лишь маркетинг. «Вместо того, чтобы называть это без потерь, правильнее сказать, что вы эффективно управляете перегрузкой до такой степени, что у вас есть высокоэффективная структура Ethernet», — прокомментировал он.
Кроме того, Velaga утверждает, что это управление перегрузкой было встроено в последнее поколение ASIC коммутаторов Broadcom, и только они могут использоваться с smartNIC или DPU от любого поставщика или поставщика облачных услуг. «Вам не обязательно делать это на сетевой карте; вы можете перейти от одного листа Jericho3-AI к другому листу Jericho3-AI», — добавил он.
Когда его спросили о Tomahawk5 и Jericho3-AI от Broadcom, Шейнер отказался сравнивать их, заявив, что Spectrum-X принадлежит к отдельной категории, и подразумевая, что некоторые поставщики просто добавляют «ИИ» к существующим продуктам. «Независимо от того, как вы это называете, нет ничего, что имело бы функции, специально разработанные для ИИ», — сказал он.
Broadcom против NVIDIA
вид на переключатель перед переключателем
По словам Велаги, NVIDIA пытается осуществить вертикальную интеграцию для решения проблемы перегрузки Ethernet. «Причина успеха Ethernet сегодня заключается в том, что это очень открытая экосистема, — сказал он. Из-за этого NVIDIA Spectrum-X может оказаться сложной задачей для поставщиков облачных услуг, которые предпочитают избегать привязки к поставщику. Они очень хотят избежать ситуации, которая приведет к широкому распространению сетевых операционных систем, не зависящих от производителя, таких как SONiC. Это позволяет им запускать свои облака на любом совместимом коммутаторе.
Что касается стоимости, NVIDIA Spectrum-4 действительно поддерживает SONiC, а также собственные драйверы Cumulus NOS и Linux Switch. Однако из-за того, что платформа Spectrum-X использует одновременно и Spectrum-4, и BlueField, вы не можете просто заменить один на другой совместимый переключатель SONiC или DPU без потери функциональности.
Говоря о DPU, многие крупные поставщики облачных услуг уже имеют SmartNIC, адаптированные к их средам. У Amazon Web Services есть Nitro, совместно с Google разработанная на основе ASIC SmartNIC с Intel, а Microsoft приобрела Fungible в январе. Эти устройства очень ценны для облачных провайдеров, поскольку они позволяют offзагрузка общих рабочих нагрузок сети, хранилища и безопасности, освобождение ЦП для выполнения рабочих нагрузок арендатора.
Шайнер заявил, что это вполне осуществимо. Он считает, что облачные провайдеры могут использовать свои существующие DPU для управления своей инфраструктурой и контролировать трафик север-юг, используя BlueField-3 от NVIDIA для управления трафиком восток-запад между узлами в кластере.
Он добавил, что ничто не мешает людям использовать коммутаторы или DPU NVIDIA как самостоятельные продукты. «Если кто-то хочет использовать наши коммутаторы и создать собственное решение, мы приветствуем это. Если кто-то хочет использовать наши DPU и использовать чужие коммутаторы, конечно, вперед. Вы можете разработать эти компоненты самостоятельно», — сказал Шайнер.
Однако Велага из Broadcom не знает, как клиенты воспримут эту идею. «Трудно сказать, как ценность вертикально интегрированных Ethernet-решений будет продаваться в мире, где все разрушается», — прокомментировал он.

Оставьте комментарий

Наверх