Broadcom frente a NVIDIA: la carrera de conmutadores 400G/800G

En Computex, NVIDIA prometió proporcionar "Ethernet sin pérdidas" para cargas de trabajo de IA con su plataforma Spectrum-X. Sin embargo, si le preguntas a Broadcom, esta ni siquiera es una idea nueva. Ram Velaga, vicepresidente sénior de Core Switching Group en Broadcom, comentó que "no hay nada único en su dispositivo". Explicó que NVIDIA está construyendo esencialmente una plataforma Ethernet integrada verticalmente, que sobresale en la gestión de la congestión de una manera que minimiza la latencia de cola (percentiles altos de tiempo de respuesta) y reduce el tiempo de finalización del trabajo de IA. Velaga cree que esto no es diferente de lo que ha hecho Broadcom con sus conmutadores ASIC Tomahawk5 y Jericho3-AI. También ve el lanzamiento de este conmutador como el reconocimiento de NVIDIA de la importancia de Ethernet en el manejo de flujos de GPU en IA.
Plataforma Spectrum-X
En cuanto a NVIDIA, la empresa no ha abandonado las redes InfiniBand. De hecho, invirtieron una cantidad sustancial de dinero (USD 17 mil millones) para adquirir Mellanox. InfiniBand es muy adecuado para usuarios que ejecutan una pequeña cantidad de cargas de trabajo extremadamente grandes, como GPT-3 o gemelos digitales. Sin embargo, Gilad Shainer, vicepresidente de marketing de la división de redes de NVIDIA, explicó que en ciertos entornos, especialmente en las nubes multiusuario, Ethernet es la opción preferida. Shainer afirmó que la infraestructura Ethernet tradicional funciona bien para cargas de trabajo de IA/ML más pequeñas, pero ahora el crecimiento de estas cargas de trabajo ha superado las capacidades de un solo nodo, lo que da como resultado velocidades lentas. La plataforma Spectrum-X de NVIDIA pretende abordar este desafío.
Cabe señalar que Spectrum-X de NVIDIA no es un producto independiente. Es una combinación de hardware y software, con componentes centrales que incluyen el conmutador Ethernet Spectrum-51.2 de 4 Tbit/s de NVIDIA y la unidad de procesamiento de datos (DPU) BlueField-3. La idea básica es que cuando se usan juntos el conmutador y la DPU de NVIDIA, colaboran para aliviar la congestión del tráfico y, si se cree en NVIDIA, eliminar por completo la pérdida de paquetes.
Aunque Shainer afirma que se trata de una nueva unidad funcional de NVIDIA, Velaga cree que la idea de “Ethernet sin pérdidas” es meramente de marketing. “En lugar de decir que no tiene pérdidas, es más exacto decir que administra la congestión de manera efectiva hasta el punto en que tiene una estructura Ethernet altamente eficiente”, comentó.
Además, Velaga afirma que esta gestión de congestión se ha integrado en la última generación de conmutadores ASIC de Broadcom, y solo se pueden usar con smartNIC o DPU de cualquier proveedor o proveedor de servicios en la nube. “No tiene que hacerlo en la NIC; puedes pasar de una hoja Jericho3-AI a otra hoja Jericho3-AI”, agregó.
Cuando se le preguntó acerca de Tomahawk5 y Jericho3-AI de Broadcom, Shainer se negó a compararlos, argumentando que Spectrum-X pertenece a su propia categoría e insinuando que algunos proveedores simplemente están agregando "IA" a los productos existentes. “No importa cómo lo llames, no hay nada que tenga características diseñadas específicamente para la IA”, dijo.
Broadcom frente a NVIDIA
vista del interruptor frente del interruptor
Según Velaga, NVIDIA está intentando la integración vertical para abordar la congestión de Ethernet. “La razón por la que Ethernet ha tenido éxito hoy es que es un ecosistema muy abierto”, dijo. Debido a esto, Spectrum-X de NVIDIA puede resultar difícil de vender a proveedores de la nube que prefieren evitar el bloqueo de proveedores. Quieren evitar una situación que conduzca a la adopción generalizada de sistemas operativos de red independientes del proveedor como SONiC. Esto les permite ejecutar sus nubes en cualquier conmutador compatible.
En términos de valor, Spectrum-4 de NVIDIA es compatible con SONiC, así como con sus propios controladores Cumulus NOS y Linux Switch. Sin embargo, debido a que la plataforma Spectrum-X depende de tener Spectrum-4 y BlueField simultáneamente, no puede simplemente cambiar uno por otro conmutador SONiC o DPU compatible sin perder la funcionalidad.
Hablando de DPU, muchos de los principales proveedores de servicios en la nube ya tienen SmartNIC adaptadas a sus entornos. Amazon Web Services tiene Nitro, Google co-desarrolló un ASIC basado NIC inteligente con Intel, y Microsoft adquirió Fungible en enero. Estos dispositivos son muy valiosos para los proveedores de la nube, ya que permiten offcargar cargas de trabajo comunes de redes, almacenamiento y seguridad, liberando CPU para ejecutar cargas de trabajo de inquilinos.
Shainer afirmó que es completamente factible. Él cree que los proveedores de la nube pueden utilizar sus DPU existentes para administrar su infraestructura y controlar el tráfico de norte a sur mientras usan BlueField-3 de NVIDIA para administrar el tráfico de este a oeste entre los nodos del clúster.
Agregó que no hay nada que impida que las personas implementen conmutadores o DPU de NVIDIA como productos independientes. “Si alguien quiere usar nuestros conmutadores y crear su propia solución, le damos la bienvenida. Si alguien quiere usar nuestras DPU y usar los interruptores de otra persona, por supuesto, adelante. Puede desarrollar estos componentes por su cuenta”, dijo Shainer.
Sin embargo, Velaga de Broadcom no está seguro de cómo los clientes adoptarían esta idea. “Es difícil decir cómo se comercializaría el valor de las soluciones Ethernet integradas verticalmente en un mundo donde todo se descompone”, comentó.

Deja un comentario

Ir al Inicio