En Computex, NVIDIA prometió proporcionar "Ethernet sin pérdidas" para cargas de trabajo de IA con su plataforma Spectrum-X. Sin embargo, si le preguntas a Broadcom, esta ni siquiera es una idea nueva. Ram Velaga, vicepresidente sénior de Core Switching Group en Broadcom, comentó que "no hay nada único en su dispositivo". Explicó que NVIDIA está construyendo esencialmente una plataforma Ethernet integrada verticalmente, que sobresale en la gestión de la congestión de una manera que minimiza la latencia de cola (percentiles altos de tiempo de respuesta) y reduce el tiempo de finalización del trabajo de IA. Velaga cree que esto no es diferente de lo que ha hecho Broadcom con sus conmutadores ASIC Tomahawk5 y Jericho3-AI. También ve el lanzamiento de este conmutador como el reconocimiento de NVIDIA de la importancia de Ethernet en el manejo de flujos de GPU en IA.
En cuanto a NVIDIA, la empresa no ha abandonado las redes InfiniBand. De hecho, invirtieron una cantidad sustancial de dinero (USD 17 mil millones) para adquirir Mellanox. InfiniBand es muy adecuado para usuarios que ejecutan una pequeña cantidad de cargas de trabajo extremadamente grandes, como GPT-3 o gemelos digitales. Sin embargo, Gilad Shainer, vicepresidente de marketing de la división de redes de NVIDIA, explicó que en ciertos entornos, especialmente en las nubes multiusuario, Ethernet es la opción preferida. Shainer afirmó que la infraestructura Ethernet tradicional funciona bien para cargas de trabajo de IA/ML más pequeñas, pero ahora el crecimiento de estas cargas de trabajo ha superado las capacidades de un solo nodo, lo que da como resultado velocidades lentas. La plataforma Spectrum-X de NVIDIA pretende abordar este desafío.
Cabe señalar que Spectrum-X de NVIDIA no es un producto independiente. Es una combinación de hardware y software, con componentes centrales que incluyen el conmutador Ethernet Spectrum-51.2 de 4 Tbit/s de NVIDIA y la unidad de procesamiento de datos (DPU) BlueField-3. La idea básica es que cuando se usan juntos el conmutador y la DPU de NVIDIA, colaboran para aliviar la congestión del tráfico y, si se cree en NVIDIA, eliminar por completo la pérdida de paquetes.
Aunque Shainer afirma que se trata de una nueva unidad funcional de NVIDIA, Velaga cree que la idea de “Ethernet sin pérdidas” es meramente de marketing. “En lugar de decir que no tiene pérdidas, es más exacto decir que administra la congestión de manera efectiva hasta el punto en que tiene una estructura Ethernet altamente eficiente”, comentó.
Además, Velaga afirma que esta gestión de congestión se ha integrado en la última generación de conmutadores ASIC de Broadcom, y solo se pueden usar con smartNIC o DPU de cualquier proveedor o proveedor de servicios en la nube. “No tiene que hacerlo en la NIC; puedes pasar de una hoja Jericho3-AI a otra hoja Jericho3-AI”, agregó.
Cuando se le preguntó acerca de Tomahawk5 y Jericho3-AI de Broadcom, Shainer se negó a compararlos, argumentando que Spectrum-X pertenece a su propia categoría e insinuando que algunos proveedores simplemente están agregando "IA" a los productos existentes. “No importa cómo lo llames, no hay nada que tenga características diseñadas específicamente para la IA”, dijo.
Según Velaga, NVIDIA está intentando la integración vertical para abordar la congestión de Ethernet. “La razón por la que Ethernet ha tenido éxito hoy es que es un ecosistema muy abierto”, dijo. Debido a esto, Spectrum-X de NVIDIA puede resultar difícil de vender a proveedores de la nube que prefieren evitar el bloqueo de proveedores. Quieren evitar una situación que conduzca a la adopción generalizada de sistemas operativos de red independientes del proveedor como SONiC. Esto les permite ejecutar sus nubes en cualquier conmutador compatible.
En términos de valor, Spectrum-4 de NVIDIA es compatible con SONiC, así como con sus propios controladores Cumulus NOS y Linux Switch. Sin embargo, debido a que la plataforma Spectrum-X depende de tener Spectrum-4 y BlueField simultáneamente, no puede simplemente cambiar uno por otro conmutador SONiC o DPU compatible sin perder la funcionalidad.
Hablando de DPU, muchos de los principales proveedores de servicios en la nube ya tienen SmartNIC adaptadas a sus entornos. Amazon Web Services tiene Nitro, Google co-desarrolló un ASIC basado NIC inteligente con Intel, y Microsoft adquirió Fungible en enero. Estos dispositivos son muy valiosos para los proveedores de la nube, ya que permiten offcargar cargas de trabajo comunes de redes, almacenamiento y seguridad, liberando CPU para ejecutar cargas de trabajo de inquilinos.
Shainer afirmó que es completamente factible. Él cree que los proveedores de la nube pueden utilizar sus DPU existentes para administrar su infraestructura y controlar el tráfico de norte a sur mientras usan BlueField-3 de NVIDIA para administrar el tráfico de este a oeste entre los nodos del clúster.
Agregó que no hay nada que impida que las personas implementen conmutadores o DPU de NVIDIA como productos independientes. “Si alguien quiere usar nuestros conmutadores y crear su propia solución, le damos la bienvenida. Si alguien quiere usar nuestras DPU y usar los interruptores de otra persona, por supuesto, adelante. Puede desarrollar estos componentes por su cuenta”, dijo Shainer.
Sin embargo, Velaga de Broadcom no está seguro de cómo los clientes adoptarían esta idea. “Es difícil decir cómo se comercializaría el valor de las soluciones Ethernet integradas verticalmente en un mundo donde todo se descompone”, comentó.
Productos relacionados:
- OSFP-400G-FR4 400G FR4 OSFP PAM4 CWDM4 2km LC SMF FEC Módulo transceptor óptico $900.00
- Módulo transceptor óptico OSFP-400G-DR4+ 400G OSFP DR4+ 1310nm MPO-12 2km SMF $879.00
- Módulo transceptor óptico OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10km SMF $1199.00
- OSFP-400G-SR4-FLT 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $900.00
- Módulo transceptor óptico QSFP-DD-400G-LR4 400G QSFP-DD LR4 PAM4 CWDM4 10km LC SMF FEC $1000.00
- QSFP-DD-400G-SR4.2 400 Gb/s QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 Módulo transceptor óptico FEC $1000.00
- QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310nm 500m MTP/MPO-12 con módulo transceptor óptico KP4 FEC $1350.00
- QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2km Módulo transceptor óptico dúplex LC SMF FEC $1760.00
- Módulo transceptor óptico QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC $990.00
- QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMF FEC Módulo transceptor óptico $550.00
- Módulo transceptor óptico QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3 FEC $300.00
- Módulo transceptor óptico QSFP-DD-800G-DR8 800G-DR8 QSFP-DD PAM4 1310nm 500m DOM MTP/MPO-16 SMF $4500.00
- OSFP-800G-SR8 OSFP 8x100G SR8 PAM4 850nm MTP/MPO-16 100m OM4 MMF Módulo transceptor óptico FEC $1600.00
- QSFP-DD-800G-DR8D QSFP-DD 8x100G DR PAM4 1310nm 500m DOM Dual MPO-12 SMF Módulo transceptor óptico $4500.00
- Tarjeta de interfaz de red NVIDIA MCX623106AN-CDAT SmartNIC ConnectX®-6 Dx EN, puerto doble QSFP100 de 56 GbE, PCIe4.0 x 16, soporte alto y corto $1200.00
- Tarjeta de interfaz de red NVIDIA Mellanox MCX516A-CCAT SmartNIC ConnectX®-5 EN, 100 GbE de doble puerto QSFP28, PCIe3.0 x 16, soporte alto y corto $985.00