NVIDIA Spectrum-X: plataforma de red de aceleración de IA basada en Ethernet

Las cargas de trabajo de inteligencia artificial se caracterizan por una pequeña cantidad de tareas que manejan grandes cantidades de transferencia de datos entre GPU, y la latencia de cola puede tener un impacto significativo en el rendimiento general de la aplicación. El uso de mecanismos de enrutamiento de red tradicionales para manejar este patrón de tráfico puede resultar en un rendimiento inconsistente de la GPU y una baja utilización de las cargas de trabajo de IA.

NVIDIA Spectrum-X RoCE Dynamic Routing es una tecnología de equilibrio de carga detallada que ajusta dinámicamente el enrutamiento de datos RDMA para evitar la congestión; combinada con la tecnología DDP de BlueField 3, proporciona un equilibrio de carga óptimo y logra un ancho de banda de datos más eficiente.

Descripción general de la plataforma de red Spectrum-X

NVIDIA® Spectrum™-X Network Platform es la primera plataforma Ethernet diseñada para mejorar el rendimiento y la eficiencia de las nubes de IA basadas en Ethernet. Esta innovadora tecnología aumenta 1.7 veces el rendimiento de la IA y la eficiencia energética en cargas de trabajo de IA a gran escala similares a LLM y garantiza coherencia y previsibilidad en entornos multiinquilino. Spectrum-X se basa en conmutadores Ethernet Spectrum-4 y tarjetas de red DPU NVIDIA BlueField®-3 y está optimizado de extremo a extremo para cargas de trabajo de IA.

Tecnologías clave de Spectrum-X

Para admitir y acelerar las cargas de trabajo de IA, Spectrum-X ha realizado una serie de optimizaciones desde DPU hasta conmutadores, cables/dispositivos ópticos, redes y software de aceleración, que incluyen:

  • Enrutamiento adaptativo NVIDIA RoCE en Spectrum-4
  • Colocación directa de datos (DDP) de NVIDIA en BlueField-3
  • Control de congestión NVIDIA RoCE en Spectrum-4 y BlueField-3
  • Software de aceleración de IA de NVIDIA
  • Visibilidad de la red de IA de extremo a extremo

Beneficios clave de Spectrum-X

  • Mejore el rendimiento de la nube de IA: Spectrum-X aumenta el rendimiento de la nube de IA 1.7 veces.
  • Conectividad Ethernet estándar: Spectrum-X cumple totalmente con los estándares Ethernet y es totalmente compatible con pilas de tecnología basadas en Ethernet.
  • Mejorar la eficiencia energética: al mejorar el rendimiento, Spectrum-X contribuye a un entorno de IA con mayor eficiencia energética.
  • Protección multiinquilino mejorada: realice un aislamiento del rendimiento en entornos multiinquilino, garantizando un rendimiento óptimo y consistente para la carga de trabajo de cada inquilino, impulsando una mejor satisfacción del cliente y calidad del servicio.
  • Mejor visibilidad de la red de IA: supervise el tráfico que se ejecuta en la nube de IA para obtener visibilidad, identifique cuellos de botella en el rendimiento y sea un componente clave de las soluciones modernas de validación de redes automatizadas.
  • Mayor escalabilidad de la IA: admita el escalamiento a 128 puertos de 400 G en un solo salto o a puertos de 8 K en una topología de columna de dos niveles, manteniendo al mismo tiempo altos niveles de rendimiento, lo que respalda la expansión de la nube de IA.
  • Configuración de red más rápida: configuración de extremo a extremo de funciones de red avanzadas automatizadas y totalmente optimizadas para cargas de trabajo de IA.

Conmutador Ethernet Spectrum-4

El conmutador Spectrum-4 está construido sobre un ASIC de 51.2 Tbps y admite hasta 128 puertos Ethernet 400G en un solo conmutador de 2U. Spectrum-4 es el primer conmutador Ethernet diseñado para cargas de trabajo de IA. Para IA, RoCE se ha ampliado:

  • Enrutamiento adaptativo RoCE
  • Aislamiento de rendimiento RoCE
  • Mejora efectiva del ancho de banda en Ethernet estándar a gran escala
  • Baja latencia, baja fluctuación y latencia de cola corta
Conmutador NVIDIA 400G

NVIDIA Spectrum-4 400 Gigabit Ethernet Switch

DPU BlueField-3

La DPU NVIDIA BlueField-3 es el chip de infraestructura de centro de datos de tercera generación que permite a las organizaciones crear infraestructuras de TI aceleradas por hardware y definidas por software desde la nube hasta el centro de datos central y el borde. Con conectividad de red Ethernet de 400 Gb/s, la DPU BlueField-3 puede offcargue, acelere y aísle funciones de administración, seguridad, almacenamiento y redes definidas por software, mejorando así significativamente el rendimiento, la eficiencia y la seguridad de los centros de datos. BlueField-3 proporciona capacidades de rendimiento seguras y multiinquilino para el tráfico norte-sur y este-oeste en centros de datos de IA en la nube impulsados ​​por Spectrum-X.

DPU

NVIDIA BlueField-3 400Gb/s DPU Ethernet

BlueField-3 está diseñado para la aceleración de IA, integrando un motor integral para las tecnologías de aceleración de almacenamiento AI, NVIDIA GPUDirect y NVIDIA Magnum IO GPUDirect.

Además, también tiene un modo de interfaz de red (NIC) especial que aprovecha la memoria local para acelerar grandes nubes de IA. Estas nubes contienen una gran cantidad de pares de colas a las que se puede acceder desde direcciones locales en lugar de utilizar la memoria del sistema. Finalmente, incluye la tecnología NVIDIA Direct Data Placement (DDP) para mejorar el enrutamiento adaptativo RoCE.

Capa física de extremo a extremo (PHY) de NVIDIA

Spectrum-X es la única plataforma de red Ethernet construida en el mismo canal SerDes de 100G, desde el conmutador hasta la DPU y la GPU, utilizando la tecnología SerDes de NVIDIA.

SerDes de NVIDIA garantiza una excelente integridad de la señal y la tasa de error de bits (BER) más baja, lo que reduce en gran medida el consumo de energía de la nube de IA. Esta potente tecnología SerDes, combinada con las GPU Hopper de NVIDIA, Spectrum-4, BlueField-3 y la cartera de productos Quantum InfiniBand, logra el equilibrio perfecto entre eficiencia energética y rendimiento.

red

Topología de red típica de Spectrum-X

La tecnología SerDes juega un papel importante en la transmisión de datos moderna, ya que puede convertir datos paralelos en datos en serie y viceversa.

El uso uniforme de la tecnología SerDes en todos los dispositivos y componentes de la red o sistema aporta muchas ventajas:

Costo y eficiencia energética: el SerDes utilizado por NVIDIA Spectrum-X está optimizado para una alta eficiencia energética y no requiere cajas de cambios en la red, que se utilizan para unir diferentes velocidades de datos. El uso de cajas de cambios no sólo aumenta la complejidad de la ruta de datos, sino que también añade costos y consumo de energía adicionales. La eliminación de la necesidad de estas cajas de cambios reduce la inversión inicial y los costos operativos asociados con la energía y la refrigeración.

Eficiencia en el diseño del sistema: el uso uniforme de la mejor tecnología SerDes en la infraestructura del centro de datos proporciona una mejor integridad de la señal, reduce la necesidad de componentes del sistema y simplifica el diseño del sistema. Al mismo tiempo, el uso de la misma tecnología SerDes también facilita la operación y mejora la disponibilidad.

Software de aceleración NVIDIA

NetQ

NetQ

NVIDIA NetQ es un conjunto de herramientas de operaciones de red altamente escalable para visibilidad, resolución de problemas y verificación de redes de IA en tiempo real. NetQ aprovecha los datos de telemetría del conmutador NVIDIA y la telemetría DOCA de NVIDIA para proporcionar información sobre el estado del conmutador y la DPU, integrando la red en el sistema MLOps de la organización.

Además, la telemetría del tráfico de NetQ puede mapear las rutas de flujo y los comportamientos entre los puertos del switch y las colas RoCE, para analizar la situación del flujo de aplicaciones específicas.

Las muestras de NetQ analizan e informan la latencia (máxima, mínima y promedio) y los detalles de ocupación del búfer en cada ruta de flujo. La GUI de NetQ informa todas las rutas posibles, los detalles de cada ruta y el comportamiento del flujo. La combinación de telemetría y telemetría de tráfico ayuda a los operadores de red a identificar de forma proactiva las causas fundamentales de los problemas de servidores y aplicaciones.

SDK de espectro

El kit de desarrollo de software (SDK) del conmutador Ethernet NVIDIA proporciona la flexibilidad para implementar funciones de conmutación y enrutamiento, con una programabilidad compleja que no afecta la velocidad de paquetes, el ancho de banda o el rendimiento de latencia. Con los OEM de SDK, servidores y redes y el sistema operativo de red (NOS), los proveedores pueden aprovechar las funciones de red avanzadas de los circuitos integrados (IC) de la serie de conmutadores Ethernet para crear soluciones de conmutación flexibles, innovadoras y con costos optimizados.

DOCA de NVIDIA

NVIDIA DOCA es la clave para liberar el potencial de la DPU NVIDIA BlueField. offcargar, acelerar y aislar cargas de trabajo del centro de datos. Con DOCA, los desarrolladores pueden abordar las crecientes demandas de rendimiento y seguridad de los centros de datos modernos mediante la creación de servicios definidos por software, nativos de la nube y acelerados por DPU con protección de confianza cero.

Características principales de NVIDIA Spectrum-X

Principio de trabajo del enrutamiento dinámico de NVIDIA RoCE

El enrutamiento dinámico RoCE funciona entre el conmutador Spectrum-4 y la DPU BlueField-3 de un extremo a otro:

  • El conmutador Spectrum-4 es responsable de seleccionar cada paquete en función del puerto con menor congestión y de distribuir uniformemente la transmisión de datos. Cuando diferentes paquetes del mismo flujo pasan por diferentes caminos de la red, pueden llegar de forma desordenada al destino.
  • BlueField-3 DPU procesa los datos en la capa de transmisión RoCE para proporcionar transparencia de datos continua a las aplicaciones. El conmutador Spectrum-4 evalúa la situación de congestión en función de la carga de la cola saliente y garantiza que todos los puertos estén equilibrados en términos de utilización. El conmutador selecciona una cola de salida con la carga más baja para cada paquete de red. El conmutador Spectrum-4 también recibe notificaciones de estado de conmutadores adyacentes, lo que también puede afectar la decisión de reenvío. La evaluación involucra colas que coinciden con las clases de tráfico. Por lo tanto, Spectrum-X puede alcanzar hasta un 95 % de ancho de banda efectivo en sistemas a gran escala y escenarios de alta carga.

2. Enrutamiento dinámico NVIDIA RoCE y tecnología de colocación directa de datos NVIDIA

A continuación, tomemos un ejemplo a nivel de paquete de datos para mostrar cómo se mueven los flujos de IA en la red Spectrum-X.

Muestra el proceso cooperativo entre el conmutador Spectrum-4 y la DPU BlueField a nivel de paquete de datos.

Paso 1: los datos se originan en un servidor o memoria de GPU en el lado izquierdo del gráfico y llegan a un servidor en el lado derecho.

Los datos se originan en un servidor o en la memoria de la GPU.

Paso 2: La DPU BlueField-3 envuelve los datos en paquetes de red y los envía al primer conmutador hoja Spectrum-4 mientras marca estos paquetes para que el conmutador pueda realizar el enrutamiento dinámico RoCE para ellos.

La DPU BlueField-3 envuelve datos en paquetes de red

Paso 3: El conmutador de hoja izquierdo Spectrum-4 aplica el enrutamiento dinámico RoCE para equilibrar los paquetes de datos de los flujos verde y morado, y envía los paquetes de cada flujo a múltiples conmutadores centrales. Esto aumenta el ancho de banda efectivo desde el estándar Ethernet60% frente al 95% de Spectrum-X (1.6 veces).

El interruptor de hoja izquierdo Spectrum-4 aplica enrutamiento dinámico RoCE

Paso 4: Estos paquetes pueden llegar desordenados a la DPU BlueField-3 en el lado derecho.

Estos paquetes pueden llegar desordenados a la DPU BlueField-3 en el lado derecho.

Paso 5: La DPU derecha BlueField-3 utiliza la tecnología de colocación directa de datos (DDP) de NVIDIA para colocar los datos en el orden correcto en la memoria del host/GPU.

La DPU Right BlueField-3 utiliza la tecnología de colocación directa de datos (DDP) de NVIDIA

Resultados de enrutamiento dinámico de RoCE

Para verificar la efectividad del enrutamiento dinámico RoCE, utilizamos un programa de prueba de escritura RDMA para realizar una prueba inicial. En la prueba, dividimos el host en varios pares y cada par se envió una gran cantidad de flujos de datos de escritura RDMA entre sí durante un tiempo determinado.

El enrutamiento dinámico RoCE puede reducir el tiempo de finalización.

El enrutamiento dinámico RoCE puede reducir el tiempo de finalización.

Como se muestra en la figura anterior, según el reenvío estático basado en hash, el puerto de enlace ascendente sufre conflictos, lo que resulta en un mayor tiempo de finalización, un ancho de banda reducido y una menor equidad entre los flujos. Cambiar al enrutamiento dinámico resuelve todos estos problemas.

En el gráfico ECMP, algunos flujos muestran un ancho de banda y un tiempo de finalización similares, mientras que otros experimentan conflictos, lo que resulta en un tiempo de finalización más largo y un menor ancho de banda. Específicamente, en el escenario ECMP, algunos flujos tienen un mejor tiempo de finalización T de 13 segundos, mientras que el flujo más lento tarda 31 segundos en completarse, lo que es aproximadamente 2.5 veces más que el tiempo ideal T. En el gráfico de enrutamiento dinámico de RoCE, todos los flujos terminan casi al mismo tiempo y tienen anchos de banda máximos similares.

Enrutamiento dinámico RoCE para cargas de trabajo de IA

Para evaluar más a fondo el rendimiento de las cargas de trabajo de RoCE con enrutamiento dinámico, realizamos pruebas comparativas de IA comunes en una plataforma de prueba que consta de 32 servidores en una topología de red de hoja de dos capas construida por cuatro conmutadores NVIDIA Spectrum. Estos puntos de referencia evaluaron operaciones de conjuntos comunes y patrones de tráfico de red en cargas de trabajo de entrenamiento de IA distribuidas, como el tráfico de todos a todos y las operaciones de conjuntos de reducción total.

El enrutamiento dinámico RoCE mejora la reducción total de la IA

El enrutamiento dinámico RoCE mejora la reducción total de la IA

El enrutamiento dinámico RoCE mejora la IA en todos sus aspectos

El enrutamiento dinámico RoCE mejora la IA en todos sus aspectos

Resumen de enrutamiento dinámico de RoCE

En muchos casos, el enrutamiento de flujo basado en hash basado en ECMP puede causar una alta congestión y un tiempo de finalización inestable de los flujos, lo que resulta en una degradación del rendimiento de la aplicación. El enrutamiento dinámico Spectrum-X RoCE resuelve este problema. Esta tecnología mejora el rendimiento real de la red (goodput) al tiempo que minimiza la inestabilidad del tiempo de finalización de los flujos tanto como sea posible, mejorando así el rendimiento de la aplicación. Al combinar el enrutamiento dinámico RoCE con la tecnología NVIDIA Direct Data Placement (DDP) en la DPU BlueField-3, puede lograr un soporte transparente para las aplicaciones.

Uso del control de congestión de NVIDIA RoCE para lograr el aislamiento del rendimiento

Debido a la congestión de la red, las aplicaciones que se ejecutan en sistemas de nube de IA pueden experimentar una degradación del rendimiento y un tiempo de ejecución inestable. Esta congestión puede deberse al tráfico de red de la aplicación o al tráfico de red en segundo plano de otras aplicaciones. La causa principal de esta congestión es la congestión de varios a uno, lo que significa que hay varios remitentes de datos y un receptor de datos.

El enrutamiento dinámico RoCE no puede resolver este problema de congestión. Este problema requiere medir el tráfico de red de cada punto final. El control de congestión Spectrum-X RoCE es una tecnología punto a punto, donde el conmutador Spectrum-4 proporciona información de telemetría de red para representar la situación de congestión en tiempo real en la red. Esta información de telemetría es procesada por BlueField-3 DPU, que administra y controla la tasa de inyección de datos de los remitentes de datos para maximizar la eficiencia de la red compartida. Si no hay control de la congestión, un escenario de varios a uno puede causar sobrecarga de la red, propagación de la congestión o pérdida de paquetes, lo que degrada gravemente el rendimiento de la red y la aplicación.

En el proceso de control de congestión, BlueField-3 DPU ejecuta un algoritmo de control de congestión, que puede procesar decenas de millones de eventos de control de congestión por segundo en el nivel de microsegundos y tomar decisiones de velocidad rápidas y detalladas. El conmutador Spectrum-4 proporciona una estimación precisa de la congestión con telemetría interna para una estimación precisa de la velocidad y un indicador de utilización del puerto para lograr una recuperación rápida. El control de congestión de NVIDIA permite que los datos de telemetría eviten el retraso de la cola de los flujos congestionados y al mismo tiempo proporcionen información de telemetría concurrente precisa, lo que reduce en gran medida el tiempo de detección y respuesta.

El siguiente ejemplo muestra cómo una red experimentó una congestión de varios a uno y cómo Spectrum-X utilizó la medición del tráfico y la telemetría interna para el control de la congestión de RoCE.

un flujo que se ve afectado por la congestión de la red

La congestión de la red provoca perturbaciones en los flujos

Esta figura muestra un flujo que se ve afectado por la congestión de la red. Cuatro DPU de origen envían datos a dos DPU de destino. Los orígenes 1, 2 y 3 envían datos al destino 1, utilizando el ancho de banda de enlace disponible en tres quintas partes. La fuente 4 envía datos al destino 2 a través de un conmutador de hoja compartido con la fuente 3, lo que hace que el destino 2 reciba el ancho de banda de enlace disponible en dos quintas partes.

Si no hay control de congestión, las fuentes 1, 2 y 3 causarán una proporción de congestión de tres a uno porque todas envían datos al destino 1. Esta congestión causará contrapresión del interruptor de hoja conectado a la fuente 1 y al destino 1. El origen 4 se convierte en un flujo congestionado cuyo rendimiento en el destino 2 cae al ancho de banda disponible en un treinta y tres por ciento (rendimiento esperado en un cincuenta por ciento). Esto afecta negativamente al rendimiento de las aplicaciones de IA que dependen del rendimiento medio y del peor de los casos.

Spectrum-X resuelve el problema de congestión mediante medición de tráfico y telemetría

Spectrum-X soluciona problemas de congestión mediante medición de tráfico y telemetría

La figura muestra cómo Spectrum-X resolvió el problema de congestión en la Figura 14. Muestra el mismo entorno de prueba: cuatro DPU de origen envían datos a dos DPU de destino. En esta situación, la medición del tráfico de las fuentes 1, 2 y 3 evita que los interruptores de hoja experimenten congestión. Esto elimina la contrapresión en la fuente 4, permitiéndole alcanzar el ancho de banda esperado de dos quintas partes. Además, Spectrum-4 utiliza información de telemetría interna generada por What Just Happened para reasignar rutas de flujo y comportamientos de colas de forma dinámica.

Aislamiento de rendimiento RoCE

La infraestructura de la nube de IA debe admitir una gran cantidad de usuarios (inquilinos) y aplicaciones o cargas de trabajo paralelas. Estos usuarios y aplicaciones compiten por recursos compartidos en la infraestructura, como la red, lo que puede afectar su rendimiento.

Además, para optimizar el rendimiento de la red de la biblioteca de comunicación colectiva (NCCL) de NVIDIA para aplicaciones de IA en la nube, todas las cargas de trabajo que se ejecutan en la nube deben coordinarse y sincronizarse. Las ventajas tradicionales de la nube, como la elasticidad y la alta disponibilidad, tienen un impacto limitado en el rendimiento de las aplicaciones de IA, mientras que la degradación del rendimiento es un problema global más importante.

La plataforma Spectrum-X incluye varios mecanismos que pueden lograr un aislamiento del rendimiento cuando se combinan. Garantiza que una carga de trabajo no afecte el rendimiento de otra carga de trabajo. Estos mecanismos de calidad del servicio garantizan que ninguna carga de trabajo cause congestión en la red, lo que puede afectar la transmisión de datos de otras cargas de trabajo.

Al utilizar el enrutamiento dinámico RoCE, logró un equilibrio detallado de la ruta de datos, evitando conflictos de flujo de datos a través del conmutador de hoja y el conmutador de columna, lo que logró un aislamiento del rendimiento. Al habilitar el control de congestión RoCE con medición de tráfico y telemetría, se mejoró aún más el aislamiento del rendimiento.

Además, el conmutador Spectrum-4 adopta un diseño de búfer compartido global para promover el aislamiento del rendimiento. El búfer compartido proporciona equidad en el ancho de banda para flujos de diferentes tamaños, protege las cargas de trabajo para que no se vean afectadas por flujos vecinos ruidosos con el mismo objetivo de puerto de destino en escenarios con múltiples flujos dirigidos al mismo puerto de destino y absorbe mejor las transmisiones a corto plazo cuando se dirigen múltiples flujos. diferentes puertos de destino.

Deja un comentario

Ir al Inicio