FiberMall ofrece soluciones de red HPC para AIGC

AIGC (Contenido generado por IA) se ha desarrollado rápidamente recientemente, y la tasa de iteración se está disparando exponencialmente. Entre ellos, el lanzamiento de GPT-4 y ERNIE Bot ha llamado mucho la atención sobre su valor comercial y escenarios de aplicación. Con el desarrollo de AIGC, la escala de los parámetros del modelo de entrenamiento pasó de cientos de miles de millones a billones de niveles, y la escala del soporte de GPU subyacente también alcanzó niveles de billones de tarjetas. La escala de la red resultante sigue aumentando y la comunicación entre los nodos de la red se enfrenta a desafíos cada vez mayores. En este contexto, cómo mejorar la potencia informática del servidor de IA y la capacidad de comunicación en red y tener en cuenta el costo se ha convertido en una de las direcciones de investigación importantes en el campo actual de la IA.

FiberMall lanzó la solución de red de alto rendimiento DDC (Distributed Disgreged Chassis) de "velocidad inteligente" avanzada de la industria para abordar la relación entre la potencia informática AIGC, la utilización de GPU y la red, así como los desafíos que enfrentan las redes HPC convencionales, para ayudar a la informática comercial AIGC el poder se dispara.

Diagrama de la conexión del producto DDC de FiberMall

Diagrama de la conexión del producto DDC de FiberMall

Relación entre la potencia aritmética de AIGC, la utilización de GPU y la red

Relación entre el tiempo de entrenamiento y la utilización de GPU de ChatGPT

Tomando ChatGPT como ejemplo, en términos de potencia aritmética, el consumo total de potencia aritmética para el entrenamiento en la infraestructura de supercomputación de IA de Microsoft Azure (un clúster de gran ancho de banda de 10,000 100 V 3,640 GPU) es de aproximadamente 3,640 días PF (mil billones de cálculos por segundo). , con una duración de 10,000 días), aquí hay una fórmula para convertir cuánto se tarda en entrenar 100 XNUMX V XNUMX s.

Poder de cómputo y programa de capacitación de ChatGPT

Poder de cómputo y programa de capacitación de ChatGPT

Nota: Los requisitos de potencia informática de ChatGPT están disponibles en línea y se proporcionan aquí solo como referencia. En el artículo “AI and Compute”, OpenAI supone una tasa de utilización del 33 %, mientras que un grupo de investigadores de NVIDIA, Stanford y Microsoft han logrado tasas de utilización del 44 % al 52 % para entrenar modelos de lenguajes grandes en sistemas distribuidos.

Se puede ver que los principales factores que afectan el tiempo de entrenamiento de un modelo son la utilización de GPU y la potencia de procesamiento del clúster de GPU. Estas métricas clave están, a su vez, estrechamente relacionadas con la eficiencia de la red. La eficiencia de la red es un factor importante que afecta la utilización de la GPU en los clústeres de IA. En los clústeres de IA, las GPU suelen ser el recurso central de los nodos de cómputo porque pueden manejar de manera eficiente tareas de aprendizaje profundo a gran escala. Sin embargo, la utilización de GPU está influenciada por varios factores, entre los cuales la eficiencia de la red es un factor clave.

Relación entre la eficiencia de la red y la utilización de la GPU

La red juega un papel fundamental en el entrenamiento de la IA, y los clústeres de IA generalmente consisten en múltiples nodos de cómputo y almacenamiento, que necesitan comunicarse e intercambiar datos con frecuencia. Si la red es ineficiente, la comunicación entre estos nodos se volverá lenta, lo que afectará directamente el poder de cómputo del clúster de IA.

Las redes ineficientes pueden provocar los siguientes problemas, que pueden reducir la utilización de la GPU.

Mayor tiempo de transferencia de datos: En una red ineficiente, el tiempo de transferencia de datos aumentará. La utilización de la GPU disminuirá cuando las GPU deban esperar a que se complete la transferencia de datos antes de poder realizar los cálculos.

Cuello de botella del ancho de banda de la red: en un clúster de IA, las GPU generalmente necesitan intercambiar datos con otros nodos de cómputo con frecuencia. Si el ancho de banda de la red es insuficiente, las GPU no obtendrán suficientes datos para el cálculo, lo que resultará en una menor utilización de la GPU.

Programación de tareas desequilibrada: en una red ineficiente, las tareas pueden asignarse a diferentes nodos de cómputo desde las GPU. Esto puede hacer que la GPU espere inactiva cuando se requiere una gran cantidad de transferencia de datos, lo que reduce la utilización de la GPU.

Para mejorar la utilización de la GPU, es necesario optimizar la eficiencia de la red. Esto se puede lograr utilizando técnicas de red más rápidas, optimizando la topología de la red y racionalizando la asignación de ancho de banda. En el modelo de entrenamiento, el paralelismo del entrenamiento distribuido: paralelismo de datos, paralelismo de tensor y paralelismo de flujo determina el modelo de comunicación entre los datos procesados ​​por las GPU. La eficiencia de la comunicación entre modelos está influenciada por varios factores:

Factores que afectan la comunicación

Factores que afectan la comunicación

Entre ellos, el ancho de banda y la latencia de reenvío de dispositivos están limitados por el hardware, la latencia de procesamiento final está influenciada por la elección de la tecnología (TCP o RDMA), RDMA será menor, y las colas y la retransmisión están influenciadas por la optimización de la red y la elección de tecnología.

Según el modelo cuantitativo: utilización de GPU = tiempo de cálculo iterativo dentro de GPU / (tiempo de cálculo iterativo dentro de GPU + tiempo total de comunicación de la red) se extraen las siguientes conclusiones:

Gráfico de rendimiento de ancho de banda y utilización de GPU

Gráfico de rendimiento de ancho de banda y utilización de GPU                        Gráfico de latencia dinámica y utilización de GPU

Se puede ver que el rendimiento del ancho de banda de la red y la latencia dinámica (congestión/pérdida de paquetes) tienen un impacto significativo en la utilización de la GPU.

Según la composición de la latencia de comunicación total:

Composición de la latencia total de comunicación

Composición de la latencia total de comunicación

La latencia estática tiene un impacto menor, por lo que es más importante centrarse en cómo reducir la latencia dinámica, lo que puede mejorar de manera efectiva la utilización de la GPU para lograr el objetivo de mejorar la potencia informática.

Los desafíos de las redes HPC convencionales

La creación de redes IB es costosa y cerrada

Infinibanda La red es la solución más eficaz para las redes actuales de alto rendimiento, ya que utiliza un ancho de banda ultraalto y mecanismos basados ​​en créditos para garantizar que no haya congestión y una latencia ultrabaja, pero también es la solución más cara. También es la solución más cara. Es varias veces más cara que la red Ethernet tradicional con el mismo ancho de banda. Al mismo tiempo, Infinibanda la tecnología es cerrada, y solo hay un proveedor maduro en la industria, lo que imposibilita que los usuarios finales logren una segunda fuente de suministro.

Por lo tanto, la mayoría de los usuarios de la industria elegirán la solución de red Ethernet tradicional.

PFC y ECN pueden desencadenar una caída de velocidad

La solución de red convencional actual para redes de alto rendimiento se basa en RoCE v2 para construir redes habilitadas para RDMA. Dos tecnologías de colocación importantes son PFC y ECN, ambas creadas para evitar la congestión en el enlace.

Bajo la red PFC de múltiples etapas, se enfocará en la congestión de entrada del conmutador y la contrapresión al servidor de origen para suspender la transmisión paso a paso para aliviar la congestión de la red y evitar la pérdida de paquetes; sin embargo, esta solución puede enfrentar el riesgo de que PFC Deadlock provoque que el tráfico RDMA deje de reenviarse en una red de varias etapas.

Diagrama esquemático del mecanismo de trabajo de PFC

Diagrama esquemático del mecanismo de trabajo de PFC

Mientras que ECN genera un paquete RoCEv2 CNP directamente para notificar a la fuente la reducción de la velocidad según el conocimiento de la congestión del lado del destino en la salida del switch, el servidor de origen recibe el mensaje CNP y reduce con precisión la tasa de envío del QP correspondiente para aliviar la congestión y evitar reducción indiscriminada de la velocidad.

Diagrama esquemático de ECN

Diagrama esquemático de ECN

Ambas tecnologías están diseñadas para resolver la congestión, pero pueden desencadenarse con frecuencia por una posible congestión en la red. Eventualmente, el extremo de la fuente pausará o ralentizará la velocidad de transmisión y el ancho de banda de la comunicación se reducirá. La tasa de utilización de la GPU se ve muy afectada, lo que reduce la potencia informática de toda la red de alto rendimiento.

ECMP desequilibrado puede causar congestión

En el cálculo de entrenamiento de IA, hay dos modelos principales, All-Reduce y All-to-All, que requieren una comunicación frecuente de una GPU a varias GPU.

Modelos de cálculo de entrenamiento de IA

Modelos de cálculo de entrenamiento de IA

En las redes tradicionales, los dispositivos ToR y Leaf adoptan el modo de red de enrutamiento +ECMP. ECMP realiza el enrutamiento de carga de hash en función de los flujos. En un caso extremo, un enlace ECMP está lleno debido a un flujo elefante, mientras que otros enlaces ECMP están relativamente inactivos, lo que genera una carga desigual.

Diagrama de implementación de ECMP tradicional

Diagrama de implementación de ECMP tradicional

En un entorno de prueba con 8 enlaces ECMP simulados internamente, los resultados de la prueba son los siguientes:

Resultados de la prueba de tráfico ECMP

Resultados de la prueba de tráfico ECMP

Como se puede ver, ECMP basado en flujo causa una ocupación más obvia de ciertos enlaces (ECMP1-5 y 1-6) e inactividad (ECMP1-0 a 1-3 están inactivos). En los modelos All-Reduce y All-to-All, es fácil que una ruta se congestione debido a una carga desigual en ECMP. Una vez que la congestión provoca la retransmisión, aumenta la latencia de comunicación total general y reduce la utilización de la GPU.

Por lo tanto, la comunidad de investigación ha propuesto soluciones ricas como phost, Homa, NDP, 1RMA y Aeolus. Abordan el incast en diversos grados y también abordan el equilibrio de carga y el tráfico de solicitud/respuesta de baja latencia. Pero también traen consigo nuevos desafíos. A menudo, estas soluciones estudiadas requieren la resolución de problemas de un extremo a otro, con grandes cambios en los hosts, las NIC y las redes, lo que resulta costoso para el usuario medio.

Desafíos de la agrupación de IA con interruptores de caja

Algunas empresas de Internet buscan conmutadores de caja con chips DNX compatibles con la tecnología VOQ para resolver el problema de la baja utilización del ancho de banda debido al desequilibrio de la carga, pero también se enfrentan a los siguientes desafíos.

Escalabilidad media. El tamaño de la trama limita el número máximo de puertos. Si desea hacer un clúster de mayor escala, debe expandir varios marcos horizontalmente, lo que también genera enlaces PFC y ECMP de varios niveles. Por lo tanto, el marco solo es adecuado para un despliegue a pequeña escala.

Gran consumo de energía del dispositivo. La cantidad de chips de tarjeta de línea, chips de tela, ventiladores, etc. en el marco es grande, y el consumo de energía de un solo dispositivo es excelente, fácilmente más de 20,000 vatios, algunos incluso más de 30,000 vatios, con requisitos de alta potencia para el gabinete .

La cantidad de puertos de un solo dispositivo es grande y el dominio de errores es grande.

Entonces, por las razones anteriores, los dispositivos de caja solo son adecuados para la implementación a pequeña escala de clústeres de cómputo de IA.

Productos DDC nacidos para soportar AIGC

DDC es una solución de dispositivo de marco desacoplado distribuido, que utiliza casi el mismo chip y tecnologías clave que los interruptores de marco tradicionales, pero la arquitectura DDC es simple para admitir la expansión elástica y la iteración rápida de funciones, más fácil de implementar y bajo consumo de energía por máquina.

Como se muestra en la figura a continuación, la tarjeta de línea de servicio se convierte en la función de NCP como front-end, y la placa de conmutación se convierte en la función de NCF como back-end. Los componentes del conector original entre los dos ahora se reemplazan por cables de fibra óptica, y el motor de administración del dispositivo de marco original se convierte en el componente de administración centralizado/distribuido del NCC en la arquitectura DDC.

Diagrama de conectividad del producto DDC

Diagrama de conectividad del producto DDC

DDC admite la implementación a gran escala

La ventaja de la arquitectura DDC sobre la arquitectura de caja es que puede proporcionar una escalabilidad flexible y la escala de la red se puede seleccionar de manera flexible de acuerdo con el tamaño del clúster de IA.

En la red POD única, se utilizan 96 NCP como accesos, de los cuales 36 interfaces de 200 G en el enlace descendente de los NCP son responsables de conectar las NIC de los clústeres informáticos de IA. El total aguas arriba de 40 interfaces 200G puede conectar 40 NCF, NCF proporciona 96 interfaces 200G y el ancho de banda ascendente y descendente de esta escala es 1.1: 1. Todo el POD puede admitir 3456 interfaces de red de 200G y, según el cálculo de un servidor con 8 GPU, se pueden admitir 432 servidores informáticos de IA.

Diagrama de arquitectura de red de POD único

Diagrama de arquitectura de red de POD único

En redes POD multinivel, se puede realizar la construcción bajo demanda basada en POD. Debido a que el equipo NCF en este escenario, el POD tiene que sacrificar la mitad de los SerDes para conectar el NCF del segundo nivel, por lo que en este momento el POD único usa 48 NCP como acceso, con un total de 36 interfaces 200G en el enlace descendente, y puede Admite interfaces 1728 200G en un solo POD. Al aumentar el POD horizontalmente para realizar la expansión de la escala, el máximo general puede admitir más de 10,368 puertos de red de 200G.

Enlace ascendente NCP 40 200G a 40 NCF en POD, NCF en POD usan 48 interfaces 200G en sentido descendente y 48 interfaces 200G se dividen en 16 grupos para enlazar ascendentemente a NCF en el segundo nivel. Se utilizan 40 planos para NCF en el segundo nivel, y cada plano está diseñado con 3 unidades, correspondientes a 40 NCF en POD.

Toda la red logra una relación de sobremarcha de 1:1:1 dentro del POD y una relación de convergencia de 1:1 entre el POD y el NCF de segunda etapa.

sobremarcha

El puerto de red 200G es compatible con tarjeta de red 100G acceso, y en casos especiales, es compatible con NIC 25/50G usando 1 en 2 o 1 en 4 cables.

Carga más equilibrada basada en el mecanismo VOQ+Cell, menor tasa de pérdida de paquetes

Basándose en el mecanismo de reenvío de celdas después de la división para el equilibrio de carga dinámico, se da cuenta de la estabilidad del retraso y reduce la diferencia máxima de ancho de banda de diferentes enlaces.

El proceso de reenvío se muestra en la figura:

Primero, el remitente recibe paquetes de la red y los clasifica en VOQ para su almacenamiento. Antes de enviar los paquetes, se envía un mensaje de Crédito para determinar si el receptor tiene suficiente espacio de caché para manejarlos.

Si es así, los paquetes se dividen en celdas y se equilibran dinámicamente en los nodos de estructura intermedia. Estas celdas se vuelven a ensamblar y almacenar en el extremo receptor y luego se envían a la red.

proceso de reenvío

Las celdas son técnicas de corte basadas en paquetes, típicamente de 64 a 256 bytes de tamaño.

Las celdas divididas se reenvían de acuerdo con la consulta de destino de la celda en la tabla de accesibilidad y se envían mediante un mecanismo de sondeo. La ventaja de esto es que la carga de celdas divididas se utilizará por completo para cada enlace ascendente y la cantidad de datos transmitidos en todos los enlaces ascendentes será aproximadamente igual, en comparación con el modo ECMP de seleccionar una ruta particular después del hash por flujo.

basado en celdas

Si el receptor no puede procesar el mensaje temporalmente, el mensaje se almacenará temporalmente en el VOQ del lado del remitente y no se reenviará directamente al lado del receptor, lo que provocará la pérdida del paquete. Cada chip DNX puede proporcionar un caché OCB en el chip y un off-Caché HBM de 8 GB de chip, lo que equivale a almacenar en caché unos 150 ms de datos para un puerto de 200 G. Los mensajes de crédito se envían solo cuando son claramente aceptables en el otro extremo. Con dicho mecanismo, hacer un uso completo de la memoria caché puede reducir significativamente la pérdida de paquetes, o incluso no generar pérdida de paquetes. Con menos retransmisión de datos, la latencia general de la comunicación es más estable y más baja, por lo que se puede mejorar la utilización del ancho de banda y, por lo tanto, se puede mejorar la eficiencia del rendimiento del servicio.

tela basada en crédito

Sin interbloqueo en la implementación de un solo salto de PFC

De acuerdo con la lógica de DDC, todos los NCP y NCF pueden verse como un solo dispositivo. Por lo tanto, después de implementar el dominio RDMA en esta red, solo hay 1 nivel de PFC en la interfaz que apunta al servidor, lo que no generará la supresión de PFC de varios niveles y el interbloqueo como en las redes tradicionales. Además, de acuerdo con el mecanismo de reenvío de datos de DDC, ECN se puede implementar en la interfaz, y una vez que el crédito interno y el mecanismo de caché no pueden admitir el tráfico de ráfagas, los mensajes CNP se pueden enviar al lado del servidor para solicitar reducción de velocidad (generalmente bajo el modelo de comunicación de AI, All-to-All y All-Reduce+Cell slicing puede equilibrar el tráfico tanto como sea posible, y es difícil de tener (1 puerto está lleno, por lo que ECN se puede desconfigurar en la mayoría de los casos).

Sin puntos muertos en la implementación de un solo salto de PFC

Diseño sin NCC con sistema operativo distribuido para mejorar la confiabilidad

En el plano de gestión y control, para resolver el impacto de la falla de la red de gestión y el punto único de falla de NCC, eliminamos el plano de control centralizado de NCC y construimos un sistema operativo distribuido, configurando dispositivos de gestión a través de interfaces estándar (Netconf, GRPC, etc.) por los controladores de operación y mantenimiento de SDN, y cada NCP y NCF se gestiona de forma independiente con planos de control y gestión independientes.

Resultados de la comparación de pruebas

Desde el punto de vista teórico, DDC tiene muchas ventajas, como admitir la expansión elástica y la iteración rápida de funciones, una implementación más sencilla y un bajo consumo de energía de una sola máquina; sin embargo, desde el punto de vista práctico, las redes tradicionales también tienen ventajas, como más marcas y líneas de productos disponibles en el mercado, y pueden admitir clústeres de mayor escala y otras ventajas que brinda la tecnología madura. Por lo tanto, cuando los clientes se enfrentan a los requisitos del proyecto, pueden consultar la siguiente comparación y los resultados de las pruebas para determinar si elegir un DDC de mayor rendimiento o una red tradicional para una implementación a mayor escala:

Resultado de la comparación entre la red tradicional y la prueba DDC

Resultado de la comparación entre la red tradicional y la prueba DDC

Introducción al equipo FiberMall

Con base en el profundo conocimiento de las necesidades de los clientes, FiberMall ha sido el primero en lanzar dos productos entregables, un conmutador NCP de 200 G y un conmutador NCF de 200 G.

NCP: FM-S6930-36DC40F1 Interruptor

Este conmutador tiene una altura de 2U y proporciona 36 puertos de panel de 200G, 40 puertos en línea Fabric de 200G, 4 ventiladores y 2 fuentes de alimentación.

Interruptor NCP FM-S6930-36DC40F1

NCF: Interruptor FM-X56-96F1

Este conmutador tiene una altura de 4U y proporciona 96 puertos en línea de 200 G, 8 ventiladores y 4 fuentes de alimentación.

Interruptor NCF FM-X56-96F1

FiberMall continuará desarrollando y lanzando productos con factor de forma de puerto 400G en el futuro.

Conclusión

FiberMall, como líder de la industria, se ha comprometido a proporcionar equipos y soluciones de red de alta calidad y alta confiabilidad para satisfacer la creciente demanda de los clientes de Smart Computing Center. Mientras lanza la solución DDC "Smart Speed", FiberMall también está explorando y desarrollando activamente soluciones de optimización de red final en redes tradicionales. Al hacer un uso completo de las NIC inteligentes del servidor y la optimización del protocolo del equipo de red, se puede mejorar la utilización del ancho de banda de toda la red para ayudar a los clientes a entrar más rápido en la era de la computación inteligente AIGC.

Deja un comentario

Ir al Inicio