Cuando se habla de Internet, la gente suele compararlo con una autopista. La tarjeta de red equivale a la puerta de entrada y salida de la autopista, el paquete de datos equivale al coche que transporta los datos y las normas de tráfico son los “protocolos de transmisión”.
Así como las carreteras pueden quedar congestionadas, La autopista de datos de la red también puede encontrar problemas de congestión., especialmente en la era actual de rápido desarrollo de la inteligencia artificial, que impone mayores exigencias a las redes de centros de datos.
Hoy hablaremos sobre qué tipo de red puede satisfacer las necesidades de la era de la IA.
¿Por qué no funciona Internet actualmente?
Internet lleva tanto tiempo desarrollándose, ¿por qué se ha hablado tanto de ella últimamente? ¿Por qué la red tradicional se ha convertido en el cuello de botella de los centros de datos modernos?
Sin duda, esto está estrechamente relacionado con los escenarios de computación intensiva como la IA y el aprendizaje automático. Estos escenarios tienen una demanda creciente de potencia informática. Según las estadísticas de IDC, la demanda mundial de potencia informática se duplica cada 3.5 meses, superando con creces la tasa de crecimiento actual de la potencia informática. Para satisfacer la creciente demanda de potencia informática, al tiempo que se aumenta la potencia informática, también es necesario mejorar por completo la eficiencia de utilización y el rendimiento de la comunicación de la potencia informática. Como uno de los tres componentes principales del centro de datos, la red del centro de datos se enfrentará a desafíos.
Esto se debe a que, en el sistema de arquitectura de von Neumann tradicional, la red generalmente solo cumple la función de transmisión de datos y los cálculos se centran en la CPU o la GPU. Cuando los modelos grandes y complejos como ChatGPT y BERT distribuyen sus cargas de trabajo a una gran cantidad de GPU para computación paralela, se generará una gran cantidad de transmisión de datos en gradiente de ráfaga, lo que puede provocar fácilmente una congestión de la red.
Este es un inconveniente natural de la arquitectura tradicional de von Neumann. En la era de la IA, con una mayor capacidad de procesamiento, ni el aumento del ancho de banda ni la reducción de la latencia pueden resolver este problema de red.
Entonces, ¿cómo podemos seguir mejorando el rendimiento de las redes de centros de datos?
¿Existen nuevas formas de mejorar el rendimiento de la red?
Existen dos formas tradicionales de mejorar el rendimiento de la red: aumentar el ancho de banda y reducir la latencia. Estos dos métodos son fáciles de entender, al igual que ocurre con el transporte de mercancías por una autopista, ya sea aumentando el ancho de la carretera o aumentando el límite de velocidad de la misma se puede resolver el problema de la congestión de la red.
En nuestra vida diaria, cuando encontramos conexiones a Internet lentas, también adoptamos estos dos métodos: pagar dinero extra para actualizar a un mayor ancho de banda o comprar equipos de red con mejor rendimiento.
Sin embargo, estos dos métodos solo pueden mejorar la red hasta cierto punto. Cuando el ancho de banda se actualiza a un determinado ancho y el equipo alcanza un cierto nivel, será difícil mejorar aún más el rendimiento real de la red. Esta es también la razón principal del cuello de botella de la red en la era actual de la IA.
¿Existe una mejor solución para mejorar la red?
La respuesta es sí. Para acelerar el entrenamiento de modelos y procesar grandes conjuntos de datos, NVIDIA, como líder mundial en potencia de procesamiento de IA, ha descubierto hace tiempo el cuello de botella de las redes tradicionales. Para ello, NVIDIA ha elegido un nuevo camino: implementar la computación en torno a los datos. En pocas palabras, donde están los datos, hay computación: cuando los datos están en la GPU, la computación está en la GPU; cuando los datos se transmiten en la red, la computación está en la red.
En resumen, la red no sólo debe garantizar el rendimiento de la transmisión de datos, sino también realizar algunos cálculos de procesamiento de datos.
Esta nueva arquitectura permite que la CPU o la GPU se concentren en las tareas informáticas en las que son buenas y distribuyen algunas cargas de trabajo de operación de la infraestructura a los nodos conectados a la red, solucionando así el problema de cuello de botella o pérdida de paquetes en la transmisión de la red. Se entiende que este método puede reducir la latencia de la red en más de 10 veces.
Por lo tanto, la computación de infraestructura se ha convertido en una de las tecnologías clave de la actual arquitectura informática central centrada en datos.
¿Por qué la DPU puede generar mejoras en la red?
Cuando se trata de computación de infraestructura, debemos mencionar el concepto de DPU. El nombre completo de DPU es Unidad de procesamiento de datos. Es el tercer chip principal en el centro de datos. Su propósito principal es compartir la carga de trabajo de infraestructura de la CPU en el centro de datos, excepto para la computación general.
NVIDIA es pionera mundial en el campo de las DPU. En la primera mitad de 2020, NVIDIA adquirió la empresa israelí de chips de red Mellanox Technologies por 6.9 millones de dólares y lanzó el DPU BlueField-2 ese mismo año, definiéndolo como el "tercer chip principal" después de la CPU y la GPU, lo que dio inicio oficialmente al desarrollo de las DPU.
Entonces algunas personas preguntarán, ¿qué papel juega esta DPU en la red?
Permítanme darles un ejemplo para ilustrar esto.
Al igual que en el caso de un restaurante, antes había menos gente y el jefe era responsable de todo el trabajo, como comprar, lavar y cortar, preparar platos, cocinar, servir la comida y atender a los cajeros. Al igual que una CPU, no solo tiene que realizar operaciones matemáticas y lógicas, sino también gestionar dispositivos externos, ejecutar diferentes tareas en diferentes momentos y cambiar de tarea para satisfacer las necesidades de ejecución de aplicaciones comerciales.
Sin embargo, a medida que aumenta el número de clientes a los que se debe atender, es necesario que distintas personas compartan distintas tareas. Hay varios dependientes responsables de comprar, lavar, cortar y preparar los platos para garantizar la preparación de los ingredientes por parte del chef; hay varios chefs cocinando en paralelo para mejorar la eficiencia de la preparación de los platos; hay varios camareros que prestan servicios y entregan los platos para garantizar la calidad del servicio a varias mesas de clientes; y el jefe solo es responsable de la caja y la gestión.
De esta manera, el equipo de dependientes y camareros son como DPU que procesan y mueven datos; el equipo de chef es como GPU que realiza cálculos paralelos sobre los datos, y el jefe es como CPU que obtiene los requisitos de las aplicaciones comerciales y entrega los resultados.
La CPU, la GPU y la DPU realizan sus respectivas funciones y trabajan juntas para maximizar las cargas de trabajo que pueden procesar, mejorando enormemente el rendimiento del centro de datos y la eficiencia energética y logrando un mejor retorno de la inversión.
¿Qué productos DPU ha lanzado NVIDIA?
Después de lanzar BlueField-2 DPU en 2020, NVIDIA lanzó el procesador de datos de próxima generación, NVIDIA BlueField-3 DPU, en abril de 2021 para abordar las necesidades únicas de las cargas de trabajo de IA.
BlueField-3 es la primera DPU diseñada para IA y computación acelerada. Se entiende que la DPU BlueField-3 puede descargar, acelerar y aislar eficazmente las cargas de trabajo de la infraestructura del centro de datos, liberando así valiosos recursos de la CPU para ejecutar aplicaciones empresariales críticas.

La era de la IA
La tecnología de nube hiperescalable moderna está impulsando a los centros de datos hacia una arquitectura fundamentalmente nueva, que aprovecha un nuevo tipo de procesador diseñado específicamente para el software de infraestructura del centro de datos para descargar y acelerar las enormes cargas computacionales generadas por la virtualización, las redes, el almacenamiento, la seguridad y otros servicios de inteligencia artificial nativos de la nube. La DPU BlueField se creó con este propósito.
Como la primera DPU InfiniBand NDR y Ethernet de 400 G de la industria, BlueField-3 tiene un rendimiento de red excepcional. Puede proporcionar soluciones de infraestructura de centro de datos aceleradas por hardware y definidas por software para cargas de trabajo exigentes, acelerando la IA hacia la nube híbrida y la computación de alto rendimiento, y luego hacia las redes inalámbricas 5G. BlueField-3 DPU redefine varias posibilidades.
Después de lanzar la DPU BlueField-3, NVIDIA no ha dejado de explorar. NVIDIA ha descubierto que, con el surgimiento y la popularidad de los modelos de gran tamaño, la forma de mejorar el rendimiento y la eficiencia de la computación distribuida de los clústeres de GPU, mejorar las capacidades de expansión horizontal de los clústeres de GPU y lograr el aislamiento del rendimiento empresarial en las nubes de IA generativas se han convertido en cuestiones de preocupación común para todos los fabricantes de modelos de gran tamaño y los proveedores de servicios de IA.
Con este fin, a finales de 2023, NVIDIA lanzó la BlueField-3 SuperNIC para optimizar el rendimiento del tráfico este-oeste. Se deriva de la BlueField DPU y utiliza la misma arquitectura que la DPU, pero es diferente de la DPU. La DPU se centra en descargar las operaciones de infraestructura y acelera y optimiza el tráfico norte-sur. La BlueField SuperNIC se basa en tecnologías como el enrutamiento dinámico, el control de la congestión y el aislamiento del rendimiento en la red InfiniBand, y es compatible con la comodidad del estándar Ethernet en la nube, por lo que cumple con los requisitos de rendimiento, escalabilidad y multiinquilino de la nube de IA generativa.

Plataforma de red NVIDIA BlueField-3
En resumen, la plataforma de red NVIDIA BlueField-3 actual incluye dos productos: la DPU BlueField-3 para el procesamiento de velocidad limitada de tareas de seguridad y almacenamiento de red definidas por software, y la BlueField SuperNIC diseñada específicamente para brindar un fuerte soporte a las nubes de IA de escala ultra grande.
¿Cuál es el uso de DOCA para DPU?
Cuando hablamos de DPU, a menudo hablamos de DOCA. ¿Qué es DOCA? ¿Cuál es su valor para DPU?
De lo anterior, sabemos que NVIDIA tiene dos productos, BlueField-3 DPU y BlueField-3 SuperNIC, que pueden acelerar en gran medida el aumento actual en el poder de procesamiento de IA.
Pero en la actualidad, es difícil satisfacer los diferentes escenarios de aplicación actuales confiando únicamente en productos de hardware, por lo que necesitamos confiar en el poder del software.
CUDA es una plataforma de software muy conocida para GPU en el mercado de potencia informática. En respuesta a las necesidades de las plataformas de red, NVIDIA adoptó el mismo método integrado de aceleración de hardware y software. Hace tres años, también lanzó DOCA, una plataforma de desarrollo de software diseñada a medida para DPU, que ahora también es aplicable a BlueField-3 SuperNIC.
NVIDIA DOCA cuenta con bibliotecas, controladores y API enriquecidos que brindan un “servicio integral” para los desarrolladores de DOCA y también son la clave para acelerar los servicios de infraestructura en la nube.

Software NVIDIA DOCA para computación en la nube con IA
Como componente integral, DOCA es una parte clave para resolver el rompecabezas de la IA, ya que vincula la informática, la red, el almacenamiento y la seguridad. Con DOCA, los desarrolladores pueden crear servicios definidos por software, nativos de la nube, acelerados por DPU y SuperNIC que admiten protección de confianza cero para satisfacer las necesidades de rendimiento y seguridad de los centros de datos modernos.
Después de tres años de actualizaciones iterativas, DOCA 2.7 no solo amplía el rol de BlueField DPU en la descarga, aceleración y aislamiento de la red, almacenamiento, seguridad y gestión de la infraestructura en el centro de datos, sino que también mejora aún más el centro de datos en la nube de IA y acelera la plataforma de red NVIDIA Spectrum-X, proporcionando un excelente rendimiento para las cargas de trabajo de IA.
Veamos el papel clave de DOCA para las GPU y NVIDIA BlueField-3DPU o BlueField–3 SuperNIC:
DPU BlueField-3 | SuperNIC BlueField-3 | |
tareas | > Procesador de infraestructura en la nube > Desinstalar, acelerar y aislar la infraestructura del centro de datos > optimizado para NS en sistemas de nivel GPU | > Excelente RoCE > para la red informática de IA > Optimizado para EW en sistemas de nivel GPU |
Funciones compartidas | > Aceleración de la red VPC > Aceleración del cifrado de red > Tubería de red programable > Sincronización precisa > Seguridad de la plataforma | |
Características únicas | > Potente potencia informática > Gestión segura de confianza cero > Aceleración del almacenamiento de datos > Configuración de infraestructura elástica > 1-2 DPU por sistema | > Red poderosa > Conjunto de funciones de red Al > Optimización de NVIDIA AI de pila completa > Diseño semi-alto energéticamente eficiente > 8 SuperNIC por sistema como máximo |
En resumen, NVIDIA DOCA es para las DPU y las SuperNIC lo que CUDA es para las GPU. DOCA reúne una amplia gama de API, bibliotecas y controladores potentes para programar y acelerar la infraestructura de los centros de datos modernos.
¿Se convertirá el desarrollo de DOCA en la próxima ruta del Océano Azul?
No hay duda de que con la aparición de la IA, el aprendizaje profundo, el metaverso y otros escenarios técnicos, cada vez más empresas necesitan que se sumen más desarrolladores de DOCA para hacer realidad más innovaciones e ideas. Los conocidos proveedores de servicios en la nube tienen una demanda cada vez mayor de DPU y necesitan utilizar la tecnología de aceleración de hardware DOCA para optimizar el rendimiento de los centros de datos.

Herramientas proporcionadas por DOCA para desarrolladores
Y a medida que las empresas aumentan su demanda de procesamiento de datos seguro y eficiente, el desarrollo de DOCA también se ha convertido en una habilidad para que los ingenieros de infraestructura de la nube, los arquitectos de la nube, los ingenieros de redes y otros puestos obtengan una ventaja competitiva. Además, los desarrolladores de DOCA también pueden crear servicios definidos por software, nativos de la nube y acelerados por DPU. Participar en el desarrollo de DOCA no solo puede mejorar las habilidades personales, sino también aumentar la influencia en la comunidad tecnológica.
En la actualidad, el número de desarrolladores de DOCA está lejos de satisfacer la demanda del mercado. Según datos oficiales, hay más de 14,000 desarrolladores de DOCA en todo el mundo, casi la mitad de los cuales son de China. Aunque parece que hay mucha gente, en comparación con CUDA, que cuenta con 5 millones de desarrolladores en todo el mundo, todavía hay mucho margen para que los desarrolladores de DOCA crezcan.
Pero, después de todo, DOCA se lanzó hace apenas tres años, mientras que CUDA tiene una historia de casi 30 años. Por supuesto, esto también demuestra que DOCA todavía está en sus primeras etapas de desarrollo y tiene un gran potencial.
Para atraer a más desarrolladores a unirse al desarrollo de DOCA, NVIDIA ha estado brindando activamente más ayuda a los desarrolladores a través de varias actividades en los últimos años, incluida la preparación e implementación de la Comunidad de desarrolladores de DOCA China, la realización de campamentos de capacitación en línea y fuera de línea para desarrolladores de DOCA y la realización de competencias de hackatones para desarrolladores de DOCA.
No solo eso, en junio de 2024, el Curso introductorio de programación de NVIDIA DPU comenzó oficialmente en la Universidad de Ciencia y Tecnología de Macao. El esquema público del curso muestra que el contenido incluye una introducción completa sobre cómo la plataforma de red NVIDIA BlueField y el marco NVIDIA DOCA aceleran la computación de IA, ayudando a los estudiantes universitarios a obtener una ventaja competitiva en la era de la IA.
Para los desarrolladores que desean hacer una transición y los estudiantes universitarios que están a punto de graduarse, el desarrollo de DOCA es una dirección sobre la que muchas personas se muestran optimistas.
En el evento de intercambio de código de la aplicación NVIDIA DOCA que finalizó a principios de año, muchos desarrolladores se destacaron y ganaron premios, incluidos muchos estudiantes universitarios. Chen Qin, quien ganó el primer premio en este evento, es un estudiante de maestría en ciencias de la computación y tecnología. Dijo: "A través del desarrollo de DOCA, no solo he mejorado mi capacidad, sino que también obtuve oportunidades laborales potenciales. También he recibido mucho reconocimiento de las personas mayores de la comunidad, lo que me hace tener más confianza en mí mismo".
Hoy en día, la comunidad de desarrolladores de NVIDIA DOCA China sigue creciendo y se seguirán presentando diversas actividades y contenidos. Sin duda, este es un buen momento para quienes quieran sumarse al desarrollo de DOCA.