Redes de dos y múltiples planos en centros de computación de IA

En el artículo anterior, analizamos las diferencias entre Scale-Out y Scale-Up. Scale-Up se refiere al escalamiento vertical mediante el aumento del número de tarjetas GPU/NPU en un solo nodo para mejorar el rendimiento individual. Scale-Out, por otro lado, implica el escalamiento horizontal mediante la adición de más nodos para ampliar la escala general de la red, lo que permite realizar tareas de entrenamiento de modelos grandes que un solo nodo no puede gestionar por sí solo. Este artículo se centra en la introducción de las arquitecturas de red Scale-Out y sus tendencias de desarrollo en los centros de computación de IA.

Arquitecturas comunes para redes de centros de computación de IA

Las redes de centros de computación de IA se presentan en diversas formas, como CLOS, Dragonfly, Slim Fly, Torus y otras. Además, se han desarrollado diversos modos de red, como Rail-only, Rail-optimized, MPFT, ZCube y más. Entre estas, la arquitectura Fat-Tree CLOS se adopta ampliamente en escenarios de entrenamiento de modelos grandes gracias a su eficiente diseño de enrutamiento, excelente escalabilidad y facilidad de gestión. Normalmente, se utiliza una arquitectura CLOS Spine-Leaf de dos capas. Cuando la estructura de dos capas no satisface las necesidades de escalado, se puede añadir una capa Super-Spine adicional para su expansión.

Arquitectura CLOS de dos capas

Arquitectura CLOS de dos capas

Arquitectura CLOS de tres capas

Arquitectura CLOS de tres capas

Arquitectura exclusivamente ferroviariaPropuesta por el MIT en 2023, la arquitectura de red Rail-only conserva el dominio HB y los conmutadores Rail mientras elimina los conmutadores Spine, lo que reduce significativamente los costos de red y el consumo de energía.

Arquitectura exclusivamente ferroviaria

Por ejemplo, al utilizar conmutadores 51.2T, solo 8 conmutadores (128 puertos x 400G) pueden formar un clúster de entrenamiento de mil tarjetas.

Arquitectura de árbol gordo optimizada para rieles (ROFT)Como se muestra en la figura a continuación, en una arquitectura de red multirraíl, las demandas de comunicación para el entrenamiento de IA pueden acelerarse mediante la transmisión paralela a través de múltiples rieles. La mayor parte del tráfico se agrega y se transmite dentro del mismo riel (pasando por un solo nivel de conmutación), mientras que una pequeña parte implica transmisión entre rieles (requiriendo dos o más niveles), lo que alivia la presión de la comunicación en la red.

Arquitectura de árbol de grasa optimizada para rieles

Arquitectura de red de doble plano

En 2024, Alibaba Cloud propuso la arquitectura de red de doble puerto y doble plano, que se aplicó en HPN-7.0. Los objetivos principales de esta arquitectura son mejorar el rendimiento, optimizar la fiabilidad y evitar la polarización hash. Este diseño multirraíl de doble plano se basa en la arquitectura ROFT, dividiendo el puerto de 400 G de cada NIC en dos puertos de 200 G que se conectan a dos conmutadores Leaf (ToR) diferentes. Los puertos de 400 G de enlace descendente de los conmutadores Leaf se dividen en dos enlaces de 200 G que se conectan a diferentes puertos NIC.

Diseño de doble plano HPN

El diseño de doble plano del HPN presenta las siguientes ventajas clave:

  • Eliminación de la polarización hashEn las redes tradicionales, el tráfico de baja entropía y ráfagas proveniente del entrenamiento de modelos grandes puede causar fácilmente polarización hash, lo que resulta en una distribución desigual del tráfico. El diseño de doble plano divide los conmutadores ToR en dos grupos independientes, fijando las rutas para el tráfico que entra en los enlaces ascendentes, evitando la polarización hash en la capa de agregación, garantizando una distribución uniforme del tráfico, reduciendo significativamente la longitud de las colas y mejorando el rendimiento de la red.
  • Mayor escalabilidad y control de costos:Una red de dos capas puede alojar más de 15 000 GPU, lo que reduce una capa en comparación con las arquitecturas CLOS tradicionales de tres capas y disminuye los costos de implementación.
  • Mayor confiabilidad y tolerancia a fallasCada GPU se conecta por enlace ascendente a dos conmutadores ToR independientes, lo que elimina los puntos únicos de fallo. Durante los fallos, solo es necesario actualizar los grupos ECMP locales sin intervención del controlador global, lo que mejora la eficiencia de la recuperación. Estas características mejoran la tolerancia a fallos de la red y garantizan la estabilidad para el entrenamiento de modelos grandes.

Arquitectura de red multiplano

En mayo de 2025, el equipo de DeepSeek publicó un artículo titulado Perspectivas sobre DeepSeek-V3: Desafíos de escalabilidad y reflexiones sobre el hardware para arquitecturas de IA, introduciendo el concepto de redes multiplano. A medida que la escala de parámetros de LLM (Large Language Model) crece exponencialmente, las topologías tradicionales de Fat-Tree CLOS de tres capas presentan cada vez más limitaciones en cuanto a coste, escalabilidad y robustez.

DeepSeek-V3 adopta una red Multi-Plane Fat-Tree (MPFT) basada en InfiniBand para reemplazar la arquitectura tradicional de Fat-Tree de tres capas. En esta configuración, cada nodo está equipado con 8 GPU y 8 NIC IB de 400 Gbps, y cada GPU corresponde a una NIC IB independiente perteneciente a un plano de red diferente. Las 8 GPU por nodo se conectan a 8 planos diferentes (es decir, 8 planos Fat-Tree de dos capas). Mediante 64 conmutadores IB de 400 Gbps, un Fat-Tree de dos capas puede admitir hasta 16 384 GPU (un plano incluye 32 conmutadores Spine y 64 conmutadores Leaf, que alojan 64 x 32 GPU; con 8 planos, un total de 16 384 GPU). El intercambio de tráfico entre planos requiere reenvío dentro del nodo.

reenvío intranodo

Este modo de red de múltiples planos ofrece ventajas similares a las redes de dos planos, con la diferencia clave de que cada GPU tiene un único enlace ascendente a un plano independiente y carece de tolerancia a fallas de enlace ascendente dual por tarjeta:

  • Costo más bajo:En comparación con Fat-Tree de tres capas, MPFT puede ahorrar hasta un 40% en costos de red.
  • Mayor escalabilidad:Teóricamente admite hasta 16,384 GPU.
  • Aislamiento de tráfico:Cada avión opera de forma independiente, evitando congestiones entre aviones.

El artículo compara varios modos de red (FT2: Fat-Tree de dos capas, MPFT: Fat-Tree de múltiples planos, FT3: Fat-Tree de tres capas, SF: Slim Fly, DF: Dragonfly):

Tabla comparativa de modos de red

Como se muestra, MPFT demuestra claras ventajas en costo por nodo, escalabilidad y otros aspectos.

Sin embargo, la MPFT descrita anteriormente no es la implementación óptima. A continuación se ilustra un modo de red multiplano más ideal:

Diagrama de despliegue ideal en múltiples planos

Cada NIC está equipada con múltiples puertos físicos (en este caso, 4 interfaces de 200 G), cada uno de los cuales se conecta a un plano de red independiente (similar al modo de doble plano HPN 7.0 de Alibaba Cloud, pero con 4 interfaces por NIC en lugar de 2). Un único QP (Par de Cola) puede utilizar todos los puertos disponibles para la transmisión y recepción de paquetes.

Acercándonos a una sección de este despliegue multiplano para obtener más detalles:

Zoom detallado de la configuración de varios planos

Usando switches 102.4T como ejemplo, se proporcionan 128 puertos de 800G o 512 de 200G mediante Shuffle (Shuffle se tratará en detalle en un tema posterior; los switches pueden proporcionar enlaces de 512 de 200G directamente con Shuffle integrado, o usar una Shuffle Box o Breakout Shuffle externa para la asignación y mapeo de enlaces de fibra óptica). Cada GPU se conecta a 4 planos diferentes a través de 4 puertos de 200G, controlados por un QP para el enrutamiento con balanceo de carga por paquete entre puertos. Este modo es especialmente compatible con el tráfico MoE de todos a todos.

Diagrama de red detallado:

Diagrama detallado de red multiplano

En una configuración de 4 planos y dos capas, también puede alojar 16 384 GPU (nota: dado que cada NIC se conecta a 4 puertos de 200 G, la cantidad de conmutadores aumenta, lo que requiere 1,024 conmutadores Spine y 2,048 conmutadores Leaf, 4 veces los 768 conmutadores en MPFT de puerto único).

configuración de 4 planos y dos capas

Además, para habilitar estas funciones, se imponen nuevos requisitos a las NIC: compatibilidad con la comunicación multiplano y equilibrio de carga de los paquetes QP en múltiples planos. Debido a la llegada de paquetes fuera de orden a través de diferentes planos, las NIC deben soportar de forma nativa el manejo fuera de orden.

El último CX-8 de NVIDIA ya admite 4 planos de red (4-Plane), lo que permite la distribución de paquetes de múltiples rutas en un único QP con procesamiento de paquetes fuera de orden a nivel de hardware para garantizar la consistencia de los datos.

En resumen, para la expansión de redes Scale-Out en centros de computación de IA, las tendencias en el futuro cercano probablemente incluyan pasar de redes de tres capas a redes de dos capas, lograr clústeres de diez mil a cien mil tarjetas con dos capas y adoptar redes multipuerto y multiplano.

Esta visión general completa de las arquitecturas de redes de plano dual y multiplano destaca su papel crucial en la optimización de las redes de centros de datos de IA, la agrupación en clústeres de GPU y la computación de alto rendimiento para el entrenamiento de IA a gran escala. Estas innovaciones abordan los desafíos clave de escalabilidad, rentabilidad y confiabilidad para los centros de computación de inteligencia de próxima generación.

Ir al Inicio