En el artículo anterior, analizamos las diferencias entre Scale-Out y Scale-Up. Scale-Up se refiere al escalamiento vertical mediante el aumento del número de tarjetas GPU/NPU en un solo nodo para mejorar el rendimiento individual. Scale-Out, por otro lado, implica el escalamiento horizontal mediante la adición de más nodos para ampliar la escala general de la red, lo que permite realizar tareas de entrenamiento de modelos grandes que un solo nodo no puede gestionar por sí solo. Este artículo se centra en la introducción de las arquitecturas de red Scale-Out y sus tendencias de desarrollo en los centros de computación de IA.
Índice del Contenido
ActivaArquitecturas comunes para redes de centros de computación de IA
Las redes de centros de computación de IA se presentan en diversas formas, como CLOS, Dragonfly, Slim Fly, Torus y otras. Además, se han desarrollado diversos modos de red, como Rail-only, Rail-optimized, MPFT, ZCube y más. Entre estas, la arquitectura Fat-Tree CLOS se adopta ampliamente en escenarios de entrenamiento de modelos grandes gracias a su eficiente diseño de enrutamiento, excelente escalabilidad y facilidad de gestión. Normalmente, se utiliza una arquitectura CLOS Spine-Leaf de dos capas. Cuando la estructura de dos capas no satisface las necesidades de escalado, se puede añadir una capa Super-Spine adicional para su expansión.
Arquitectura CLOS de dos capas

Arquitectura CLOS de tres capas

Arquitectura exclusivamente ferroviariaPropuesta por el MIT en 2023, la arquitectura de red Rail-only conserva el dominio HB y los conmutadores Rail mientras elimina los conmutadores Spine, lo que reduce significativamente los costos de red y el consumo de energía.

Por ejemplo, al utilizar conmutadores 51.2T, solo 8 conmutadores (128 puertos x 400G) pueden formar un clúster de entrenamiento de mil tarjetas.
Arquitectura de árbol gordo optimizada para rieles (ROFT)Como se muestra en la figura a continuación, en una arquitectura de red multirraíl, las demandas de comunicación para el entrenamiento de IA pueden acelerarse mediante la transmisión paralela a través de múltiples rieles. La mayor parte del tráfico se agrega y se transmite dentro del mismo riel (pasando por un solo nivel de conmutación), mientras que una pequeña parte implica transmisión entre rieles (requiriendo dos o más niveles), lo que alivia la presión de la comunicación en la red.

Arquitectura de red de doble plano
En 2024, Alibaba Cloud propuso la arquitectura de red de doble puerto y doble plano, que se aplicó en HPN-7.0. Los objetivos principales de esta arquitectura son mejorar el rendimiento, optimizar la fiabilidad y evitar la polarización hash. Este diseño multirraíl de doble plano se basa en la arquitectura ROFT, dividiendo el puerto de 400 G de cada NIC en dos puertos de 200 G que se conectan a dos conmutadores Leaf (ToR) diferentes. Los puertos de 400 G de enlace descendente de los conmutadores Leaf se dividen en dos enlaces de 200 G que se conectan a diferentes puertos NIC.

El diseño de doble plano del HPN presenta las siguientes ventajas clave:
- Eliminación de la polarización hashEn las redes tradicionales, el tráfico de baja entropía y ráfagas proveniente del entrenamiento de modelos grandes puede causar fácilmente polarización hash, lo que resulta en una distribución desigual del tráfico. El diseño de doble plano divide los conmutadores ToR en dos grupos independientes, fijando las rutas para el tráfico que entra en los enlaces ascendentes, evitando la polarización hash en la capa de agregación, garantizando una distribución uniforme del tráfico, reduciendo significativamente la longitud de las colas y mejorando el rendimiento de la red.
- Mayor escalabilidad y control de costos:Una red de dos capas puede alojar más de 15 000 GPU, lo que reduce una capa en comparación con las arquitecturas CLOS tradicionales de tres capas y disminuye los costos de implementación.
- Mayor confiabilidad y tolerancia a fallasCada GPU se conecta por enlace ascendente a dos conmutadores ToR independientes, lo que elimina los puntos únicos de fallo. Durante los fallos, solo es necesario actualizar los grupos ECMP locales sin intervención del controlador global, lo que mejora la eficiencia de la recuperación. Estas características mejoran la tolerancia a fallos de la red y garantizan la estabilidad para el entrenamiento de modelos grandes.
Arquitectura de red multiplano
En mayo de 2025, el equipo de DeepSeek publicó un artículo titulado Perspectivas sobre DeepSeek-V3: Desafíos de escalabilidad y reflexiones sobre el hardware para arquitecturas de IA, introduciendo el concepto de redes multiplano. A medida que la escala de parámetros de LLM (Large Language Model) crece exponencialmente, las topologías tradicionales de Fat-Tree CLOS de tres capas presentan cada vez más limitaciones en cuanto a coste, escalabilidad y robustez.
DeepSeek-V3 adopta una red Multi-Plane Fat-Tree (MPFT) basada en InfiniBand para reemplazar la arquitectura tradicional de Fat-Tree de tres capas. En esta configuración, cada nodo está equipado con 8 GPU y 8 NIC IB de 400 Gbps, y cada GPU corresponde a una NIC IB independiente perteneciente a un plano de red diferente. Las 8 GPU por nodo se conectan a 8 planos diferentes (es decir, 8 planos Fat-Tree de dos capas). Mediante 64 conmutadores IB de 400 Gbps, un Fat-Tree de dos capas puede admitir hasta 16 384 GPU (un plano incluye 32 conmutadores Spine y 64 conmutadores Leaf, que alojan 64 x 32 GPU; con 8 planos, un total de 16 384 GPU). El intercambio de tráfico entre planos requiere reenvío dentro del nodo.

Este modo de red de múltiples planos ofrece ventajas similares a las redes de dos planos, con la diferencia clave de que cada GPU tiene un único enlace ascendente a un plano independiente y carece de tolerancia a fallas de enlace ascendente dual por tarjeta:
- Costo más bajo:En comparación con Fat-Tree de tres capas, MPFT puede ahorrar hasta un 40% en costos de red.
- Mayor escalabilidad:Teóricamente admite hasta 16,384 GPU.
- Aislamiento de tráfico:Cada avión opera de forma independiente, evitando congestiones entre aviones.
El artículo compara varios modos de red (FT2: Fat-Tree de dos capas, MPFT: Fat-Tree de múltiples planos, FT3: Fat-Tree de tres capas, SF: Slim Fly, DF: Dragonfly):

Como se muestra, MPFT demuestra claras ventajas en costo por nodo, escalabilidad y otros aspectos.
Sin embargo, la MPFT descrita anteriormente no es la implementación óptima. A continuación se ilustra un modo de red multiplano más ideal:

Cada NIC está equipada con múltiples puertos físicos (en este caso, 4 interfaces de 200 G), cada uno de los cuales se conecta a un plano de red independiente (similar al modo de doble plano HPN 7.0 de Alibaba Cloud, pero con 4 interfaces por NIC en lugar de 2). Un único QP (Par de Cola) puede utilizar todos los puertos disponibles para la transmisión y recepción de paquetes.
Acercándonos a una sección de este despliegue multiplano para obtener más detalles:

Usando switches 102.4T como ejemplo, se proporcionan 128 puertos de 800G o 512 de 200G mediante Shuffle (Shuffle se tratará en detalle en un tema posterior; los switches pueden proporcionar enlaces de 512 de 200G directamente con Shuffle integrado, o usar una Shuffle Box o Breakout Shuffle externa para la asignación y mapeo de enlaces de fibra óptica). Cada GPU se conecta a 4 planos diferentes a través de 4 puertos de 200G, controlados por un QP para el enrutamiento con balanceo de carga por paquete entre puertos. Este modo es especialmente compatible con el tráfico MoE de todos a todos.
Diagrama de red detallado:

En una configuración de 4 planos y dos capas, también puede alojar 16 384 GPU (nota: dado que cada NIC se conecta a 4 puertos de 200 G, la cantidad de conmutadores aumenta, lo que requiere 1,024 conmutadores Spine y 2,048 conmutadores Leaf, 4 veces los 768 conmutadores en MPFT de puerto único).

Además, para habilitar estas funciones, se imponen nuevos requisitos a las NIC: compatibilidad con la comunicación multiplano y equilibrio de carga de los paquetes QP en múltiples planos. Debido a la llegada de paquetes fuera de orden a través de diferentes planos, las NIC deben soportar de forma nativa el manejo fuera de orden.
El último CX-8 de NVIDIA ya admite 4 planos de red (4-Plane), lo que permite la distribución de paquetes de múltiples rutas en un único QP con procesamiento de paquetes fuera de orden a nivel de hardware para garantizar la consistencia de los datos.
En resumen, para la expansión de redes Scale-Out en centros de computación de IA, las tendencias en el futuro cercano probablemente incluyan pasar de redes de tres capas a redes de dos capas, lograr clústeres de diez mil a cien mil tarjetas con dos capas y adoptar redes multipuerto y multiplano.
Esta visión general completa de las arquitecturas de redes de plano dual y multiplano destaca su papel crucial en la optimización de las redes de centros de datos de IA, la agrupación en clústeres de GPU y la computación de alto rendimiento para el entrenamiento de IA a gran escala. Estas innovaciones abordan los desafíos clave de escalabilidad, rentabilidad y confiabilidad para los centros de computación de inteligencia de próxima generación.
Productos relacionados:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo
$550.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico
$700.00
-
Módulo transceptor óptico MTP/MPO-1 OM00 FEC compatible con NVIDIA MMA400Z400-NS112, 4 G, QSFP4, VR850, PAM50, 12 nm, 4 m
$550.00
-
NVIDIA MMS1Z00-NS400 Compatible 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 con módulo transceptor óptico FEC
$850.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico
$650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico
$650.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF
$900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico
$1199.00
-
Módulo transceptor óptico OSFP 4x50G FR2 PAM400 4nm 4km DOM Dual Duplex LC SMF compatible con NVIDIA MMS1310X2-NM
$1200.00
-
Módulo transceptor óptico MPO-4 SMF dual con aletas, compatible con NVIDIA MMS00A980 (9-1IAH00-00XM1.6), 8T OSFP DR4D PAM1311, 500 nm, 12 m, IHS
$2600.00
-
Módulo transceptor óptico LC SMF dúplex doble con aletas, compatible con NVIDIA, 1.6T, 2xFR4/FR8, OSFP224, PAM4, 1310 nm, 2 km, IHS
$3100.00
-
Módulo transceptor óptico InfiniBand XDR SMF, compatible con NVIDIA MMS4A00 (980-9IAH0-00XM00), 1.6T, 2xDR4/DR8, OSFP224, PAM4, 1311 nm, 500 m, RHS/Flat Top, MPO-12/APC dual, XDR
$3600.00
