Un protocolo de red es un conjunto de reglas, estándares o convenciones establecidas para el intercambio de datos en una red informática. A nivel legal, el protocolo de siete capas OSI es un protocolo internacional.
Debido a los requisitos de HPC/AI para un alto rendimiento de red y baja latencia, TCP/IP está realizando una transición gradual a RDMA en los centros de datos. RDMA contiene diferentes ramas. Entre ellas, Infiniband está diseñado específicamente para RDMA, lo que garantiza una transmisión confiable desde el nivel de hardware. Tiene tecnología avanzada pero es costoso. RoCE e iWARP se basan en la tecnología Ethernet RDMA.
Este artículo se centra en los siguientes aspectos para discutir la relación entre los interruptores y la IA.
P: ¿Qué es un protocolo?
P: ¿Cuál es el papel de los conmutadores en la arquitectura del centro de datos?
P: ¿Conmutador NVIDIA = conmutador IB?
P: ¿Cómo entender NVIDIA SuperPOD?
P: ¿Cuál es la situación actual del mercado de conmutadores?
¿Qué es un protocolo?
Un protocolo de red es un conjunto de reglas, estándares o convenciones establecidas para el intercambio de datos en una red informática. A nivel legal, el protocolo OSI de siete capas es un protocolo internacional. En la década de 1980, con el fin de estandarizar los métodos de comunicación entre ordenadores y satisfacer las necesidades de las redes abiertas, se propuso el protocolo OSI (Open System Interconnection), que adoptó una red de siete capas.
- Capa física: Resuelve cómo se comunican los equipos entre sí. Su función principal es definir estándares de dispositivos físicos (como tipo de interfaz, velocidad de transmisión, etc.) para lograr la transmisión de flujos de bits (un flujo de datos representado por 0 y 1).
- Capa de enlace de datos: Las funciones principales son la codificación de tramas y el control de corrección de errores. El trabajo específico es recibir datos de la capa física, encapsularlos en tramas y luego transmitirlos a la capa superior. De manera similar, los datos de la capa de red se pueden dividir en flujos de bits y transmitir a la capa física. La función de corrección de errores se puede lograr porque cada trama incluye información de verificación además de los datos que se van a transmitir.
- Capa de red: crea circuitos lógicos entre nodos y busca direcciones a través de IP (cada nodo de la red tiene una IP). Los datos que se transmiten en esta capa se encuentran en paquetes.
- Capa de transporte: responsable de supervisar la calidad de la transmisión de datos. Si se produce una pérdida de paquetes, se deben reenviar.
- Capa de sesión: La función principal es administrar las conexiones de sesión de los dispositivos de red.
- Capa de presentación: principalmente responsable de la conversión de formato de datos, cifrado, etc.
- Capa de aplicación: proporciona interfaces de aplicación, que pueden proporcionar directamente a los usuarios diversos servicios de red y completar diversas tareas de red.
TCP/IP es una pila de protocolos que incluye varios protocolos. Estos protocolos pueden dividirse aproximadamente en cuatro capas, a saber, capa de aplicación, capa de transporte, capa de red y capa de enlace de datos. De hecho, el protocolo TCP/IP puede entenderse como una versión optimizada del protocolo de siete capas OSI.

Comparación entre el modelo de red de siete capas OSI y el modelo de cuatro capas TCP/IP
Debido a los requisitos de HPC de alto rendimiento de red y baja latencia, TCP/IP está realizando una transición gradual hacia RDMA. Existen varias desventajas importantes de TCP/IP:
En primer lugar, existe una latencia de decenas de microsegundos. Dado que la pila de protocolos TCP/IP requiere múltiples cambios de contexto durante la transmisión y depende de la CPU para la encapsulación, la latencia es relativamente larga.
En segundo lugar, la CPU está muy cargada. La red TCP/IP requiere que la CPU del host participe en la copia de memoria de la pila de protocolos varias veces, y el coeficiente de correlación entre la carga de la CPU y el ancho de banda de la red es demasiado grande.
RDMA (Remote Direct Memory Access): permite acceder a los datos de la memoria directamente a través de la interfaz de red sin la intervención del núcleo del sistema operativo. Esto permite una comunicación de red de alto rendimiento y baja latencia, lo que resulta especialmente adecuado para su uso en clústeres de ordenadores con gran cantidad de conexiones paralelas.

Tres modos de RDMA
RDMA no especifica toda la pila de protocolos, pero sí impone altas exigencias a transmisiones específicas: por ejemplo, sin pérdidas, alto rendimiento y baja latencia, etc. RDMA incluye diferentes ramas, entre las que se encuentra Infiniband, diseñada específicamente para RDMA y que garantiza una transmisión fiable a nivel de hardware. Es tecnológicamente avanzada, pero costosa. RoCE e iWARP se basan en la tecnología Ethernet RDMA.
¿Cuál es el papel de los conmutadores en la arquitectura del centro de datos?
Los conmutadores y los enrutadores funcionan en diferentes niveles. El conmutador funciona en la capa de enlace de datos y puede encapsular y reenviar paquetes de datos en función de la identificación MAC (dirección de hardware de la tarjeta de red), lo que permite que diferentes dispositivos se comuniquen entre sí. Un enrutador, también conocido como selector de ruta, funciona en la capa de red para lograr la interconexión, implementa el direccionamiento basado en IP y conecta diferentes subredes.
Los centros de datos tradicionales suelen utilizar una arquitectura de tres capas, a saber, la capa de acceso, la capa de agregación y la capa central. Sin embargo, en los centros de datos pequeños, la existencia de la capa de agregación puede ignorarse. Entre ellas, la capa de acceso suele estar conectada directamente al servidor, siendo el conmutador TOR (Top of Rack) el más utilizado. La capa de agregación es el “intermediario (capa intermedia)” entre la capa de acceso a la red y la capa central. Los conmutadores centrales proporcionan el reenvío de paquetes que entran y salen del centro de datos y proporcionan conectividad para la capa de agregación.
Con el desarrollo de la computación en la nube, las desventajas de las redes tradicionales de tres capas se han vuelto más prominentes:
- Desperdicio de ancho de banda: cada grupo de conmutadores de agregación administra un POD (punto de entrega) y cada POD tiene una red VLAN independiente. El protocolo Spanning Tree Protocol (STP) se utiliza generalmente entre conmutadores de agregación y conmutadores de acceso. STP hace que solo haya un conmutador de capa de agregación disponible para una red VLAN, mientras que las demás capas de agregación quedan bloqueadas. Esto también hace imposible expandir la capa de agregación horizontalmente.
- Dominio de falla grande: debido al algoritmo STP, se requiere reconvergencia cuando cambia la topología de la red, lo que es propenso a fallas.
- Larga latencia: con el desarrollo de los centros de datos, el tráfico este-oeste ha aumentado significativamente y la comunicación entre servidores en la arquitectura de tres niveles debe pasar por conmutadores capa por capa, lo que genera una gran latencia. Además, la presión de trabajo de los conmutadores centrales y de agregación sigue aumentando y las actualizaciones de rendimiento también provocan un aumento de los costos.
La arquitectura leaf-spine tiene ventajas obvias, como un diseño plano, baja latencia y un gran ancho de banda. La red leaf-spine aplana la red, donde los conmutadores leaf son equivalentes a los conmutadores de capa de acceso tradicionales y los conmutadores de red son similares a los conmutadores de núcleo.
Se seleccionan dinámicamente múltiples rutas entre los conmutadores leaf y spin mediante ECMP (Equal Cost Multi Path). Cuando no hay cuellos de botella en los puertos de acceso y enlaces ascendentes de la capa Leaf, esta arquitectura logra la no existencia de bloqueos. Debido a que cada Leaf en la estructura está conectada a cada Spine, si un Spine falla, el rendimiento del centro de datos solo se degradará levemente.
¿Conmutador NVIDIA = conmutador IB?
No. Las plataformas NVIDIA Spectrum y Quantum están equipadas con conmutadores Ethernet e IB.
Los conmutadores IB son operados principalmente por el fabricante mellanox, que NVIDIA adquirió con éxito en 2020. Además, los conmutadores de la plataforma Spectrum de NVIDIA se basan principalmente en Ethernet y sus productos se actualizan constantemente. El Spectrum-4 lanzado en 2022 es un producto de conmutación de 400G.

Plataformas NVIDIA Spectrum y Quantum
Spectrum-X está diseñado para la IA generativa y optimiza las limitaciones de los conmutadores Ethernet tradicionales. Dos elementos clave de la plataforma NVIDIA Spectrum X son el conmutador Ethernet NVIDIA Spectrum-4 y la DPU NVIDIA BlueField-3.
Los principales beneficios de Spectrum-X incluyen: Ampliación de RoCE para IA y enrutamiento adaptativo (AR) para lograr el máximo rendimiento de la biblioteca de comunicaciones colectivas de NVIDIA (NCCL). NVIDIA Spectrum-X puede lograr hasta un 95 % de ancho de banda efectivo con la carga y la escala de sistemas de hiperescala.
- Aproveche el aislamiento del rendimiento para garantizar que, en un entorno de múltiples inquilinos y trabajos, un trabajo no afecte a otro.
- Asegúrese de que la infraestructura de red continúe ofreciendo el máximo rendimiento en caso de que falle un componente de la red.
- Sincronice con BlueField-3 DPU para un rendimiento óptimo de NCCL y AI.
- Mantenga un rendimiento constante y estable en una variedad de cargas de trabajo de IA, lo cual es fundamental para lograr los acuerdos de nivel de servicio.
En el modo de red, IB o Ethernet es una cuestión importante. En el mercado actual, Ethernet ocupa la gran mayoría de la cuota de mercado, pero en algunos escenarios de computación a gran escala, IB destaca. En la Conferencia de Supercomputación ISC 2021, IB representó el 70% de los sistemas TOP10 y el 65% de los sistemas TOP100. A medida que aumenta el alcance de consideración, la cuota de mercado de IB disminuye.
Las plataformas Spectrum y Quantum apuntan a diferentes escenarios de aplicación. En la visión de Nvidia, los escenarios de aplicación de IA se pueden dividir en nube de IA y fábrica de IA. Los conmutadores Ethernet tradicionales y Spectrum-X Ethernet se pueden utilizar en la nube de IA, mientras que las soluciones NVLink+InfiniBand son necesarias en la fábrica de IA.
¿Cómo entender NVIDIA SuperPOD?
SuperPOD es un clúster de servidores que conecta múltiples nodos informáticos para proporcionar un mayor rendimiento.
Tomando como ejemplo NVIDIA DGX A100 SuperPOD, el conmutador utilizado en la configuración recomendada oficialmente por NVIDIA es QM9700, que puede proporcionar 40 puertos de 200G. En la primera capa, el servidor DGX A100 tiene un total de 8 interfaces, que están conectadas a 8 conmutadores leaf respectivamente, ya que adopta una arquitectura de árbol gordo (no convergente). 20 servidores forman una SU, por lo que se requieren un total de 8 servidores SU. En la arquitectura de segunda capa, dado que la red no converge y la velocidad del puerto es constante, el puerto de enlace ascendente proporcionado por el conmutador de columna vertebral debe ser mayor o igual que el puerto de enlace descendente del conmutador leaf. Por lo tanto, 1 SU corresponde a 8 conmutadores leaf y 5 conmutadores de columna vertebral, 2 SU corresponden a 16 conmutadores leaf y 10 conmutadores de columna vertebral, y así sucesivamente. Además, cuando el número de SU aumenta a más de 6, la recomendación oficial es agregar un conmutador de capa central.

Referencia de la arquitectura SuperPOD de NVIDIA DGX A100
En el DGX A100 SuperPOD, la relación servidor:conmutador en la red informática es de 1:1.17 (tomando 7 SU como ejemplo); pero en el DGX A100 SuperPOD, la relación es de 1:0.38. Teniendo en cuenta los requisitos de almacenamiento y gestión de red, las relaciones servidor:conmutador para el DGX A100 SuperPOD y el DGX H100 SuperPOD son 1:1.34 y 1:0.50, respectivamente.
En cuanto a puertos, en la configuración recomendada para el DGX H100, cada SU consta de 31 servidores. Por un lado, el DGX H100 cuenta con solo 4 interfaces para computación, por otro lado, el switch es un QM9700, proporcionando 64 puertos 400G en el DGX H100 SuperPOD.
En términos de rendimiento del conmutador, el rendimiento del QM9700 se ha mejorado considerablemente en la configuración recomendada de DGX H100 SuperPOD. Los conmutadores Infiniband introducen la tecnología Sharp. Al construir un árbol de agregación de streaming (SAT) en la topología física a través del administrador de agregación y luego hacer que varios conmutadores en el árbol realicen operaciones paralelas, se puede reducir en gran medida la latencia y se puede mejorar el rendimiento de la red. QM8700/8790+CX6 solo admite hasta 2 SAT, pero QM9700/9790+CX7 admite hasta 64. La cantidad de puertos de apilamiento aumenta, por lo que la cantidad de conmutadores utilizados disminuye.
A juzgar por los precios de los conmutadores, el precio del QM9700 es aproximadamente el doble que el del QM8700/8790. Según el sitio web oficial de SHI, el precio unitario del Quantum-2 QM9700 es de 38,000 dólares estadounidenses y el precio unitario del Quantum QM8700/8790 es de 23,000/17,000 dólares estadounidenses respectivamente.
¿Cuál es el status quo del mercado de conmutadores?
El mercado de los conmutadores está en auge a corto plazo. Con el desarrollo de la IA, se espera que la demanda del mercado se expanda aún más y muestre una tendencia hacia la iteración de alta gama.
Desde una perspectiva estructural, el mercado de conmutadores sigue siendo un océano azul, en el que Cisco posee una gran participación y Arista crece rápidamente.
En términos de tamaño del mercado: en el primer trimestre de 1, los ingresos globales por conmutadores Ethernet fueron de 2023 millones de dólares, un aumento interanual del 10.021 %. Los ingresos por conmutadores de 31.5G/200G aumentaron un 400 % interanual y los ingresos por conmutadores de 41.3G aumentaron un 100 % interanual.
En términos de volumen de envíos portuarios: en el primer trimestre de 229 se enviaron 2023 millones de unidades, un aumento interanual del 14.8%. Los puertos 200G/400G y 100G aumentaron un 224.2% y un 17.0% respectivamente.
El panorama competitivo en el mercado de switches es mejor que en el de servidores. Según NextPlatform, Cisco acaparó el 46% de la cuota de mercado en el primer trimestre de 1, aproximadamente 2023 millones de dólares, un aumento interanual del 4.61%. Arista logró unos ingresos de 33.7 millones de dólares en el primer trimestre de 1.15, un aumento interanual del 2023%, gracias a su excelente rendimiento en el centro de datos.
En términos de rentabilidad, Cisco y Arista tienen márgenes brutos cercanos al 60%. El panorama relativamente favorable ha creado una buena rentabilidad para los fabricantes de la cadena industrial. Aunque los márgenes de beneficio bruto de Cisco y Arista han mostrado una tendencia ligeramente a la baja, aún mantienen un margen de beneficio bruto de alrededor del 60% en general. De cara al futuro, creemos que se espera que el mercado de conmutadores continúe beneficiándose del desarrollo de la IA.
Productos relacionados:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $550.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1199.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $700.00
-
Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $139.00
-
Compatible con NVIDIA MFP7E10-N010 10 m (33 pies) 8 fibras Baja pérdida de inserción Hembra a hembra Cable troncal MPO Polaridad B APC a APC LSZH multimodo OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT Compatible 3 m (10 pies) 800G OSFP de doble puerto a 2x400G OSFP de parte superior plana InfiniBand NDR Breakout DAC $260.00
-
Cable de cobre de conexión directa, 7m (70 pies), 002G, doble puerto, 2x7G OSFP a 400x2G QSFP200, Compatible con NVIDIA MCP4Y100-H56 $155.00
-
Cable de cobre activo InfiniBand NDR de 4 m (80 pies) compatible con NVIDIA MCA003J3-N10-FTF de doble puerto 800x2G OSFP a 400x2G OSFP, parte superior plana en un extremo y parte superior con aletas en el otro $600.00
-
NVIDIA MCP7Y10-N002 Compatible con 2m (7 pies) 800G InfiniBand NDR OSFP de doble puerto a DAC de ruptura 2x400G QSFP112 $190.00