Arquitectura de red del centro de datos
Arquitectura de barra transversal
- Un tipo de arquitectura derivada de la primera red de conmutación telefónica (conmutador de barra cruzada)
- Consta de múltiples puertos de entrada, múltiples puertos de salida y una matriz de conmutación
- Muy flexible y eficiente, puede lograr conexiones arbitrarias entre diferentes dispositivos.
arquitectura cerrada
- Nacido en 1952, propuesto por un tal Charles Clos.
- La arquitectura Clos describe principalmente la estructura de una red de conmutación de circuitos de múltiples etapas.
- La arquitectura Clos es una mejora de la estructura de barras transversales, que puede proporcionar una red sin bloqueo. La ventaja de Clos es que ahorra costes y aumenta la eficiencia.
Arquitectura de árbol gordo
Un Fat-Tree es un tipo de arquitectura de red CLOS.
En comparación con la estructura de árbol tradicional, un Fat-Tree se parece más a un árbol real, con ramas más gruesas cerca de la raíz. Desde las hojas hasta la raíz, el ancho de banda de la red no converge.
La idea básica: utilizar una gran cantidad de conmutadores de bajo rendimiento para construir una red sin bloqueo a gran escala. Para cualquier patrón de comunicación, siempre existe una ruta que les permite alcanzar el ancho de banda de la tarjeta de red.
Después de que se introdujo la arquitectura Fat-Tree en el centro de datos, el centro de datos se convirtió en una estructura tradicional de tres capas:
Capa de acceso: se utiliza para conectar todos los nodos informáticos. Generalmente tiene la forma de un interruptor de rack (TOR, Top of Rack).
Capa de agregación: se utiliza para la interconexión de la capa de acceso y como límite de la segunda y tercera capa del área de agregación. Aquí también se implementan varios servicios como firewalls, equilibrio de carga, etc.
Capa central: se utiliza para la interconexión de la capa de agregación y para implementar la comunicación de tercera capa entre todo el centro de datos y la red externa.
Las desventajas de la arquitectura Fat-Tree:
Desperdicio de recursos: En la estructura tradicional de tres capas, un conmutador de capa inferior se conectará a dos conmutadores de capa superior a través de dos enlaces. Debido a que se utiliza el protocolo STP (Protocolo de árbol de expansión), en realidad sólo un enlace transporta el tráfico. El otro enlace ascendente está bloqueado (solo se usa como respaldo). Esto provoca un desperdicio de ancho de banda.
Gran dominio de falla: El protocolo STP, debido a su propio algoritmo, necesita reconvergir cuando cambia la topología de la red, lo que fácilmente puede causar fallas y afectar la red de toda la VLAN.
No apto para tráfico de este a oeste.: La comunicación entre servidores y servidores requiere pasar por el conmutador de acceso, el conmutador de agregación y el conmutador central.
Red columna-hoja
Al igual que la estructura Fat-Tree, pertenece al modelo de red CLOS.
En comparación con la arquitectura de red tradicional de tres capas, la red Spine-Leaf se ha aplanado y convertida en una arquitectura de dos capas.
Switch hoja, equivalente al switch de acceso en la arquitectura tradicional de tres capas, como TOR (Top Of Rack) conectado directamente al servidor físico. Encima del conmutador de hoja está la red de tercera capa, cada una de las cuales es un dominio de transmisión L2 independiente. Si los servidores bajo conmutadores de dos hojas necesitan comunicarse, deben ser reenviados por el conmutador central.
Interruptor espinal, equivalente al interruptor central. Los interruptores de hoja y lomo seleccionan dinámicamente múltiples rutas a través de ECMP (múltiples rutas de igual costo).
La cantidad de puertos de enlace descendente del conmutador central determina la cantidad de conmutadores de hoja. La cantidad de puertos de enlace ascendente del conmutador de hoja determina la cantidad de conmutadores de columna. Determinan conjuntamente la escala de la red Spine-Leaf.
Las ventajas de la red Spine-Leaf
Alta utilización del ancho de banda
El enlace ascendente de cada conmutador hoja funciona de forma equilibrada, aprovechando al máximo el ancho de banda.
Latencia de red predecible
En el modelo anterior, se puede determinar el número de rutas de comunicación entre interruptores de hoja y solo se requiere un interruptor de columna para cada ruta. La latencia de la red este-oeste es predecible.
Buena escalabilidad
Cuando el ancho de banda es insuficiente, se puede aumentar la cantidad de conmutadores principales para escalar el ancho de banda horizontalmente. Cuando aumenta la cantidad de servidores, también se puede aumentar la cantidad de conmutadores principales para ampliar la escala del centro de datos. La planificación y la expansión son muy convenientes.
Requisitos reducidos para interruptores
El tráfico norte-sur puede salir de los nodos de las hojas o de los nodos de la columna. El tráfico de este a oeste se distribuye en múltiples caminos. No se necesitan costosos conmutadores de alto rendimiento y gran ancho de banda.
Alta seguridad y disponibilidad
Las redes tradicionales utilizan el protocolo STP, que volverá a converger cuando un dispositivo falle, afectando el rendimiento de la red o incluso provocando fallos. En la arquitectura Spine-Leaf, cuando un dispositivo falla, no hay necesidad de reconvergir y el tráfico continúa pasando por otras rutas normales. La conectividad de la red no se ve afectada y el ancho de banda solo se reduce por el ancho de banda de una ruta. El impacto en el rendimiento es insignificante.
InfiniBand
Protocolo RDMA (Acceso remoto directo a memoria)
En TCP/IP tradicional, los datos de la tarjeta de red se copian primero a la memoria del kernel y luego al espacio de almacenamiento de la aplicación, o los datos se copian del espacio de la aplicación a la memoria del kernel y luego se envían a Internet a través de la tarjeta de red. Este modo de operación de E/S requiere la conversión de la memoria del kernel. Aumenta la longitud de la ruta de transmisión del flujo de datos, aumenta la carga de la CPU y también aumenta la latencia de transmisión.
El mecanismo de derivación del kernel de RDMA permite la lectura y escritura directa de datos entre la aplicación y la tarjeta de red, lo que reduce la latencia de transmisión de datos dentro del servidor a cerca de 1us.
Al mismo tiempo, el mecanismo de copia cero de la memoria de RDMA permite al receptor leer directamente datos de la memoria del remitente, sin pasar por la participación de la memoria del kernel, lo que reduce en gran medida la carga de la CPU y mejora la eficiencia de la CPU.
Los antecedentes de InfiniBand
InfiniBand (abreviado como IB) es un potente protocolo de tecnología de comunicación. Su traducción al inglés es “ancho de banda infinito”. Nació en los años 1990, para sustituir al bus PCI (Peripheral Component Interconnect). Intel introdujo el bus PCI en la arquitectura de la PC y la velocidad de actualización fue lenta, lo que limitó en gran medida el rendimiento de E/S y se convirtió en el cuello de botella de todo el sistema.
La historia del desarrollo de InfiniBand
En la década de 1990, Intel, Microsoft y SUN lideraron el desarrollo del estándar tecnológico "Next Generation I/O (NGIO)", mientras que IBM, Compaq y HP lideraron el desarrollo de "Future I/O (FIO)".
En 1999, el Foro de Desarrolladores FIO y el Foro NGIO se fusionaron y establecieron el InfiniBand Asociación de Comercio (IBTA).
En 2000, la especificación de arquitectura InfiniBand versión 1.0 fue offliberado oficialmente.
En mayo de 1999, varios empleados que dejaron Intel y Galileo Technology fundaron una empresa de chips en Israel y la llamaron Mellanox.
Después de que se estableció Mellanox, se unió a NGIO. Más tarde, Mellanox se unió al campo de InfiniBand. En 2001, lanzaron su primer producto InfiniBand. Comenzando en
En 2003, InfiniBand recurrió a un nuevo campo de aplicación: la interconexión de clústeres de computadoras.
En 2004, nació otra importante organización sin fines de lucro de InfiniBand: OFA (Open Fabrics Alliance).
En 2005, InfiniBand encontró otro nuevo escenario: la conexión de dispositivos de almacenamiento.
Desde entonces, InfiniBand ha entrado en una etapa de rápido desarrollo.
Arquitectura de red InfiniBand
InfiniBand es una estructura basada en canales que consta de cuatro componentes principales:
- HCA (Host Channel Adapter), que conecta el host a la red InfiniBand.
- TCA (Adaptador de canal de destino), que conecta el dispositivo de destino (como el almacenamiento) a la red InfiniBand.
- El enlace InfiniBand, que puede ser un cable, fibra o enlace integrado, conecta los adaptadores de canal a los conmutadores o enrutadores.
- Conmutador y enrutador InfiniBand, que proporcionan conectividad de red y enrutamiento para la red InfiniBand.
- Los adaptadores de canales se utilizan para establecer canales InfiniBand. Todas las transmisiones comienzan o finalizan con adaptadores de canal, para garantizar la seguridad o trabajar en un nivel de QoS (Calidad de Servicio) determinado.
Mellanox, adquirido por Nvidia en 2020. Desde entonces, se ha utilizado ampliamente en el entrenamiento de modelos grandes de IA.
ROCE
El nacimiento de RoCE
En abril de 2010, IBTA lanzó RoCE (RDMA sobre Ethernet convergente), que "portó" la tecnología RDMA en InfiniBand a Ethernet. En 2014, propusieron un RoCEv2 más maduro. Con RoCEv2, Ethernet redujo en gran medida la brecha de rendimiento técnico con InfiniBand y, combinado con sus ventajas inherentes de costo y compatibilidad, comenzó a contraatacar.
ROCE V2
RoCE v1: un protocolo RDMA basado en la capa de enlace Ethernet (el conmutador debe admitir tecnologías de control de flujo como PFC, para garantizar una transmisión confiable en la capa física), que permite la comunicación entre dos hosts en la misma VLAN. RoCE V2: supera la limitación de que RoCE v1 esté vinculado a una única VLAN. Al cambiar la encapsulación de paquetes, incluidos los encabezados IP y UDP, RoCE 2 ahora se puede utilizar en redes L2 y L3.
Productos relacionados:
- Módulo transceptor Mellanox MMA1B00-E100 Compatible 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP/MPO MMF DDM $50.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $300.00
- Mellanox MMS1W50-HM Compatible 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2km LC SMF FEC Módulo transceptor óptico $650.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $1450.00
- Compatible con NVIDIA MFP7E20-N050 50 m (164 pies) 8 fibras Baja pérdida de inserción Hembra a hembra MPO12 a 2xMPO12 Polaridad B APC a APC LSZH Multimodo OM4 50/125 $145.00
- Compatible con NVIDIA MFP7E20-N015 15 m (49 pies) 8 fibras Baja pérdida de inserción Hembra a hembra MPO12 a 2xMPO12 Polaridad B APC a APC LSZH Multimodo OM3 50/125 $67.00
- NVIDIA MFS1S90-H015E Compatible 15 m (49 pies) 2x200G QSFP56 a 2x200G QSFP56 PAM4 Breakout Active Cable óptico $830.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $1400.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $2000.00
- NVIDIA MFS1S50-H015V Compatible 15m (49ft) 200G InfiniBand HDR QSFP56 a 2x100G QSFP56 PAM4 Breakout Active Cable óptico $630.00
- NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $1400.00
- NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $2000.00
- Tarjeta adaptadora NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI, HDR/200GbE, puerto único QSFP56, PCIe3.0/4.0 x16, soporte alto $1400.00
- Mellanox MCP7H50-H003R26 Compatible 3 m (10 pies) Infiniband HDR 200G QSFP56 a 2x100G QSFP56 PAM4 Cable de cobre de conexión directa de ruptura pasiva $100.00
- Mellanox MFS1S50-H003E Compatible 3 m (10 pies) 200G HDR QSFP56 a 2x100G QSFP56 PAM4 Breakout Cable óptico activo $605.00
- Tarjeta adaptadora NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI, NDR/400G, OSFP de puerto único, PCIe 5.0x 16, soporte alto $1650.00