¿Cuál es la diferencia entre InfiniBand y RoCE?

Arquitectura de red del centro de datos

Arquitectura de barra transversal

  • Un tipo de arquitectura derivada de la primera red de conmutación telefónica (conmutador de barra cruzada)
  • Consta de múltiples puertos de entrada, múltiples puertos de salida y una matriz de conmutación
  • Muy flexible y eficiente, puede lograr conexiones arbitrarias entre diferentes dispositivos.
Arquitectura de barra transversal

arquitectura cerrada

  • Nacido en 1952, propuesto por un tal Charles Clos.
  • La arquitectura Clos describe principalmente la estructura de una red de conmutación de circuitos de múltiples etapas.
  • La arquitectura Clos es una mejora de la estructura de barras transversales, que puede proporcionar una red sin bloqueo. La ventaja de Clos es que ahorra costes y aumenta la eficiencia.
arquitectura cerrada

Arquitectura de árbol gordo

Un Fat-Tree es un tipo de arquitectura de red CLOS.

En comparación con la estructura de árbol tradicional, un Fat-Tree se parece más a un árbol real, con ramas más gruesas cerca de la raíz. Desde las hojas hasta la raíz, el ancho de banda de la red no converge.

La idea básica: utilizar una gran cantidad de conmutadores de bajo rendimiento para construir una red sin bloqueo a gran escala. Para cualquier patrón de comunicación, siempre existe una ruta que les permite alcanzar el ancho de banda de la tarjeta de red.

Arquitectura de árbol gordo

Después de que se introdujo la arquitectura Fat-Tree en el centro de datos, el centro de datos se convirtió en una estructura tradicional de tres capas:

Capa de acceso: se utiliza para conectar todos los nodos informáticos. Generalmente tiene la forma de un interruptor de rack (TOR, Top of Rack).

Capa de agregación: se utiliza para la interconexión de la capa de acceso y como límite de la segunda y tercera capa del área de agregación. Aquí también se implementan varios servicios como firewalls, equilibrio de carga, etc.

Capa central: se utiliza para la interconexión de la capa de agregación y para implementar la comunicación de tercera capa entre todo el centro de datos y la red externa.

estructura de tres capas

Las desventajas de la arquitectura Fat-Tree:

Desperdicio de recursos: En la estructura tradicional de tres capas, un conmutador de capa inferior se conectará a dos conmutadores de capa superior a través de dos enlaces. Debido a que se utiliza el protocolo STP (Protocolo de árbol de expansión), en realidad sólo un enlace transporta el tráfico. El otro enlace ascendente está bloqueado (solo se usa como respaldo). Esto provoca un desperdicio de ancho de banda.

Gran dominio de falla: El protocolo STP, debido a su propio algoritmo, necesita reconvergir cuando cambia la topología de la red, lo que fácilmente puede causar fallas y afectar la red de toda la VLAN.

No apto para tráfico de este a oeste.: La comunicación entre servidores y servidores requiere pasar por el conmutador de acceso, el conmutador de agregación y el conmutador central.

No apto para tráfico de este a oeste.

Red columna-hoja

Al igual que la estructura Fat-Tree, pertenece al modelo de red CLOS.

En comparación con la arquitectura de red tradicional de tres capas, la red Spine-Leaf se ha aplanado y convertida en una arquitectura de dos capas.

Red columna-hoja

Switch hoja, equivalente al switch de acceso en la arquitectura tradicional de tres capas, como TOR (Top Of Rack) conectado directamente al servidor físico. Encima del conmutador de hoja está la red de tercera capa, cada una de las cuales es un dominio de transmisión L2 independiente. Si los servidores bajo conmutadores de dos hojas necesitan comunicarse, deben ser reenviados por el conmutador central.

Interruptor espinal, equivalente al interruptor central. Los interruptores de hoja y lomo seleccionan dinámicamente múltiples rutas a través de ECMP (múltiples rutas de igual costo).

La cantidad de puertos de enlace descendente del conmutador central determina la cantidad de conmutadores de hoja. La cantidad de puertos de enlace ascendente del conmutador de hoja determina la cantidad de conmutadores de columna. Determinan conjuntamente la escala de la red Spine-Leaf.

topología de hoja espinal

Las ventajas de la red Spine-Leaf

Alta utilización del ancho de banda

El enlace ascendente de cada conmutador hoja funciona de forma equilibrada, aprovechando al máximo el ancho de banda.

Latencia de red predecible

En el modelo anterior, se puede determinar el número de rutas de comunicación entre interruptores de hoja y solo se requiere un interruptor de columna para cada ruta. La latencia de la red este-oeste es predecible.

Buena escalabilidad

Cuando el ancho de banda es insuficiente, se puede aumentar la cantidad de conmutadores principales para escalar el ancho de banda horizontalmente. Cuando aumenta la cantidad de servidores, también se puede aumentar la cantidad de conmutadores principales para ampliar la escala del centro de datos. La planificación y la expansión son muy convenientes.

Requisitos reducidos para interruptores

El tráfico norte-sur puede salir de los nodos de las hojas o de los nodos de la columna. El tráfico de este a oeste se distribuye en múltiples caminos. No se necesitan costosos conmutadores de alto rendimiento y gran ancho de banda.

Alta seguridad y disponibilidad

Las redes tradicionales utilizan el protocolo STP, que volverá a converger cuando un dispositivo falle, afectando el rendimiento de la red o incluso provocando fallos. En la arquitectura Spine-Leaf, cuando un dispositivo falla, no hay necesidad de reconvergir y el tráfico continúa pasando por otras rutas normales. La conectividad de la red no se ve afectada y el ancho de banda solo se reduce por el ancho de banda de una ruta. El impacto en el rendimiento es insignificante.

InfiniBand

Protocolo RDMA (Acceso remoto directo a memoria)

En TCP/IP tradicional, los datos de la tarjeta de red se copian primero a la memoria del kernel y luego al espacio de almacenamiento de la aplicación, o los datos se copian del espacio de la aplicación a la memoria del kernel y luego se envían a Internet a través de la tarjeta de red. Este modo de operación de E/S requiere la conversión de la memoria del kernel. Aumenta la longitud de la ruta de transmisión del flujo de datos, aumenta la carga de la CPU y también aumenta la latencia de transmisión.

El mecanismo de derivación del kernel de RDMA permite la lectura y escritura directa de datos entre la aplicación y la tarjeta de red, lo que reduce la latencia de transmisión de datos dentro del servidor a cerca de 1us.

Al mismo tiempo, el mecanismo de copia cero de la memoria de RDMA permite al receptor leer directamente datos de la memoria del remitente, sin pasar por la participación de la memoria del kernel, lo que reduce en gran medida la carga de la CPU y mejora la eficiencia de la CPU.

RDMA
infinibanda vs rdma

Los antecedentes de InfiniBand

InfiniBand (abreviado como IB) es un potente protocolo de tecnología de comunicación. Su traducción al inglés es “ancho de banda infinito”. Nació en los años 1990, para sustituir al bus PCI (Peripheral Component Interconnect). Intel introdujo el bus PCI en la arquitectura de la PC y la velocidad de actualización fue lenta, lo que limitó en gran medida el rendimiento de E/S y se convirtió en el cuello de botella de todo el sistema.

Los antecedentes de InfiniBand

La historia del desarrollo de InfiniBand

En la década de 1990, Intel, Microsoft y SUN lideraron el desarrollo del estándar tecnológico "Next Generation I/O (NGIO)", mientras que IBM, Compaq y HP lideraron el desarrollo de "Future I/O (FIO)".

En 1999, el Foro de Desarrolladores FIO y el Foro NGIO se fusionaron y establecieron el InfiniBand Asociación de Comercio (IBTA).

En 2000, la especificación de arquitectura InfiniBand versión 1.0 fue offliberado oficialmente.

En mayo de 1999, varios empleados que dejaron Intel y Galileo Technology fundaron una empresa de chips en Israel y la llamaron Mellanox.

Después de que se estableció Mellanox, se unió a NGIO. Más tarde, Mellanox se unió al campo de InfiniBand. En 2001, lanzaron su primer producto InfiniBand. Comenzando en

En 2003, InfiniBand recurrió a un nuevo campo de aplicación: la interconexión de clústeres de computadoras.

En 2004, nació otra importante organización sin fines de lucro de InfiniBand: OFA (Open Fabrics Alliance).

En 2005, InfiniBand encontró otro nuevo escenario: la conexión de dispositivos de almacenamiento.

Desde entonces, InfiniBand ha entrado en una etapa de rápido desarrollo.

La historia del desarrollo de InfiniBand

Arquitectura de red InfiniBand

InfiniBand es una estructura basada en canales que consta de cuatro componentes principales:

  • HCA (Host Channel Adapter), que conecta el host a la red InfiniBand.
  • TCA (Adaptador de canal de destino), que conecta el dispositivo de destino (como el almacenamiento) a la red InfiniBand.
  • El enlace InfiniBand, que puede ser un cable, fibra o enlace integrado, conecta los adaptadores de canal a los conmutadores o enrutadores.
  • Conmutador y enrutador InfiniBand, que proporcionan conectividad de red y enrutamiento para la red InfiniBand.
  • Los adaptadores de canales se utilizan para establecer canales InfiniBand. Todas las transmisiones comienzan o finalizan con adaptadores de canal, para garantizar la seguridad o trabajar en un nivel de QoS (Calidad de Servicio) determinado.
Arquitectura de red InfiniBand
subred
capa infinibanda
mensaje infinibanda
transmisión infinibanda
estándar de interfaz
tasa de interfaz

Mellanox, adquirido por Nvidia en 2020. Desde entonces, se ha utilizado ampliamente en el entrenamiento de modelos grandes de IA.

infinibanda

ROCE

El nacimiento de RoCE

En abril de 2010, IBTA lanzó RoCE (RDMA sobre Ethernet convergente), que "portó" la tecnología RDMA en InfiniBand a Ethernet. En 2014, propusieron un RoCEv2 más maduro. Con RoCEv2, Ethernet redujo en gran medida la brecha de rendimiento técnico con InfiniBand y, combinado con sus ventajas inherentes de costo y compatibilidad, comenzó a contraatacar.

ROCE

ROCE V2

RoCE v1: un protocolo RDMA basado en la capa de enlace Ethernet (el conmutador debe admitir tecnologías de control de flujo como PFC, para garantizar una transmisión confiable en la capa física), que permite la comunicación entre dos hosts en la misma VLAN. RoCE V2: supera la limitación de que RoCE v1 esté vinculado a una única VLAN. Al cambiar la encapsulación de paquetes, incluidos los encabezados IP y UDP, RoCE 2 ahora se puede utilizar en redes L2 y L3.

principio de funcionamiento de roca
estructura del mensaje roce
IB y roce

Deja un comentario

Ir al Inicio