La evolución de NVLink

NVLink es una tecnología desarrollada por NVIDIA para la interconexión punto a punto de alta velocidad entre GPU. Su objetivo es superar la limitación del ancho de banda de la interconexión PCIe y permitir la comunicación de datos de baja latencia y alto ancho de banda entre chips GPU, permitiéndoles trabajar juntos de manera más eficiente. Antes de que se introdujera la tecnología NVLink (antes de 2014), las GPU debían interconectarse a través de un conmutador PCIe, como se muestra en la siguiente figura. La señal de la GPU tenía que pasar primero a través del conmutador PCIe, donde el procesamiento de datos implicaba la distribución y programación de la CPU, lo que agregaba latencia adicional a la red y limitaba el rendimiento del sistema. En ese momento, el protocolo PCIe había alcanzado la Gen 3, con una velocidad de un solo canal de 8 Gb/s y un ancho de banda total de 16 GB/s (128 Gbps, 1 Byte = 8 bits) para 16 canales. A medida que el rendimiento del chip GPU mejoraba continuamente, su ancho de banda de interconexión se convertía en un cuello de botella.

interruptor de PCle

Fuente: https://en.wikichip.org/wiki/nvidia/nvlink

En 2014, se lanzó NVLink 1.0 y se aplicó al chip P100, como se muestra en la siguiente figura. Hay cuatro NVlinks entre dos GPU, cada enlace contiene ocho carriles, cada uno con una velocidad de 20 Gb/s. Por lo tanto, el ancho de banda bidireccional de todo el sistema es de 160 GB/s, cinco veces mayor que el del PCIe3 x16.

SistemaMem

Fuente: https://en.wikichip.org/wiki/nvidia/nvlink

Cada NVLink Consta de 16 pares de líneas diferenciales, correspondientes a ocho carriles de canales en ambos sentidos, como se muestra en la siguiente figura. Los dos extremos del par diferencial son PHY, que contienen SerDes.

Cada NVLink consta de 16 pares de líneas diferenciales

Fuente: https://www.nextplatform.com/2016/05/04/nvlink-takes-gpu-acceleration-next-level/

Basado en NVLink 1.0, se puede formar una estructura de malla plana de cuatro GPU, con conexiones punto a punto entre cada par. Ocho GPU corresponden a una malla cúbica, que puede formar un servidor DGX-1. Esto también corresponde a la configuración común de ocho tarjetas, como se muestra en la siguiente figura. Cabe señalar que en este momento las ocho GPU no forman una conexión total.

las ocho GPU

Fuente: https://developer.nvidia.com/blog/dgx-1-fastest-deep-learning-system/

En 2017, Nvidia lanzó la segunda generación de tecnología NVLink. Conecta dos chips GPU V100 con seis NVLink, cada uno de los cuales consta de ocho carriles. La velocidad de cada carril se ha mejorado a 25 Gb/s y el ancho de banda bidireccional del sistema alcanza los 300 GB/s, casi el doble que el de NVLink 1.0. Al mismo tiempo, para permitir la interconexión total entre ocho GPU, Nvidia introdujo la tecnología NVSwitch. NVSwitch 1.0 tiene 18 puertos, cada uno con un ancho de banda de 50 GB/s y un ancho de banda total de 900 GB/s. Cada NVSwitch reserva dos puertos para conectarse a la CPU. Utilizando seis NVSwitches, se puede establecer una conexión total de ocho chips GPU V100, como se ilustra en la siguiente figura.

Fuente: https://en.wikichip.org/wiki/nvidia/nvswitch

El sistema DGX-2 consta de dos placas, como se muestra en la siguiente figura, logrando una conexión total de 16 chips GPU.

Fuente: https://en.wikichip.org/wiki/nvidia/nvswitch

En 2020 surgió la tecnología NVLink 3.0. Vincula dos chips GPU A100 con 12 NVLink, cada uno de los cuales contiene cuatro carriles. La velocidad de cada carril es de 50 Gb/s y el ancho de banda bidireccional del sistema alcanza los 600 GB/s, el doble que el de NVLink 2.0. A medida que aumentó la cantidad de NVLink, la cantidad de puertos en el NVSwitch también aumentó a 36, ​​cada uno con una velocidad de 50 GB/s. El DGX A100 se compone de ocho chips GPU A100 y cuatro NVSwitches, como se ilustra en la siguiente figura.

Tecnología NVLink 3.0

Fuente: http://www.eventdrive.co.kr/2020/azwell/DGX_A100_Azwellplus.pdf

En 2022, la tecnología NVLink se actualizó a la cuarta generación, lo que permite que dos chips GPU H100 se interconecten a través de 18 enlaces NVLink, cada enlace contiene 2 carriles y cada carril admite una velocidad de 100 Gb/s PAM4, por lo que el ancho de banda total bidireccional aumentó a 900 GB. /s. NVSwitch también se actualizó a la tercera generación, cada NVSwitch admite 64 puertos, cada puerto con una velocidad de 50 GB/s. DGX H100 consta de 8 chips H100 y 4 chips NVSwitch, como se muestra en la siguiente figura. En el otro lado de cada NVSwitch, varios Módulos ópticos OSFP 800G estan conectados. Tomando como ejemplo el primer NVSwitch de la izquierda, su ancho de banda total unidireccional en el lado conectado a la GPU es de 4 Tbps (20NVLink200 Gbps), y el ancho de banda total en el lado conectado al módulo óptico también es de 4 Tbps (5800 Gbps), los cuales son iguales en tamaño, formando una red sin bloqueo. Cabe señalar que el ancho de banda en el módulo óptico es un ancho de banda unidireccional, mientras que en los chips de IA generalmente se utiliza un ancho de banda bidireccional.

red sin bloqueo

Fuente: https://blog.apnic.net/2023/08/10/large-language-models-the-hardware-connection/

El módulo transceptor óptico OSFP SR800 de 8G está diseñado para enlaces InfiniBand NDR de 400G a través de fibra multimodo utilizando una longitud de onda de 850 nm. El módulo dispone de dos puertos de modulación óptica 4G-PAM100 de 4 canales, cada uno de los cuales utiliza un conector MTP/MPO-12. En el siguiente vídeo, verá cómo conectarlo a otro dispositivo mediante cables de fibra multiconector y cómo configurar el protocolo del conmutador basado en InfiniBand o Ethernet. También conocerá las características y beneficios clave del módulo 800G OSFP SR8, como su gran ancho de banda, bajo consumo de energía y capacidad de conexión en caliente.

La siguiente tabla resume los parámetros de rendimiento de cada generación de NVLink.

Parámetros de rendimiento de cada generación de NVLink.

Los parámetros de cada generación de PCIe se muestran en la siguiente tabla.

Parámetros de cada generación de PCIe.

Desde la perspectiva de la velocidad de un solo carril, NVLink es generalmente aproximadamente el doble que PCIe en el mismo período, y la ventaja del ancho de banda total es aún más obvia: NVLink es aproximadamente cinco veces el ancho de banda total de PCIe. Ha ido superándose y nunca se ha detenido.

NVLink, después de casi una década de desarrollo, se ha convertido en una tecnología central en los chips GPU de Nvidia, una parte importante de su ecosistema, resolviendo eficazmente el problema de la interconexión de datos de alto ancho de banda y baja latencia entre chips GPU y cambiando la arquitectura informática tradicional. Sin embargo, dado que esta tecnología es exclusiva de Nvidia, otras empresas de chips de IA solo pueden utilizar PCIe u otros protocolos de interconexión. Al mismo tiempo, Nvidia está explorando el uso de la interconexión óptica para lograr la conexión entre GPU, como se muestra en la siguiente figura, donde el chip fotónico de silicio y la GPU están empaquetados juntos, y las fibras ópticas conectan dos chips de GPU.

GPU nvswitch fotónico conectado

Fuente: https://www.nextplatform.com/2022/08/17/nvidia-shows-what-optically-linked-gpu-systems-might-look-like/

Deja un comentario

Ir al Inicio