NVLink es una tecnología desarrollada por NVIDIA para la interconexión punto a punto de alta velocidad entre GPU. Su objetivo es superar la limitación del ancho de banda de la interconexión PCIe y permitir la comunicación de datos de baja latencia y alto ancho de banda entre chips GPU, permitiéndoles trabajar juntos de manera más eficiente. Antes de que se introdujera la tecnología NVLink (antes de 2014), las GPU debían interconectarse a través de un conmutador PCIe, como se muestra en la siguiente figura. La señal de la GPU tenía que pasar primero a través del conmutador PCIe, donde el procesamiento de datos implicaba la distribución y programación de la CPU, lo que agregaba latencia adicional a la red y limitaba el rendimiento del sistema. En ese momento, el protocolo PCIe había alcanzado la Gen 3, con una velocidad de un solo canal de 8 Gb/s y un ancho de banda total de 16 GB/s (128 Gbps, 1 Byte = 8 bits) para 16 canales. A medida que el rendimiento del chip GPU mejoraba continuamente, su ancho de banda de interconexión se convertía en un cuello de botella.
Fuente: https://en.wikichip.org/wiki/nvidia/nvlink
En 2014, se lanzó NVLink 1.0 y se aplicó al chip P100, como se muestra en la siguiente figura. Hay cuatro NVlinks entre dos GPU, cada enlace contiene ocho carriles, cada uno con una velocidad de 20 Gb/s. Por lo tanto, el ancho de banda bidireccional de todo el sistema es de 160 GB/s, cinco veces mayor que el del PCIe3 x16.
Fuente: https://en.wikichip.org/wiki/nvidia/nvlink
Cada NVLink Consta de 16 pares de líneas diferenciales, correspondientes a ocho carriles de canales en ambos sentidos, como se muestra en la siguiente figura. Los dos extremos del par diferencial son PHY, que contienen SerDes.
Fuente: https://www.nextplatform.com/2016/05/04/nvlink-takes-gpu-acceleration-next-level/
Basado en NVLink 1.0, se puede formar una estructura de malla plana de cuatro GPU, con conexiones punto a punto entre cada par. Ocho GPU corresponden a una malla cúbica, que puede formar un servidor DGX-1. Esto también corresponde a la configuración común de ocho tarjetas, como se muestra en la siguiente figura. Cabe señalar que en este momento las ocho GPU no forman una conexión total.
Fuente: https://developer.nvidia.com/blog/dgx-1-fastest-deep-learning-system/
En 2017, Nvidia lanzó la segunda generación de tecnología NVLink. Conecta dos chips GPU V100 con seis NVLink, cada uno de los cuales consta de ocho carriles. La velocidad de cada carril se ha mejorado a 25 Gb/s y el ancho de banda bidireccional del sistema alcanza los 300 GB/s, casi el doble que el de NVLink 1.0. Al mismo tiempo, para permitir la interconexión total entre ocho GPU, Nvidia introdujo la tecnología NVSwitch. NVSwitch 1.0 tiene 18 puertos, cada uno con un ancho de banda de 50 GB/s y un ancho de banda total de 900 GB/s. Cada NVSwitch reserva dos puertos para conectarse a la CPU. Utilizando seis NVSwitches, se puede establecer una conexión total de ocho chips GPU V100, como se ilustra en la siguiente figura.
Fuente: https://en.wikichip.org/wiki/nvidia/nvswitch
El sistema DGX-2 consta de dos placas, como se muestra en la siguiente figura, logrando una conexión total de 16 chips GPU.
Fuente: https://en.wikichip.org/wiki/nvidia/nvswitch
En 2020 surgió la tecnología NVLink 3.0. Vincula dos chips GPU A100 con 12 NVLink, cada uno de los cuales contiene cuatro carriles. La velocidad de cada carril es de 50 Gb/s y el ancho de banda bidireccional del sistema alcanza los 600 GB/s, el doble que el de NVLink 2.0. A medida que aumentó la cantidad de NVLink, la cantidad de puertos en el NVSwitch también aumentó a 36, cada uno con una velocidad de 50 GB/s. El DGX A100 se compone de ocho chips GPU A100 y cuatro NVSwitches, como se ilustra en la siguiente figura.
Fuente: http://www.eventdrive.co.kr/2020/azwell/DGX_A100_Azwellplus.pdf
En 2022, la tecnología NVLink se actualizó a la cuarta generación, lo que permite que dos chips GPU H100 se interconecten a través de 18 enlaces NVLink, cada enlace contiene 2 carriles y cada carril admite una velocidad de 100 Gb/s PAM4, por lo que el ancho de banda total bidireccional aumentó a 900 GB. /s. NVSwitch también se actualizó a la tercera generación, cada NVSwitch admite 64 puertos, cada puerto con una velocidad de 50 GB/s. DGX H100 consta de 8 chips H100 y 4 chips NVSwitch, como se muestra en la siguiente figura. En el otro lado de cada NVSwitch, varios Módulos ópticos OSFP 800G estan conectados. Tomando como ejemplo el primer NVSwitch de la izquierda, su ancho de banda total unidireccional en el lado conectado a la GPU es de 4 Tbps (20NVLink200 Gbps), y el ancho de banda total en el lado conectado al módulo óptico también es de 4 Tbps (5800 Gbps), los cuales son iguales en tamaño, formando una red sin bloqueo. Cabe señalar que el ancho de banda en el módulo óptico es un ancho de banda unidireccional, mientras que en los chips de IA generalmente se utiliza un ancho de banda bidireccional.
Fuente: https://blog.apnic.net/2023/08/10/large-language-models-the-hardware-connection/
El módulo transceptor óptico OSFP SR800 de 8G está diseñado para enlaces InfiniBand NDR de 400G a través de fibra multimodo utilizando una longitud de onda de 850 nm. El módulo dispone de dos puertos de modulación óptica 4G-PAM100 de 4 canales, cada uno de los cuales utiliza un conector MTP/MPO-12. En el siguiente vídeo, verá cómo conectarlo a otro dispositivo mediante cables de fibra multiconector y cómo configurar el protocolo del conmutador basado en InfiniBand o Ethernet. También conocerá las características y beneficios clave del módulo 800G OSFP SR8, como su gran ancho de banda, bajo consumo de energía y capacidad de conexión en caliente.
La siguiente tabla resume los parámetros de rendimiento de cada generación de NVLink.
Los parámetros de cada generación de PCIe se muestran en la siguiente tabla.
Desde la perspectiva de la velocidad de un solo carril, NVLink es generalmente aproximadamente el doble que PCIe en el mismo período, y la ventaja del ancho de banda total es aún más obvia: NVLink es aproximadamente cinco veces el ancho de banda total de PCIe. Ha ido superándose y nunca se ha detenido.
NVLink, después de casi una década de desarrollo, se ha convertido en una tecnología central en los chips GPU de Nvidia, una parte importante de su ecosistema, resolviendo eficazmente el problema de la interconexión de datos de alto ancho de banda y baja latencia entre chips GPU y cambiando la arquitectura informática tradicional. Sin embargo, dado que esta tecnología es exclusiva de Nvidia, otras empresas de chips de IA solo pueden utilizar PCIe u otros protocolos de interconexión. Al mismo tiempo, Nvidia está explorando el uso de la interconexión óptica para lograr la conexión entre GPU, como se muestra en la siguiente figura, donde el chip fotónico de silicio y la GPU están empaquetados juntos, y las fibras ópticas conectan dos chips de GPU.
Fuente: https://www.nextplatform.com/2022/08/17/nvidia-shows-what-optically-linked-gpu-systems-might-look-like/
Productos relacionados:
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $900.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $1200.00
- NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $1200.00
- NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $1550.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1550.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $1350.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $300.00
- Compatible con NVIDIA MFP7E10-N010 10 m (33 pies) 8 fibras Baja pérdida de inserción Hembra a hembra Cable troncal MPO Polaridad B APC a APC LSZH multimodo OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT Compatible 3 m (10 pies) 800G OSFP de doble puerto a 2x400G OSFP de parte superior plana InfiniBand NDR Breakout DAC $495.00
- Cable de cobre de conexión directa, 7m (70 pies), 002G, doble puerto, 2x7G OSFP a 400x2G QSFP200, Compatible con NVIDIA MCP4Y100-H56 $250.00
- Cable de cobre activo InfiniBand NDR de 4 m (80 pies) compatible con NVIDIA MCA003J3-N10-FTF de doble puerto 800x2G OSFP a 400x2G OSFP, parte superior plana en un extremo y parte superior con aletas en el otro $600.00
- NVIDIA MCP7Y10-N002 Compatible con 2m (7 pies) 800G InfiniBand NDR OSFP de doble puerto a DAC de ruptura 2x400G QSFP112 $680.00