2014: Introducción de la arquitectura Pascal con Tesla P100
En 2014, Nvidia lanzó la Tesla P100 basada en la arquitectura Pascal. Esta GPU incorporaba la tecnología NVLink de primera generación, que permitía una comunicación de alta velocidad entre 4 u 8 GPU. El ancho de banda de interconexión bidireccional de NVLink 1.0 era cinco veces superior al de PCIe 3.0×16. Este es el cálculo:
- PCIe 3.0×16: Ancho de banda de comunicación bidireccional de 32 GB/s (1 GBx16x2).
- NVLink 1.0: Ancho de banda de interconexión bidireccional de 160 GB/s (20 GBx4x2).
Debido a la ausencia de chips NvSwitch, las GPU se interconectaron en una topología de malla, donde 160 GB/s representan el ancho de banda total de una GPU a cuatro GPU conectadas directamente.

2017: Arquitectura Volta con V100
En 2017, Nvidia lanzó la arquitectura Volta con la GPU V100. El NVLink de la V100 aumentó el ancho de banda unidireccional por enlace de 20 GB/s a 25 GB/s y la cantidad de enlaces de 4 a 6, lo que elevó el ancho de banda total admitido por NVLink de la GPU a 300 GB/s. Sin embargo, el sistema V100 DGX-1 lanzado en 2017 no contaba con NvSwitch. La topología era similar a la de NVLink 1.0, con un aumento en la cantidad de enlaces.

2018: Introducción del sistema V100 DGX-2
Para mejorar aún más el ancho de banda de comunicación entre GPU y el rendimiento general del sistema, Nvidia presentó el sistema V100 DGX-2 en 2018. Este fue el primer sistema en incorporar el chip NvSwitch, lo que permitió la interconectividad total entre 16 GPU SXM V100 dentro de un solo sistema DGX-2.

El NVSwitch tiene 18 puertos NVLink, 8 de ellos conectados a la GPU y 8 a otro chip NVSwitch en una placa base diferente. Cada placa base contiene seis NVSwitches para comunicarse con otra placa base.

2020: Arquitectura Ampere con A100
En 2020, Nvidia lanzó la arquitectura Ampere con la GPU A100. Los chips NVLink y NVSwitch se actualizaron a las versiones 3.0 y 2.0, respectivamente. Aunque el ancho de banda unidireccional por enlace se mantuvo en 25 GB/s, la cantidad de enlaces aumentó a 12, lo que resultó en un ancho de banda de interconexión bidireccional total de 600 GB/s. El sistema DGX A100 cuenta con 6 chips NVSwitch 2.0, con cada GPU A100 interconectada a través de 12 conexiones NVLink a los 6 chips NVSwitch, lo que garantiza dos enlaces a cada NVSwitch.
La topología lógica del sistema GPU es la siguiente:

Mucha gente no tiene clara la relación lógica entre el módulo HGX y la “cabeza del servidor”. A continuación se muestra un diagrama que muestra que la placa base de la GPU SXM está interconectada con la placa base del servidor a través de enlaces PCIe. El chip del conmutador PCIe (PCIeSw) está integrado en la placa base de la cabeza del servidor. Tanto la tarjeta de red como las señales PCIe NVMe U.2 también se originan en el PCIeSw.

2022: Arquitectura Hopper con H100
La GPU H100, basada en la arquitectura Hopper, se lanzó en 2022 con las versiones NVLink y NVSwitch 4.0 y 3.0, respectivamente. Si bien el ancho de banda unidireccional por enlace se mantuvo sin cambios en 25 GB/s, la cantidad de enlaces aumentó a 18, lo que resultó en un ancho de banda de interconexión bidireccional total de 900 GB/s. Cada GPU está interconectada con 4 NVSwitches mediante una agrupación 5+4+4+5.

Las interfaces OSFP de los chips NVSwitch en el sistema DGX se utilizan para la red de GPU más grande de Nvidia, como en la solución DGX H100 256 SuperPOD.

2024: Arquitectura Blackwell con B200
En 2024, Nvidia presentó la arquitectura Blackwell con la GPU B200, que incluye las versiones NVLink y NVSwitch 5.0 y 4.0, respectivamente. El ancho de banda unidireccional por enlace se duplicó a 50 GB/s, con 18 enlaces, lo que da como resultado un ancho de banda de interconexión bidireccional total de 1.8 TB/s. Cada chip NVSwitch tiene 72 puertos NVLink 5.0 y cada GPU utiliza 9 conexiones NVLink a dos chips NVSwitch.

Con el lanzamiento del B200, Nvidia también presentó el NVL72, un sistema de GPU integrado que utiliza el conmutador de red NVLink para lograr una interconectividad total entre 72 GPU.
La topología lógica para interconectar las 72 GPU mediante 9 conmutadores NVLink es la siguiente:

Cada GPU B200 tiene 18 puertos NVLink, lo que da como resultado un total de 1,296 conexiones NVLink (72×18). Una sola bandeja de conmutación contiene dos chips de conmutación NVLink, cada uno de los cuales proporciona 72 interfaces (144 en total). Por lo tanto, se requieren 9 bandejas de conmutación para interconectar completamente las 72 GPU.
Productos relacionados:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $850.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $750.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $1100.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1200.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
-
Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $200.00
-
Compatible con NVIDIA MFP7E10-N010 10 m (33 pies) 8 fibras Baja pérdida de inserción Hembra a hembra Cable troncal MPO Polaridad B APC a APC LSZH multimodo OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT Compatible 3 m (10 pies) 800G OSFP de doble puerto a 2x400G OSFP de parte superior plana InfiniBand NDR Breakout DAC $275.00
-
Cable de cobre de conexión directa, 7m (70 pies), 002G, doble puerto, 2x7G OSFP a 400x2G QSFP200, Compatible con NVIDIA MCP4Y100-H56 $155.00
-
Cable de cobre activo InfiniBand NDR de 4 m (80 pies) compatible con NVIDIA MCA003J3-N10-FTF de doble puerto 800x2G OSFP a 400x2G OSFP, parte superior plana en un extremo y parte superior con aletas en el otro $600.00
-
NVIDIA MCP7Y10-N002 Compatible con 2m (7 pies) 800G InfiniBand NDR OSFP de doble puerto a DAC de ruptura 2x400G QSFP112 $200.00