2014: Introdução da Arquitetura Pascal com Tesla P100
Em 2014, a Nvidia lançou o Tesla P100 baseado na arquitetura Pascal. Esta GPU apresentou a tecnologia NVLink de primeira geração, permitindo comunicação de alta velocidade entre 4 ou 8 GPUs. A largura de banda de interconexão bidirecional do NVLink 1.0 era cinco vezes maior que a do PCIe 3.0×16. Aqui está o cálculo:
- PCIe 3.0×16: Largura de banda de comunicação bidirecional de 32 GB/s (1 GB x 16 x 2).
- NVLink 1.0: largura de banda de interconexão bidirecional de 160 GB/s (20 GB x 4 x 2).
Devido à ausência de chips NvSwitch, as GPUs foram interconectadas em uma topologia de malha, onde 160 GB/s representa a largura de banda total de uma GPU para quatro GPUs conectadas diretamente.

2017: Arquitetura Volta com V100
Em 2017, a Nvidia lançou a arquitetura Volta com a GPU V100. O NVLink do V100 aumentou a largura de banda unidirecional por link de 20 GB/s para 25 GB/s e o número de links de 4 para 6, aumentando a largura de banda total suportada da GPU NVLink para 300 GB/s. No entanto, o sistema V100 DGX-1 lançado em 2017 não apresentava o NvSwitch. A topologia era semelhante ao NVLink 1.0, com um aumento no número de links.

2018: Introdução do sistema V100 DGX-2
Para melhorar ainda mais a largura de banda de comunicação entre GPUs e o desempenho geral do sistema, a Nvidia lançou o sistema V100 DGX-2 em 2018. Este foi o primeiro sistema a incorporar o chip NvSwitch, permitindo interconectividade total entre 16 GPUs SXM V100 em um único sistema DGX-2.

O NVSwitch tem 18 portas NVLink, 8 conectando-se à GPU e 8 a outro chip NVSwitch em uma placa de base diferente. Cada placa de base contém seis NVSwitches para comunicação com outra placa de base.

2020: Arquitetura Ampere com A100
Em 2020, a Nvidia lançou a arquitetura Ampere com a GPU A100. Os chips NVLink e NVSwitch foram atualizados para as versões 3.0 e 2.0, respectivamente. Embora a largura de banda unidirecional por link permanecesse em 25 GB/s, o número de links aumentou para 12, resultando em uma largura de banda de interconexão bidirecional total de 600 GB/s. O sistema DGX A100 apresenta 6 chips NVSwitch 2.0, com cada GPU A100 interconectada por meio de 12 conexões NVLink aos 6 chips NVSwitch, garantindo dois links para cada NVSwitch.
A topologia lógica do sistema GPU é a seguinte:

Muitas pessoas não têm clareza sobre a relação lógica entre o módulo HGX e o “server head”. Abaixo está um diagrama mostrando que a placa-mãe da GPU SXM é interconectada com a placa-mãe do servidor por meio de links PCIe. O chip do switch PCIe (PCIeSw) é integrado à placa-mãe do server head. Tanto a placa de rede quanto os sinais NVMe U.2 PCIe também se originam do PCIeSw.

2022: Arquitetura Hopper com H100
A GPU H100, baseada na arquitetura Hopper, foi lançada em 2022 com NVLink e NVSwitch versões 4.0 e 3.0, respectivamente. Enquanto a largura de banda unidirecional por link permaneceu inalterada em 25 GB/s, o número de links aumentou para 18, resultando em uma largura de banda de interconexão bidirecional total de 900 GB/s. Cada GPU é interconectada com 4 NVSwitches usando um agrupamento 5+4+4+5.

As interfaces OSFP dos chips NVSwitch no sistema DGX são usadas para a rede de GPU maior da Nvidia, como na solução DGX H100 256 SuperPOD.

2024: Arquitetura Blackwell com B200
Em 2024, a Nvidia introduziu a arquitetura Blackwell com a GPU B200, apresentando as versões NVLink e NVSwitch 5.0 e 4.0, respectivamente. A largura de banda unidirecional por link dobrou para 50 GB/s, com 18 links, resultando em uma largura de banda de interconexão bidirecional total de 1.8 TB/s. Cada chip NVSwitch tem 72 portas NVLink 5.0, e cada GPU usa 9 conexões NVLink para dois chips NVSwitch.

Com o lançamento do B200, a Nvidia também introduziu o NVL72, um sistema de GPU integrado que utiliza o switch de rede NVLink para alcançar interconectividade total entre 72 GPUs.
A topologia lógica para interconectar as 72 GPUs usando 9 switches NVLink é a seguinte:

Cada GPU B200 tem 18 portas NVLink, resultando em um total de 1,296 conexões NVLink (72×18). Um único Switch Tray contém dois chips NVLink Switch, cada um fornecendo 72 interfaces (144 no total). Assim, 9 Switch Trays são necessárias para interconectar as 72 GPUs completamente.
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $650.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $850.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $750.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1100.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1200.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
-
Mellanox MMA1T00-HS compatível com 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Módulo transceptor óptico $200.00
-
NVIDIA MFP7E10-N010 compatível com 10 m (33 pés) 8 fibras baixa perda de inserção fêmea para fêmea MPO cabo tronco polaridade B APC para APC LSZH multimodo OM3 50/125 $47.00
-
Compatível com NVIDIA MCP7Y00-N003-FLT 3m (10 pés) 800G OSFP de porta dupla a 2x400G OSFP plano superior InfiniBand NDR Breakout DAC $275.00
-
NVIDIA MCP7Y70-H002 compatível com 2m (7 pés) 400G Twin-port 2x200G OSFP para 4x100G QSFP56 Passivo Breakout Direct Attach Cabo de cobre $155.00
-
NVIDIA MCA4J80-N003-FTF compatível com 3m (10 pés) 800G de porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR cabo de cobre ativo, parte superior plana em uma extremidade e parte superior com aletas na outra $600.00
-
NVIDIA MCP7Y10-N002 compatível com 2m (7 pés) 800G InfiniBand NDR OSFP de porta dupla para 2x400G QSFP112 Breakout DAC $200.00