A evolução do NVLink

NVLink é uma tecnologia desenvolvida pela NVIDIA para interconexão ponto a ponto de alta velocidade entre GPUs. O objetivo é superar a limitação de largura de banda da interconexão PCIe e permitir a comunicação de dados de baixa latência e alta largura de banda entre chips GPU, permitindo que trabalhem juntos de forma mais eficiente. Antes da introdução da tecnologia NVLink (antes de 2014), as GPUs precisavam ser interconectadas por meio de um switch PCIe, conforme mostrado na figura abaixo. O sinal da GPU tinha que passar primeiro pelo switch PCIe, onde o processamento de dados envolvia distribuição e agendamento da CPU, o que adicionava latência extra à rede e limitava o desempenho do sistema. Naquela época, o protocolo PCIe havia alcançado a Geração 3, com uma taxa de canal único de 8 Gb/s e uma largura de banda total de 16 GB/s (128 Gbps, 1 Byte = 8 bits) para 16 canais. À medida que o desempenho do chip GPU melhorava continuamente, a largura de banda de interconexão tornou-se um gargalo.

Interruptor PCle

Fonte: https://en.wikichip.org/wiki/nvidia/nvlink

Em 2014, o NVLink 1.0 foi lançado e aplicado ao chip P100, conforme mostrado na figura a seguir. Existem quatro NVlinks entre duas GPUs, cada link contendo oito pistas, cada uma com uma taxa de 20 Gb/s. Portanto, a largura de banda bidirecional de todo o sistema é de 160 GB/s, cinco vezes maior que a do PCIe3 x16.

SistemaMem

Fonte: https://en.wikichip.org/wiki/nvidia/nvlink

Cada NVLink consiste em 16 pares de linhas diferenciais, correspondendo a oito faixas de canais em ambas as direções, conforme mostrado na figura a seguir. As duas extremidades do par diferencial são PHYs, que contêm SerDes.

Cada NVLink consiste em 16 pares de linhas diferenciais

Fonte: https://www.nextplatform.com/2016/05/04/nvlink-takes-gpu-acceleration-next-level/

Com base no NVLink 1.0, uma estrutura de malha planar de quatro GPUs pode ser formada, com conexões ponto a ponto entre cada par. Oito GPUs correspondem a uma malha cúbica, que pode formar um servidor DGX-1. Isso também corresponde à configuração comum de oito placas, conforme mostrado na figura a seguir. Deve-se notar que, neste momento, as oito GPUs não formam uma conexão completa.

as oito GPUs

Fonte: https://developer.nvidia.com/blog/dgx-1-fastest-deep-learning-system/

Em 2017, a Nvidia lançou a segunda geração da tecnologia NVLink. Ele conecta dois chips GPU V100 com seis NVLinks, cada um composto por oito pistas. A taxa de cada pista é aumentada para 25 Gb/s, e a largura de banda bidirecional do sistema atinge 300 GB/s, quase o dobro do NVLink 1.0. Simultaneamente, para permitir a interconexão completa entre oito GPUs, a Nvidia introduziu a tecnologia NVSwitch. O NVSwitch 1.0 possui 18 portas, cada uma com largura de banda de 50 GB/s e largura de banda total de 900 GB/s. Cada NVSwitch reserva duas portas para conexão à CPU. Usando seis NVSwitches, uma conexão completa de oito chips GPU V100 pode ser estabelecida, conforme ilustrado na figura abaixo.

Fonte: https://en.wikichip.org/wiki/nvidia/nvswitch

O sistema DGX-2 é composto por duas placas conforme mostrado na figura abaixo, alcançando uma conexão total de 16 chips GPU.

Fonte: https://en.wikichip.org/wiki/nvidia/nvswitch

Em 2020 surgiu a tecnologia NVLink 3.0. Ele conecta dois chips GPU A100 com 12 NVLinks, cada um contendo quatro pistas. A velocidade de cada pista é de 50 Gb/s, e a largura de banda bidirecional do sistema chega a 600 GB/s, o dobro do NVLink 2.0. À medida que o número de NVLinks aumentou, o número de portas no NVSwitch também aumentou para 36, ​​cada uma com uma taxa de 50GB/s. O DGX A100 é composto por oito chips GPU A100 e quatro NVSwitches, conforme ilustrado na figura abaixo.

Tecnologia NVLink 3.0

Fonte: http://www.eventdrive.co.kr/2020/azwell/DGX_A100_Azwellplus.pdf

Em 2022, a tecnologia NVLink foi atualizada para a quarta geração, o que permite que dois chips GPU H100 se interconectem através de 18 links NVLink, cada link contendo 2 pistas, cada pista suportando uma taxa de 100 Gb/s PAM4, assim a largura de banda total bidirecional aumentou para 900 GB /s. O NVSwitch também foi atualizado para a terceira geração, cada NVSwitch suportando 64 portas, cada porta com uma taxa de 50GB/s. O DGX H100 consiste em 8 chips H100 e 4 chips NVSwitch, conforme mostrado na figura abaixo. Do outro lado de cada NVSwitch, vários Módulos ópticos 800G OSFP estão conectados. Tomando o primeiro NVSwitch à esquerda como exemplo, sua largura de banda total unidirecional no lado conectado à GPU é de 4Tbps (20NVLink200Gbps), e a largura de banda total no lado conectado ao módulo óptico também é de 4Tbps (5800Gbps), sendo que ambos são iguais em tamanho, formando uma rede sem bloqueio. Deve-se notar que a largura de banda no módulo óptico é unidirecional, enquanto nos chips AI geralmente é usada largura de banda bidirecional.

rede sem bloqueio

Fonte: https://blog.apnic.net/2023/08/10/large-language-models-the-hardware-connection/

O módulo transceptor óptico 800G OSFP SR8 foi projetado para links 400G InfiniBand NDR em fibra multimodo usando comprimento de onda de 850 nm. O módulo possui duas portas de modulação óptica 4G-PAM100 de 4 canais, cada uma usando um conector MTP/MPO-12. No vídeo abaixo, você verá como conectá-lo a outro dispositivo usando cabos de fibra breakout e como configurar o protocolo de switch baseado em InfiniBand ou Ethernet. Você também aprenderá sobre os principais recursos e benefícios do módulo 800G OSFP SR8, como alta largura de banda, baixo consumo de energia e hot pluggability.

A tabela a seguir resume os parâmetros de desempenho de cada geração do NVLink.

parâmetros de desempenho de cada geração de NVLink

Os parâmetros de cada geração de PCIe são mostrados na tabela a seguir.

parâmetros de cada geração de PCIe

Do ponto de vista da taxa de faixa única, o NVLink é geralmente cerca de duas vezes maior que o PCIe do mesmo período, e a vantagem da largura de banda total é ainda mais óbvia, o NVLink é cerca de cinco vezes a largura de banda total do PCIe. Foi superando e nunca parou.

NVLink, após quase uma década de desenvolvimento, tornou-se uma tecnologia central nos chips GPU da Nvidia, uma parte importante de seu ecossistema, resolvendo efetivamente o problema de interconexão de dados de alta largura de banda e baixa latência entre chips GPU e mudando a arquitetura de computação tradicional. No entanto, como esta tecnologia é exclusiva da Nvidia, outras empresas de chips de IA só podem usar PCIe ou outros protocolos de interconexão. Ao mesmo tempo, a Nvidia está explorando o uso de interconexão óptica para conseguir a conexão entre GPUs, conforme mostrado na figura abaixo, onde o chip fotônico de silício e a GPU são empacotados juntos, e as fibras ópticas conectam dois chips GPU.

gpu nvswitch conectado fotônico

Fonte: https://www.nextplatform.com/2022/08/17/nvidia-shows-what-opically-linked-gpu-systems-might-look-like/

Voltar ao Topo