Servidores NVIDIA AI GPU: PCIe vs.

A tecnologia de interconexão de GPU da Nvidia possui dois tipos principais de slots de memória: PCIe e SXM. Essas duas interfaces têm funções e desempenho diferentes.

A interface PCIe é um protocolo geral amplamente utilizado. Embora tenha funções abrangentes, possui uma velocidade de transmissão relativamente lenta para interconexão de GPU. No entanto, as placas GPU de interface PCIe ainda podem se comunicar com a CPU e outras placas GPU no servidor por meio de slots PCIe. Além disso, eles também podem trocar dados com dispositivos em nós de servidores externos por meio de placas de rede. Se os usuários quiserem melhorar a velocidade de transmissão das placas GPU PCIe, eles podem usar a ponte NVLink para obter comunicação rápida entre GPU e CPU. No entanto, deve-se notar que este método normalmente suporta apenas a conexão entre duas placas GPU. Ou seja, as placas GPU PCIe geralmente precisam aparecer em pares, conectadas por NVLink Bridge, e transmitir dados através do canal PCIe. Vale ressaltar que o padrão PCIe mais recente tem um limite de 128 GB/s na largura de banda da rede.

Em contraste, a interface SXM foi projetada especificamente para alto desempenho Interconexão de GPU. Ele usa um protocolo dedicado disposto na placa de circuito, que permite ao SXM offmaior velocidade de transmissão e melhor suporte nativo a NVLink do que PCIe em termos de conexão entre placas. Sua largura de banda de memória também é superior à PCIe. A arquitetura SXM é especialmente adequada para conectar GPUs aos sistemas DGX e HGX proprietários da NVIDIA. Nestes sistemas, as GPUs baseadas em SXM são conectadas através de NVSwitch integrado na placa-mãe, sem depender de PCIe para comunicação. Este design permite que o SXM suporte até 8 GPUs interligadas, alcançando largura de banda muito alta. Por exemplo, o A100 e o H100 sem cortes podem atingir 600 GB/s e 900 GB/s de largura de banda, respectivamente, enquanto os A800 e H800 ligeiramente cortados podem atingir 400 GB/s de largura de banda.

GPU PCIe para GPU

Os usuários geralmente devem avaliar os prós e os contras das GPUs baseadas em PCIe ou SXM de acordo com seus cenários de aplicação específicos e requisitos de desempenho.

Introdução ao PCIe (PCI Express)

PCIe, abreviação de PCI Express, é um padrão avançado de barramento de expansão de computador, cujo objetivo principal é melhorar o rendimento de dados e a velocidade de comunicação entre dispositivos. Como um barramento de conexão full-duplex, a taxa de transferência de dados do PCIe depende do número de pistas. Cada pista consiste em dois pares de linhas de dados (uma para envio e outra para recepção) e cada par de linhas de dados contém duas linhas diferenciais. Por exemplo, X1 significa uma pista e quatro linhas de dados, que podem transferir dados de 1 bit por direção por ciclo de clock; enquanto X2 significa duas pistas e oito linhas de dados, que podem transferir dados de 2 bits por ciclo. Da mesma forma, também existem X12, X16, X32 e outras configurações.

PCI Express

Desde o lançamento do PCIe 1.0 em 2003, sua taxa de transmissão tem aumentado continuamente. PCIe 1.0 suporta uma taxa de transmissão de 250 MB/s por canal, com uma taxa de transmissão total de 2.5 GT/s. Em 2007, a especificação PCIe 2.0 dobrou a taxa de transmissão total para 5 GT/s, e a taxa de transmissão por canal também aumentou para 500 MB/s. Em 2022, a especificação PCIe 6.0 aumentou ainda mais a taxa de transmissão total para 64 GT/s. Em junho do mesmo ano, a aliança PCI-SIG anunciou a especificação PCIe 7.0, que deverá atingir uma taxa de transmissão unidirecional de canal único (x1) de 128 GT/s na versão final a ser lançada em 2025.    

Largura de banda PCIe

Cálculo de taxa de transferência PCIe

Ao calcular a taxa de transferência PCIe (ou largura de banda disponível), dois fatores precisam ser considerados: taxa de transmissão e esquema de codificação. A taxa de transmissão é geralmente expressa em GT/s (Giga Transições por segundo), que descreve o atributo de velocidade do protocolo de comunicação da camada física, em vez do número de bits transmitidos por segundo (Gbps). Isso ocorre porque a taxa de transmissão inclui bits de sobrecarga que não fornecem rendimento adicional. Por exemplo, PCIe 1.x e PCIe 2.x usam o esquema de codificação 8b/10b, o que significa que 20% da largura de banda do canal original é usada para sobrecarga.

Portanto, embora o protocolo PCIe 2.0 suporte uma taxa de transmissão de 5.0 GT/s, devido ao uso da solução de codificação 8b/10b, a taxa efetiva real de cada pista é 5*8/10=4 Gbps, ou 500 MB/ S. Da mesma forma, o protocolo PCIe 3.0 suporta uma taxa de transmissão de 8.0 GT/s, mas depois de usar o esquema de codificação 128b/130b, a taxa efetiva real de cada pista é de cerca de 7.877 Gbps, ou 984.6 MB/s.

A arquitetura PCIe consiste em dispositivos PCIe de diferentes tipos, como Root Complex (RC), Switch e Endpoint (EP). Dentre eles, o RC é o único na arquitetura de barramento, responsável por conectar os subsistemas de processador e memória aos dispositivos de E/S. A função do Switch é geralmente implementada por software, contendo duas ou mais pontes lógicas PCI para PCI (Ponte PCI-PCI) para garantir compatibilidade com dispositivos PCI existentes. Essa arquitetura fornece forte suporte para computação e comunicação de alto desempenho.

Ponto final

À medida que o poder de computação continua a aumentar, as placas multi-GPU tornam-se a chave para melhorar o desempenho. No entanto, o barramento PCIe tradicional tende a ser um gargalo na taxa de transferência de dados e na latência, limitando a eficiência e o desempenho da computação paralela da GPU.

Para resolver este problema, a NVIDIA introduziu a tecnologia GPUDirect P2P, que permite que as GPUs acessem diretamente a memória de outras GPUs através do PCI Express, reduzindo a latência da troca de dados. Mas mesmo assim, devido ao protocolo de barramento PCI Express e às limitações de topologia, ele ainda não consegue atender aos requisitos de largura de banda mais elevados. Por esse motivo, a NVIDIA lançou ainda a tecnologia de interconexão de alta velocidade NVLink. O NVLink visa acelerar a transferência de dados entre CPU e GPU, e GPU e GPU, fornecendo uma solução de interconexão mais eficiente e de baixa latência. Desde o seu primeiro lançamento em 2014, o NVLink tem sido continuamente atualizado e a largura de banda tem aumentado. Dos 100 GB/s do P160 aos 100 GB/s do V300 e depois aos 100 GB/s do A600, a largura de banda do NVLink tem aumentado, fornecendo forte suporte para computação de alto desempenho.

A interconexão de alta velocidade NVLink tem dois métodos principais de implementação: um é através de uma ponte e o outro é integrar a interface NVLink na placa-mãe. Ambos os métodos podem alcançar interconexão de alta velocidade entre GPUs e melhorar o desempenho do sistema.

nvidia nvswitch

NVSwitch: comunicação multi-GPU contínua e de alta largura de banda

Para resolver o problema de comunicação desequilibrada entre GPUs, a NVIDIA lançou o chip NVSwitch. NVSwitch é um chip físico (ASIC) semelhante a um switch, que pode conectar várias GPUs em alta velocidade através da interface NVLink. Ele pode criar um cluster de GPU de vários nós com alta largura de banda, permitindo que todas as GPUs trabalhem juntas em um cluster com conectividade de largura de banda total, melhorando assim a eficiência da comunicação e a largura de banda entre várias GPUs no servidor.

A combinação de NVLink e NVSwitch permite que a NVIDIA dimensione com eficiência o desempenho de IA para múltiplas GPUs, fornecendo suporte poderoso para computação de alto desempenho e aplicações de inteligência artificial. Desde o lançamento da primeira geração do NVSwitch em 2018, o NVSwitch evoluiu para a terceira geração. A terceira geração do NVSwitch é construída com o processo 4N da TSMC, e cada chip possui 64 portas NVLink 4.0, com taxa de comunicação de até 900GB/s entre GPUs. Esta tecnologia inovadora oferece um espaço de desenvolvimento mais amplo para futuras aplicações de computação de alto desempenho e inteligência artificial.

desempenho do nvlink

Deixe um comentário

Voltar ao Topo