Hardware de computação de IA: ConnectX-8 SuperNIC

Portfolio de Produtos

O ConnectX-8 SuperNIC é a placa de interface de rede inteligente de sétima geração da NVIDIA, projetada para clusters de computação de IA de última geração, data centers de grande porte e cenários de computação de alto desempenho (HPC). Ele integra profundamente a aceleração de rede e os recursos de descarregamento computacional, fornecendo suporte de ultra-alta velocidade para 400GbE/800GbE. Por meio do descarregamento de protocolo em nível de hardware e da co-otimização GPU-NIC, ele reduz significativamente a latência da rede e aprimora a eficiência da taxa de transferência, oferecendo latência ultrabaixa e recursos de transmissão de rede sem perdas para treinamento de IA, inferência e cenários de armazenamento distribuído.

Placa de rede ConnectX-8 SuperNIC

Protocolos de software e funções de aceleração

O ConnectX-8 SuperNIC otimiza o desempenho da rede full-stack por meio da colaboração profunda da pilha de protocolos de software e do mecanismo de aceleração de hardware:

Suporte de protocolo

  • RDMA/RoCEv2: Baseado em Ethernet convergente para acesso remoto direto à memória, alcançando transferência de dados sem cópia com latência de até submicrossegundos.
  • Tecnologia GPUDirect: Suporta GPUDirect RDMA e GPUDirect Storage, permitindo interação direta de dados de GPU para armazenamento/NIC, ignorando a CPU.
  • NVIDIA SHARPv3: aceleração de hardware de comunicação agregada com suporte a AllReduce, Broadcast e outras operações para melhorar a eficiência do treinamento de IA.
  • Descarregamento de hardware TLS/IPsec: suporta criptografia e descriptografia completa de tráfego sem perda de desempenho.

Ecossistema de software

  1. DOCA 2.0 (Data Center Infrastructure-on-a-Chip Architecture): fornece uma estrutura de desenvolvimento orientada por API que oferece suporte a funções de aceleração de plano de dados definidas pelo usuário (por exemplo, orquestração colaborativa de DPU).
  2. Integração profunda com o ecossistema CUDA: otimiza a eficiência da comunicação entre nós de várias GPUs por meio da biblioteca NCCL.
Protocolos de software e funções de aceleração

Arquitetura de Hardware e Design de Conectividade

Interface Host

PCIe 5.0 x16, largura de banda teórica de 128 GB/s, liberando totalmente o desempenho de rede de 400 G/800 G.

interface de rede

Suporta OSFP800 112GbE de porta única ou porta dupla 400 GbE QSFP112 configurações flexíveis.

Compatível com versões anteriores de velocidades de 200GbE/100GbE, adaptando-se à infraestrutura existente.

Motor de aceleração no chip

Integra ASICs dedicados que oferecem suporte ao gerenciamento de tabelas de fluxo, controle de congestionamento (DCQCN), verificação de pacotes e outros descarregamentos completos de hardware.

400G QSFP112

Arquitetura de rede e conectividade

O ConnectX-8 SuperNIC oferece suporte a redes de arquitetura CLOS multicamadas, criando clusters de computação de IA de alta largura de banda e sem bloqueio

Conexão de nó único

Cada servidor implanta 1-2 NICs ConnectX-8, interconectadas com o host por meio de PCIe 5.0.

Cada porta se conecta diretamente ao switch leaf via fibra óptica QSFP-DD, formando redundância de uplink duplo.

Rede de cluster

  1. Leaf Switch: série NVIDIA Quantum-3 (800G) ou série Spectrum-4 (400G), com suporte para RoCEv2 e roteamento adaptável.
  2. Spine Switch: Totalmente interconectado com switches leaf por meio de portas de alta velocidade de 800G, fornecendo largura de banda sem bloqueio.
  3. Arquitetura de folha de lombada
  4. Rede direta de GPU: GPUs multinós obtêm acesso direto à memória entre nós via RDMA, formando um cluster de treinamento distribuído.
Arquitetura de rede e conectividade

Módulos Ópticos e Seleção de Fibras

Módulos Ópticos

Cenários 800G: OSFP112 800G-SR8/VR8 (multimodo, 100 m) / 800G-DR8 (modo único, 500 m).

OSFP-800G-DR8D

Cenários 400G: QSFP112 400G-VR4/SR4/DR4.

Tipos de fibra:

QSFP112 400G SR4

Multimodo (MMF): OM5/OM4 (850 nm, suportando 400G-SR8 até 100 m).

Modo único (SMF): OS2 (1310 nm/1550 nm, suportando transmissão de longa distância acima de 10 km).

Tipos de fibra
especificação do produto

Switches compatíveis e colaboração de ecossistema

Interruptores NVIDIA:

Quantum-3: Banda InfiniBand 800G switch com suporte à aceleração de comunicação agregada SHARPv3.

Spectrum-4: switch Ethernet 400G com suporte para RoCEv2 e agendamento de tráfego inteligente.

Switches de terceiros:

Arista 7800R3 (800G), Cisco Nexus 92300YC (400G): Garanta suporte para balanceamento de carga RoCEv2 e ECMP.

Switches compatíveis e colaboração de ecossistema

Deixe um comentário

Voltar ao Topo