A solução 400G/800G NDR da NVIDIA

Como uma tecnologia emergente, a inteligência artificial passou por um rápido desenvolvimento nos últimos anos. Entre eles, uma série de tecnologias de IA, como o ChatGPT, começaram a mudar gradualmente a produção e os estilos de vida. A otimização contínua de algoritmos de aprendizado profundo e a expansão dos conjuntos de dados de treinamento também levaram ao aumento dos recursos de computação necessários para treinar grandes modelos de linguagem, incluindo CPUs, GPUs e DPUs, que precisam ser conectados a servidores para treinamento de modelos por meio de redes. Portanto, a largura de banda e a latência da rede têm um impacto direto na velocidade e na eficiência do treinamento. Para resolver esse problema, a NVIDIA lançou a plataforma Quantum-2 InfiniBand, que oferece um poderoso desempenho de rede e recursos abrangentes para ajudar os desenvolvedores e pesquisadores de IA a superar as dificuldades.

Com base em sua compreensão das tendências de desenvolvimento de rede de alta velocidade e rica experiência na implementação de projetos de rede de alto desempenho, a NVIDIA apresentou a solução de rede NDR (Next Data Rate), construída com base na plataforma Quantum-2 InfiniBand. A solução NDR da NVIDIA consiste principalmente em switches Quantum-2 InfiniBand 800G (interfaces 2x400G NDR), adaptadores de host ConnectX-7 InfiniBand e conectores ópticos LinkX InfiniBand, destinados a fornecer desempenho de rede super forte de baixa latência e largura de banda alta para campos críticos como como computação de alto desempenho, data centers em nuvem de grande escala e inteligência artificial.

Os casos de uso incluem:

1. Conecte dois switches a uma velocidade de 800 Gb/s ou conecte-se a dois switches a uma velocidade de 400 Gb/s cada.

Para conectar dois switches baseados em OSFP, você pode usar dois transceptores OSFP de porta dupla (MMA4Z00-NS) e dois cabos de fibra multimodo retos (MFP7E10-Nxxx) até uma distância de 50 metros. Isso permitirá que você atinja uma velocidade de 800G (2x400G). Como alternativa, você pode rotear os dois cabos de fibra para dois switches diferentes para criar dois links separados de 400 Gb/s. As portas OSFP de porta dupla adicionais podem ser usadas para conectar a mais switches, se necessário.

mudar para mudar

2. Conecte-se a duas combinações de ConnectX-7 BlueField-3 com uma velocidade de 400G cada.

Ao usar um transceptor OSFP de porta dupla com dois cabos de fibra retos, você pode conectar até duas combinações de adaptadores e/ou DPU usando ConnectX-7 ou BlueField-3. Cada cabo tem quatro canais e pode se conectar a um transceptor 400G em qualquer OSFP (MMA4Z00-NS400) ou QSFP112 (MMA1Z00-NS400) para distâncias de até 50 metros. Os fatores de forma OSFP de porta única e QSFP112 têm os mesmos componentes eletrônicos, óticos e conectores óticos e consomem 8 watts de energia.

Observe que apenas ConnectX-7/OSFPs suportam o fator de forma OSFP de porta única, enquanto o fator de forma QSFP112 é usado em DPUs ConnectX-7/QSFP112s e/ou BlueField-3/QSFP112. Você pode usar qualquer combinação de ConnectX-7 e BlueField-3 usando OSFP ou QSFP112 no mesmo transceptor OSFP de porta dupla simultaneamente.

mudar para 2

3. Conecte-se a quatro combinações de ConnectX-7 e/ou BlueField-3 com uma velocidade de 200G cada.

Se quiser alternar até quatro combinações de adaptador e/ou DPU usando ConnectX-7 ou BlueField-3, você pode usar um transceptor OSFP de porta dupla com dois cabos divisores de fibra 1:2. Cada um dos dois cabos divisores de fibra 4:1 de 2 canais (MFP7E20-N0xx) pode se conectar a um transceptor 400G de até 50 metros em OSFP (MMA4Z00-NS400) ou QSFP112 (MMA1Z00-NS400) fator de forma. Os mesmos componentes eletrônicos, óticos e conectores óticos são usados ​​para fatores de forma OSFP de porta única e QSFP112. Quando você conecta as extremidades do canal de duas fibras, apenas duas pistas no transceptor 400G são ativadas, criando um dispositivo 200G. Isso também reduz automaticamente o consumo de energia dos transceptores 400G de 8 watts para 5.5 watts, enquanto o consumo de energia OSFP de porta dupla permanece em 15 watts.

Observe que apenas ConnectX-7/OSFPs são compatíveis com o fator de forma OSFP de porta única, enquanto o fator de forma QSFP112 é usado em DPUs ConnectX-7/QSFP112s e/ou BlueField-3/QSFP112. Você pode usar qualquer combinação de tipos ConnectX-7 e BlueField-3 no mesmo transceptor OSFP de porta dupla.

mudar para 4

4. Conecte o switch ao chassi da CPU DGX H100 “Viking” no complexo Cedar-7.

O sistema DGX-H100 é equipado com oito GPUs Hopper H100 localizadas no chassi superior, juntamente com duas CPUs, armazenamento e InfiniBand ou rede Ethernet na seção inferior do servidor. Para facilitar a comunicação entre GPUs, são usados ​​os cartões Cedar-7, que contêm oito ICs ConnectX-400 de 7 Gb/s montados em duas placas mezanino. Essas placas são conectadas internamente a quatro compartimentos OSFP 800G Twin-port com dissipadores de calor internos para fins de resfriamento.

Os switches que suportam 400G IB/EN requerem transceptores 2x400G com aletas devido às entradas de fluxo de ar reduzidas. Os links Cedar-7-to-Switch podem usar óptica de modo único ou multimodo ou cabos de cobre ativos (ACC) para conectividade InfiniBand ou Ethernet.

O transceptor Twin-port 2x400G fornece dois links 400G ConnectX-7 do DGX para o switch Quantum-2 ou Spectrum-4, reduzindo assim a complexidade e o número de transceptores necessários em comparação com o DGX A100. O DGX-H100 também suporta até quatro ConnectX-7 e/ou duas unidades de processamento de dados (DPUs) BlueField-3 em InfiniBand e/ou Ethernet para rede tradicional para armazenamento, clusters e gerenciamento.

Os slots de placa PCIe localizados em ambos os lados das gaiolas de GPU OSFP podem acomodar cabos e/ou transceptores separados para facilitar a rede adicional usando 400G ou 200G com dispositivos OSFP ou QSFP112.

mudar para dgx

InfiniBand Quântico-2 Interruptor

Os switches QM9700 e QM9790 da NVIDIA Quantum-2 são os principais switches IB (InfiniBand) no campo da inteligência artificial moderna e da computação de alto desempenho. Por meio de inovação tecnológica e serviços de teste de confiabilidade, a NVIDIA Networks fornece aos usuários excelentes serviços de aceleração de rede.

InfiniBand Quantum-2

Esses dois switches usam um design de chassi padrão de 1U, com um total de 32 interfaces físicas de 800G e suportam 64 portas NDR 400Gb/s InfiniBand (que podem ser divididas em até 128 portas de 200Gb/s). Eles oferecem suporte à tecnologia NVIDIA SHARP de terceira geração, controle de congestionamento avançado, roteamento adaptável e tecnologia de rede de autorrecuperação. Em comparação com os produtos HDR da geração anterior, o NDR fornece o dobro da velocidade da porta, três vezes a densidade da porta do switch, cinco vezes a capacidade do sistema do switch e 32 vezes a capacidade de aceleração do switch AI.

interruptor ndr

Os switches QM9700 e QM9790 são produtos para soluções InfiniBand montadas em rack, incluindo switches refrigerados a ar e líquido, bem como switches gerenciados e não gerenciados. Cada switch pode suportar uma largura de banda agregada bidirecional de 51.2 Tb/s e tem uma incrível capacidade de transferência de mais de 66.5 bilhões de pacotes por segundo (BPPS). Isso é cerca de cinco vezes a capacidade de comutação da geração anterior Quantum-1.

Na rede

Os switches QM9700 e QM9790 têm forte flexibilidade e podem suportar várias topologias de rede, como Fat Tree, DragonFly+ e Torus multidimensional. Eles também suportam compatibilidade com versões anteriores de produtos de gerações anteriores e possuem amplo suporte de sistema de software.

Quantum-2 ConnectX-7 placa de rede inteligente

A NVIDIA fornece placas de rede inteligentes NDR ou NDR200 NVIDIA ConnectX 7 de porta única ou dupla como uma solução Quantum-2. Usando a tecnologia NVIDIA Mellanox Socket Direct, esta placa de rede atinge 32 canais de PCIe Gen4. Projetado com tecnologia de 7 nanômetros, o ConnectX-7 contém 8 bilhões de transistores e tem uma taxa de transferência de dados que é o dobro do chip de rede líder em computação de alto desempenho, o NVIDIA ConnectX-6. Ele também dobra o desempenho de RDMA, GPUDirect Storage, GPUDirect RDMA e computação em rede.

O NDR HCA inclui vários núcleos de computação programáveis ​​que podem descarregar algoritmos de dados de pré-processamento e caminhos de controle de aplicativos da CPU ou GPU para a rede, proporcionando maior desempenho, escalabilidade e sobreposição entre tarefas de computação e comunicação. Esta placa de rede inteligente atende aos requisitos mais exigentes para empresas tradicionais e cargas de trabalho globais em inteligência artificial, computação científica e data centers em nuvem de grande escala.

Placa de rede inteligente Quantum-2 ConnectX-7

Conector óptico LinkX InfiniBand

FiberMall offoferece soluções flexíveis de conectividade óptica InfiniBand de 400 Gb/s, incluindo transceptores de modo único e multimodo, jumpers de fibra MPO, cabos de cobre ativos (ACC) e cabos de cobre passivos (DAC), para atender às necessidades de várias topologias de rede.

A solução inclui transceptores de porta dupla com conectores OSFP com aletas projetadas para switches de configuração fixa refrigerados a ar, enquanto aqueles com conectores OSFP planos são adequados para switches modulares refrigerados a líquido e HCA.

Para interconexão de switch, um novo módulo óptico 2xNDR (800 Gbps) com pacote OSFP pode ser usado para interconectar dois switches QM97XX. O design da aleta melhora significativamente a dissipação de calor dos módulos ópticos.

Para interconexão entre switches e HCA, a extremidade do switch usa um módulo óptico 2xNDR (800 Gbps) com pacote OSFP com aletas, enquanto a extremidade NIC usa um módulo plano Módulo óptico OSFP 400Gbps. Os jumpers de fibra MPO podem fornecer de 3 a 150 metros, e uma fibra divisora ​​de um para dois pode fornecer de 3 a 50 metros.

transceptor óptico

A conexão entre o switch e o HCA fornece uma solução usando DAC (até 1.5 metros) ou ACC (até 3 metros). Um cabo breakout de um a dois pode ser usado para conectar uma porta OSFP do switch (equipado com duas portas InfiniBand de 400 Gb/s) a dois HCAs independentes de 400 Gb/s. Um cabo breakout de um a quatro pode ser usado para conectar uma porta de switch OSFP do switch a quatro HCAs de 200 Gb/s.

conexão entre o switch e o HCA

Vantagens

A plataforma NVIDIA Quantum-2 InfiniBand é uma solução de rede de alto desempenho capaz de alcançar velocidades de transmissão de 400 Gb/s por porta. Ao implementar a tecnologia NVIDIA Port Splitting, ele atinge o dobro da velocidade na densidade da porta, três vezes a densidade da porta do switch e cinco vezes a capacidade do sistema do switch. Ao usar a topologia Dragonfly+, uma rede baseada em Quantum-2 pode atingir conectividade de 400 Gb/s para mais de um milhão de nós em três saltos, reduzindo o consumo de energia, a latência e os requisitos espaciais.

Em termos de desempenho, a NVIDIA introduziu a tecnologia SHARP de terceira geração (SHARPv3), que cria escalabilidade quase infinita para grande agregação de dados por meio de uma rede escalável com suporte para até 64 fluxos paralelos. Os recursos de aceleração de IA aumentaram 32 vezes em comparação com o produto HDR anterior.

Em termos de custos do usuário, o uso de dispositivos NDR pode reduzir a complexidade da rede e melhorar a eficiência. Ao atualizar a taxa posteriormente, apenas cabos e placas de rede precisam ser substituídos. As redes NDR exigem menos dispositivos do que aquelas que suportam a mesma rede, tornando-as mais econômicas para orçamentos gerais e investimentos futuros. Em comparação com o HDR anterior, os dispositivos NDR podem reduzir custos e melhorar a eficiência.

Deixe um comentário

Voltar ao Topo