Rede IB e produtos Mellanox

O que é IB-InfiniBand

IB, abreviação de InfiniBand (traduzido como ” Largura de banda infinita ”), é um padrão de comunicação de rede de computadores para computação de alto desempenho. A tecnologia IB, caracterizada por rendimento extremamente alto e latência extremamente baixa, é usada para interconexão de dados entre computadores. O InfiniBand também é usado como uma interconexão direta ou comutada entre servidores e sistemas de armazenamento, e como uma interconexão entre sistemas de armazenamento. Com o surgimento da IA, o IB também se tornou popular e atualmente é o método de rede preferido para clusters de servidores GPU de ponta.

Aqui está o histórico de desenvolvimento do InfiniBand:

  • 1999: A InfiniBand Trade Association (IBTA) lançou a arquitetura InfiniBand, que foi originalmente concebida para substituir o barramento PCI.
  • Em 2000, a versão 1.0 da especificação da arquitetura InfiniBand foi lançada oficialmente. Então, em 2001, o primeiro lote de produtos InfiniBand foi lançado, e muitos fabricantes começaram a lançar produtos que suportam InfiniBand, incluindo servidores, sistemas de armazenamento e equipamentos de rede.
  • Em 2003, graças ao seu alto rendimento e baixa latência, o InfiniBand voltou-se para uma nova área de aplicação – interconexão de cluster de computadores HPC, e foi amplamente utilizado nos supercomputadores TOP500 da época.
  • Em 2004, nasceu outra importante organização sem fins lucrativos da InfiniBand – a Open Fabrics Alliance (OFA).
  • Em 2005, o InfiniBand encontrou um novo cenário – a conexão de dispositivos de armazenamento, e tem sido continuamente atualizado e iterado desde então.
  • Em 2015, a tecnologia InfiniBand foi responsável por mais de 50% dos supercomputadores TOP500 pela primeira vez, atingindo 51.4%. Isso marca a primeira vez que a tecnologia InfiniBand ultrapassou a tecnologia Ethernet para se tornar a tecnologia de conexão interna mais popular em supercomputadores.
  • Desde 2023, o treinamento de grandes modelos de IA tem sido altamente dependente de clusters de computação de alto desempenho, e as redes InfiniBand são o melhor parceiro para clusters de computação de alto desempenho.

Principais vantagens do Mellanox e da IB Network

Relação entre Mellanox e InfiniBand

Atualmente, quando as pessoas mencionam IB, a primeira coisa que vem à mente é Mellanox. Em 2019, a NVIDIA gastou US$ 6.9 bilhões para adquirir a Mellanox como sua submarca. Jensen Huang disse publicamente: Esta é uma combinação de duas das principais empresas de computação de alto desempenho do mundo. A NVIDIA se concentra em computação acelerada, e a Mellanox se concentra em interconexão e armazenamento.

De acordo com as previsões das organizações do setor, o tamanho do mercado de InfiniBand atingirá US$ 98.37 bilhões em 2029, um aumento de 14.7 vezes em relação aos US$ 6.66 bilhões em 2021. Impulsionada pela computação de alto desempenho e IA, a InfiniBand tem um futuro brilhante.

 Arquitetura e recursos da rede InfiniBand

Um sistema InfiniBand consiste em adaptadores de canal, switches, roteadores, cabos e conectores, conforme mostrado na figura a seguir.

Sistema InfiniBand

Sistema InfiniBand

Os principais recursos são resumidos da seguinte forma:

  • Baixa latência: latência extremamente baixa e suporte nativo para RDMA
  • Alta largura de banda: capacidade de transmissão de dados de 400 Gb/s por porta
  • Facilidade de uso: Adequado para construir clusters de data center em larga escala

Rede IB e RDMA

Ao falar sobre rede IB, temos que mencionar RDMA. RDMA (Remote Direct Memory Access) foi criado para resolver o atraso do processamento de dados do lado do servidor na transmissão de rede. Ele pode acessar diretamente a memória de outro host ou servidor a partir da memória de um host ou servidor sem usar a CPU. Ele libera a CPU para executar seu trabalho. Infiniband é uma tecnologia de rede projetada especificamente para RDMA, e a rede IB suporta RDMA nativamente.

A razão pela qual a tecnologia RDMA é tão poderosa é seu mecanismo de bypass de kernel, que permite leitura e escrita direta de dados entre aplicativos e placas de rede, reduzindo a latência de transmissão de dados dentro do servidor para quase 1us. A Roce transplanta RDMA para Ethernet.

Comparação de duas soluções RDMA convencionais (IB e ROCEV2)

  • Em comparação com os data centers tradicionais, os novos requisitos de rede de comunicação do centro de computação inteligente são maiores, como baixa latência, grande largura de banda, estabilidade e grande escala.
  • O InfiniBand e o ROCEV2 baseados em RDMA podem atender às necessidades de redes de comunicação de centros de computação inteligentes.
  • Atualmente, o InfiniBand tem mais vantagens em desempenho do que o ROCEV2, enquanto o ROCEV2 tem vantagens sobre o InfiniBand em termos de economia e versatilidade.

Tomando a especificação inicial de SDR (taxa de dados única) como exemplo, a largura de banda do sinal original de um link 1X é de 2.5 Gbps, um link 4X é de 10 Gbps e um link 12X é de 30 Gbps. A largura de banda de dados real de um link 1X é de 2.0 Gbps (devido à codificação 8b/10b). Como o link é bidirecional, a largura de banda total relativa ao barramento é de 4 Gbps. Com o tempo, a largura de banda da rede do InfiniBand continua a melhorar.

O que significam os DRs em HDR e NDR? Cada DR representa a abreviação de cada geração da tecnologia IB. DR é um termo geral para taxa de dados, com 4 canais sendo o mainstream.

A figura a seguir mostra a largura de banda de rede do InfiniBand de SDR, DDR, QDR, FDR, EDR a HDR e NDR. A velocidade é baseada em 4x a velocidade do link. Atualmente, EDR, HDR e NDR são mainstream, correspondendo às plataformas de servidor PICE 3.0, 4.0 e 5.0.

Produtos NVIDIA InfiniBand mainstream – a mais recente situação da placa de rede NDR

O ConnectX-7 IB Card (HCA) tem uma variedade de fatores de forma, incluindo portas simples e duplas, suportando interfaces OSFP e QSFP112 e suportando taxas de 200 Gbps e 400 Gbps. O cartão de rede CX-7 suporta x16 PCle5.0 ou PCle 4.0, que está em conformidade com as especificações CEM. Até 16 pistas podem ser conectadas com suporte para uma placa auxiliar opcional que habilita 32 pistas de PCIe 4.0 usando a tecnologia NVIDIA Socket Direct®.

Outros fatores de forma incluem Open Compute Project (OCP) 3.0 com um conector OSFP, OCP 3.0 com um conector QSFP112 e CEM PCle x16 com um conector QSFP112.

A mais recente mudança NDR da Mellanox

Os switches IB da Mellanox são divididos em dois tipos: switches de configuração fixa e switches modulares. Entende-se que os switches da série NDR mais recentes não vendem mais switches de configuração modular (embora o site oficial mostre que eles estão disponíveis, eles não estão mais à venda).

O switch de configuração fixa da série MQM9700 da NDR é equipado com 32 conectores OSFP físicos e suporta 64 portas de 400 Gb/s (que podem ser divididas em até 128 portas de 200 Gb/s). A série de switches fornece um total de 51.2 Tb/s de throughput bidirecional (largura de banda do backplane) e espantosos 66.5 bilhões de pacotes por segundo (taxa de encaminhamento de pacotes).

O número de interfaces e velocidades dos submodelos são os mesmos, e as diferenças estão em se a função de gerenciamento é suportada, no método de fornecimento de energia e no método de dissipação de calor. Normalmente, um switch com funções de gerenciamento é suficiente.

Os mais recentes cabos e módulos de interconexão da Mellanox

Os cabos e transceptores LinkX da Mellanox são normalmente usados ​​para conectar switches ToR para baixo, para placas de rede de servidores GPU e CPU NVIDIA e dispositivos de armazenamento, e/ou para cima em aplicações de interconexão switch-to-switch em toda a infraestrutura de rede.

Cabo óptico ativo (AOC), cabo de cobre de conexão direta (DAC) e o novo DAC ativo chamado ACC, que incluem um circuito integrado de aprimoramento de sinal (IC) na extremidade do cabo.

Cabos e módulos de interconexão mais recentes da Mellanox

Switches para switches e switches para placas de rede podem ser interconectados por meio de cabos diferentes, e switch para placa de rede pode atingir interconexão 1 para 2 ou 4 para 1.

Topologia Mellanox NIC em H100

  • O módulo HGX é conectado logicamente ao cabeçote por meio de 4 ou 8 chips PCIE SW dentro da máquina H100.
  • Cada sw PCIE corresponde a duas placas GPU e duas placas de rede, e as oito placas 400G IB são projetadas para corresponder um a um com as oito placas H100.
  • Se estiver totalmente equipado com oito placas IB de 400G, serão necessárias outras conexões PCIE SW da CPU para adicionar outras placas de rede.

Topologia Mellanox NIC em H100

Voltar ao Topo