O que é rede InfiniBand e a diferença com Ethernet?

O que é a rede InfiniBand?

A arquitetura InfiniBand traz consolidação de malha para o data center. A rede de armazenamento pode ser executada simultaneamente com malhas de cluster, comunicação e gerenciamento sobre a mesma infraestrutura, preservando o comportamento de várias malhas.

InfiniBand é uma tecnologia de interconexão de rede de padrão aberto com alta largura de banda, baixo atraso e alta confiabilidade. Esta tecnologia é definida pela IBTA (aliança comercial InfiniBand). Esta tecnologia é amplamente utilizada no campo de cluster de supercomputadores. Ao mesmo tempo, com o surgimento da inteligência artificial, é também a tecnologia de interconexão de rede preferida para servidores GPU.

A interconexão de alta velocidade (HSI) tornou-se a chave para o desenvolvimento de computadores de alto desempenho, pois o poder de computação da Unidade Central de Processamento (CPU) está aumentando em um ritmo muito rápido. HSI é uma nova tecnologia proposta para melhorar o desempenho da Peripheral Component Interface (PCI). Após anos de desenvolvimento, os HSIs que suportam a Computação de Alto Desempenho (HPC) agora são principalmente Gigabit Ethernet e InfiniBand, dos quais o InfiniBand é o HSI de mais rápido crescimento. InfiniBand é uma tecnologia de alto desempenho e baixa latência desenvolvida sob a supervisão da InfiniBand Trade Association (IBTA).

A IBTA foi fundada em 1999 como uma fusão de duas organizações da indústria, Future I/O Developers Forum e NGI/O Forum. Ele trabalha sob a liderança de um comitê operacional e de planejamento composto por HP, IBM, Intel, Mellanox, Oracle, QLogic, Dell, Bull e outros. A IBTA é especializada em conformidade de produtos e testes de interoperabilidade, e seus membros têm trabalhado para promover o estabelecimento e a atualização da especificação InfiniBand.

O padrão InfiniBand suporta sinalização de taxa de dados única (SDR) a uma taxa básica de 2.5 Gbits / s por pista para permitir taxa de dados brutos de 10 Gbits / s em cabos 4X (o tipo de cabo InfiniBand mais comum usado). A sinalização de taxa de dados dupla (DDR) e taxa de dados quádrupla (QDR) permite que pistas únicas sejam escaladas até 5 Gbits / seg e 10 Gbits / seg por pista, respectivamente, para uma taxa de dados máxima potencial de 40 Gbits / seg em 4X e 120 Gbits / seg. mais de cabos 12X.

Comparação de tecnologias de rede

Comparação de tecnologias de rede

Atualmente, o mais recente produto InfiniBand é o HDR produzido pela Mellanox, que pode fornecer largura de banda de ponta a ponta de até 200 gbps para a rede, trazer experiência de rede incomparável para computação de alto desempenho, inteligência artificial e outros campos, e maximizar o potencial de computação no cluster.

Como uma tecnologia de interconexão de cluster de computador, o InfiniBand tem vantagens significativas sobre Ethernet/Fibre Channel e a obsoleta tecnologia Omni-Path, e é a principal tecnologia de comunicação de rede recomendada pela InfiniBand Trade Association (IBTA). Desde 2014, a maioria dos supercomputadores TOP500 adotaram a tecnologia de rede InfiniBand. Nos últimos anos, os aplicativos relacionados a IA/Big Data também adotaram redes IB em larga escala para obter implantações de cluster de alto desempenho, com 62% dos centros de supercomputação Top100 usando a tecnologia InfiniBand (dados de junho de 2022).

top 100 infiniband

Visão geral do InfiniBand

InfiniBand é um link de comunicação para fluxo de dados entre processadores e dispositivos de E/S, suportando até 64,000 dispositivos endereçáveis. Arquitetura InfiniBand (IBA) é uma especificação padrão do setor que define uma estrutura de entrada/saída comutada ponto a ponto para interconectar servidores, infraestrutura de comunicações, dispositivos de armazenamento e sistemas embarcados.

O InfiniBand é ideal para conectar vários fluxos de dados (clustering, comunicação, armazenamento, gerenciamento) em uma única conexão, com milhares de nós interconectados, devido à sua difusão, baixa latência, alta largura de banda e baixo custo de gerenciamento. A menor unidade IBA completa é uma sub-rede, e várias sub-redes são conectadas por roteadores para formar uma grande rede IBA.

Os sistemas InfiniBand consistem em adaptadores de canal, switches, roteadores, cabos e conectores. O CA é dividido em um adaptador de canal de host (HCA) e um adaptador de canal de destino (TCA). Os switches IBA são semelhantes em princípio a outros switches de rede padrão, mas devem atender aos requisitos de alto desempenho e baixo custo do InfiniBand. Um HCA é um ponto de dispositivo através do qual um nó final IB, como um servidor ou dispositivo de armazenamento, se conecta a uma rede IB. Os TCAs são uma forma especial de adaptadores de canal, usados ​​principalmente em ambientes embarcados, como dispositivos de armazenamento.

A arquitetura InfiniBand é mostrada na figura.

arquitetura infiniband

O que é 200G InfiniBand HDR?

InfiniBand suporta transmissão SDR/DDR/QDR/FDR/EDR para aumentar a largura de banda do link. Recentemente, a Mellanox lançou 200G InfiniBand com suporte para HDR. Mellanox lançado recentemente Banda InfiniBand 200G com suporte HDR. Mellanox 200Gb / s As redes HDR InfiniBand suportam latência ultrabaixa, alta taxa de transferência de dados e mecanismos inteligentes de aceleração de computação de rede. Os usuários podem usar drivers de software Mellanox padrão na nuvem, assim como fariam em um ambiente Bare Metal. Com suporte para verbos RDMA, todos os softwares MPI baseados em InfiniBand, como Mellanox HPC-X, MVAPICH2, Platform MPI, Intel MPI e outros, podem ser usados.

Além disso, os usuários também podem tirar proveito do hardware offRecurso de carga de comunicação de cluster MPI para ganhos de desempenho adicionais, o que também melhora a eficiência dos aplicativos de negócios. O 200G InfiniBand possui uma ampla gama de aplicativos, incluindo mecanismos de aceleração de computação em rede, adaptadores HDR InfiniBand, switches HDR InfiniBand Quantum e cabeamento 200G.

Aplicativos InfiniBand

Aplicativos InfiniBand

Quanto ao cabeamento 200G InfiniBand, a peça final da solução Mellanox 200Gbs é sua linha de Cabos LinkX. Melanox offers direct-attach cabos de cobre 200G que alcançam até 3 metros e 2 x 100G splitter cabos breakout para habilitar links HDR100, bem como cabos ópticos ativos 200G que alcançam até 100 metros. Todos os cabos LinkX na linha de 200 Gb / s vêm em pacotes QSFP56 padrão.

Quais são as vantagens da rede InfiniBand?

  • Links seriais de alta largura de banda

- SDR: 10 Gb / s

- DDR: 20 Gb / s

- QDR: 40 Gb / s

- FDR: 56 Gb / s

- EDR: 100 Gb / s

- HDR: 200 Gb / s

- NDR: 400 Gb/s

  • Latência ultra baixa

- Menor de 1 ano, aplicação a aplicação

  • Tecido confiável, sem perdas e autogerenciado

- Controle de fluxo de nível de link

- Controle de congestionamento para evitar o bloqueio HOL

  • CPU cheia Offcarregar

- Protocolo de transporte confiável baseado em hardware

- Kernel Bypass (aplicativos de nível de usuário obtêm acesso direto ao hardware)

  • Memória exposta ao acesso de nó remoto - RDMA-leitura e RDMA-gravação

- Operações atômicas

  • Qualidade de serviço

- Canais de E / S independentes no nível do adaptador

- Vias virtuais no nível do link

  • Escalabilidade / flexibilidade do cluster

- Até 48K nós na sub-rede, até 2 ^ 128 na rede

- Rotas paralelas entre nós finais

- Múltiplas topologias de cluster possíveis

  • Gerenciamento de cluster simplificado

- Gerente de rota centralizado

- Diagnósticos e atualizações em banda

O que é uma Rede Ethernet?

Ethernet refere-se ao padrão de especificação de LAN de banda base criado pela empresa Xerox e desenvolvido em conjunto pela Xerox, Intel e empresa DEC. O padrão Ethernet geral foi lançado em 30 de setembro de 1980. É o padrão de protocolo de comunicação mais geral adotado pela LAN existente. Ele transmite e recebe dados através de cabos. Rede Ethernet é usado para criar redes locais e conectar vários computadores ou outros dispositivos, como impressoras, scanners e assim por diante. Numa rede com fio, isso é feito com a ajuda de cabos de fibra óptica, enquanto numa rede sem fio, isso é feito através da tecnologia de rede sem fio. Os principais tipos de redes Ethernet são Fast Ethernet, Gigabit Ethernet, 10-Gigabit Ethernet e Switch Ethernet.

Atualmente, a Organização de Padrões IEEE 802.3 organizada pelo IEEE emitiu padrões de interface Ethernet de 100GE, 200GE e 400GE. A rede Ethernet é a tecnologia de transmissão com maior taxa atualmente.

InfiniBand versus Ethernet: Qual é a diferença?

Como tecnologias de interconexão, InfiniBand e Ethernet possuem características e diferenças próprias. Eles estão se desenvolvendo e evoluindo em seus diferentes campos de aplicação e se tornaram duas tecnologias de interconexão indispensáveis ​​em nosso mundo de rede.

Tipos de rede Ethernet

Tipos de Redes Ethernet

Em termos de rede Ethernet, juntamente com a tecnologia IP, constituem a pedra angular de toda a construção da Internet no mundo. Todas as pessoas e dispositivos inteligentes dependem da Ethernet para realizar a interconexão de todas as coisas, o que está relacionado à intenção original de seu design de obter melhor compatibilidade. Ele pode tornar diferentes sistemas melhor interconectados, o que faz com que a Ethernet tenha uma adaptabilidade muito forte desde o seu nascimento. Após décadas de desenvolvimento, tornou-se o padrão da Internet.

Em termos de rede InfiniBand, é um padrão de interconexão para resolver o gargalo de transmissão de dados em cenários de computação de alto desempenho. Tem sido posicionado como uma aplicação de alta qualidade desde a sua formulação. A interconexão não é a principal contradição e a comunicação de alto desempenho é o principal ponto de entrada. Infiniband é um novo tipo de conexão que foi lançado recentemente. A grande coisa sobre isso é a velocidade que os usuários recebem. Embora a velocidade da sua conexão dependa de qual fio você escolher, as velocidades para eles podem chegar a 40 Gbps ou mais.

Portanto, em comparação com a tecnologia Ethernet, InfiniBand é inerentemente diferente da Ethernet devido ao posicionamento diferente, principalmente em largura de banda, atraso, confiabilidade de rede e modo de rede. O InfiniBand cria diretamente um canal privado e protegido entre os nós por meio de switches para transmitir dados e mensagens sem a participação da CPU no acesso remoto direto à memória (RDMA). Uma extremidade do adaptador é conectada à CPU por meio da interface PCI Express e a outra extremidade é conectada à sub-rede InfiniBand por meio da porta de rede InfiniBand. Comparado com outros protocolos de comunicação de rede, isso oferece vantagens óbvias, incluindo maior largura de banda, menor latência e escalabilidade aprimorada.

InfiniBand vs Omni-Path: vantagens do InfiniBand sobre o Omni-Path

Embora a NVIDIA tenha lançado a solução InfiniBand 400G NDR, alguns clientes ainda estão usando a solução 100G. Para redes 100G de alto desempenho, existem duas soluções comuns, Omni-Path e InfiniBand, que têm a mesma taxa e desempenho semelhante, mas a estrutura de rede é muito diferente. Por exemplo, para um cluster de 400 nós, o InfiniBand requer apenas 15 switches NVIDIA Quantum série 8000 e 200 cabos de ramificação de 200 G e 200 cabos diretos de 200 G, enquanto o Omni-Path requer 24 switches e 876 cabos diretos de 100 G (384 nós). O InfiniBand é muito vantajoso no custo inicial do equipamento e no custo posterior de operação e manutenção, e o consumo geral de energia é muito menor do que o Omni-Path, que é mais ecológico.

Vantagens do InfiniBand sobre o Omni-Path

Introdução ao produto InfiniBand HDR

O EDR está sendo eliminado do mercado em termos de demanda do cliente, a taxa de NDR é muito alta e apenas os clientes principais estão tentando usá-lo. O HDR é amplamente utilizado com a flexibilidade do HDR 100G e HDR 200G.

Interruptor HDR

Existem dois tipos de switches HDR. Um é HDR CS8500. Um switch 29U fornece um máximo de 800 portas HDR 200 Gb/s, e cada porta de 200 GB pode ser dividida em 2X100G para suportar 1600 portas HDR100 100 Gb/s.

O outro tipo é a série QM8000. O painel 1U possui 40 portas QSFP200 56G, que podem ser divididas em 80 portas HDR 100G no máximo para conectar placas de rede 100G HDR. Ao mesmo tempo, cada porta também suporta EDR e se conecta diretamente à placa de rede do EDR. Deve-se notar que a porta 200G HDR só pode ser desacelerada para 100G e conectada ao adaptador de rede EDR e não pode ser dividida em 2X100G para conectar dois adaptadores de rede EDR.

HDR CS8500

Existem duas opções para o switch 200G HDR: QM8700 e QM8790. A única diferença entre os dois modelos é o modo de gerenciamento. O QM8700 fornece a interface de controle para gerenciamento fora de banda, enquanto o QM8790 requer a plataforma NVIDIA Unified Fabric Manager (UFM®) para gerenciamento.

Série QM8000

Para QM8700 e QM8790, existem duas opções de fluxo de ar para cada modelo de switch. Um deles é o 8790-HS2F para fluxo de ar P2C (fluxo de ar dianteiro e traseiro). O módulo do ventilador está marcado em azul. Se você não reconhecer as marcações, também poderá identificá-las passando a mão sobre a entrada e a saída de ar do interruptor.

8790-HS2R é a marca vermelha no módulo do ventilador do fluxo de ar C2P (duto frontal traseiro). Aqui P2C e C2P P significa Potência de alimentação, C significa Cabo (interface de linha), P2C (Energia para cabo), C2P (Cabo para alimentação) aqui o sistema de referência é Lado de alimentação de alimentação para a frente, Lado de interface de linha de cabo para trás.

8790-HS2R é a marca vermelha no módulo do ventilador do fluxo de ar C2P (duto frontal traseiro).

O QM8700 e o QM8790 são geralmente usados ​​de duas maneiras na prática, uma é interconectar com NICs 200G HDR usando diretamente 200G para 200G AOC/DAC; o outro uso comum é interconectar com NICs 100G HDR usando cabos de 200G a 2X100G, nos quais uma porta QSFP200 física de 4G (50X56G) do switch é dividida em 2 portas virtuais de 100G (2X50G). 4X50G) A porta QSFP56 do switch é dividida em duas portas virtuais 100G (2X50G), e após a divisão, o símbolo da porta é alterado de x/y para x/Y/z, onde “x/Y” indica o símbolo da porta antes da divisão, e “z” denota o número da porta de pista única resultante (1,2), e então cada porta subfísica é tratada como uma única porta.

O QM8700 e o QM8790 são geralmente usados ​​de duas maneiras na prática

Adaptador de Rede HDR

Os adaptadores de rede HDR são muito mais diversos do que os switches. O adaptador de rede HDR100 suporta uma taxa de transmissão de 100G. As duas portas HDR100 podem ser conectadas ao switch HDR por meio de cabos de 200G a 2x100G. Ao contrário da placa de rede 100G EDR, a porta 100G da placa de rede HDR100 suporta transmissão 4X25G NRZ e 2X50G PAM4. O HDR NIC suporta uma taxa de transmissão de 200G e pode ser conectado ao switch por meio de um cabo direto de 200G. Além das duas taxas de interface, você pode selecionar adaptadores de rede de porta única, porta dupla e PCIe de cada taxa com base nos requisitos de serviço. Os modelos comuns de adaptador de rede InfiniBand HDR fornecidos pela FiberMall são os seguintes:

Os modelos comuns de adaptador de rede InfiniBand HDR fornecidos pela FiberMall

A arquitetura de rede InfiniBand é simples, mas a seleção de soluções é variada. A taxa de 100G possui solução 100G EDR e solução 100G HDR; A taxa de 200 também possui duas opções HDR e 200G NDR. Os adaptadores de rede, conectores e switches usados ​​em diferentes soluções são bem diferentes.

Pacotes InfiniBand e transferência de dados

Um pacote é a unidade básica da transmissão de dados InfiniBand. Para que as informações se propaguem com eficiência em uma rede InfiniBand, as informações são divididas pelo adaptador de canal em vários pacotes. Um pacote IBA completo consiste nos campos Local Route Header, Global Route Header, Base Transport Header, Extended Transport Header, Payload (PYLD), Invariant CRC (ICRC) e Variant CRC (VCRC), conforme mostrado na figura abaixo.

formato de pacote de dados infiniband

LRH: 8 bytes, utilizados pelo switch para determinar as portas locais de origem e destino no encaminhamento de pacotes e para regular a classe de serviço e pista virtual (VL) para transmissão de pacotes.

RH: 40 bytes, usados ​​para rotear pacotes entre sub-redes e garantir a transmissão adequada de pacotes entre sub-redes. Ele é especificado pelo campo Link Next Header (LNH) no LRH, usando a especificação de cabeçalho IPv6 definida na RFC 2460.

BTH: 12 bytes, especificando o Queue Pair (QP) de destino, opcode de indicação, número de série do pacote e segmentação.

ETH: 4-28 bytes, fornecendo serviço de datagrama confiável. Carga útil (PYLD): 0-4096 bytes, os dados do aplicativo de ponta a ponta sendo enviados.

CICV: 4 bytes, encapsula os dados que permanecem inalterados no pacote conforme ele é enviado do endereço de origem para o endereço de destino.

VCRC: 2 bytes, encapsula a variável IBA e pacotes brutos (raw) durante o link.

O VCRC pode ser reconfigurado na malha.

Arquitetura em camadas InfiniBand

De acordo com a definição do IBTA, a arquitetura InfiniBand consiste em camada física, camada de enlace, camada de rede e camada de transporte, e sua arquitetura em camadas é mostrada na figura.

arquitetura em camadas infiniband

Camada física: A camada física serve a camada de enlace e fornece a interface lógica entre essas duas camadas. A camada física consiste em módulos como conectores de sinal de porta, conexões físicas (elétricas e ópticas), gerenciamento de hardware, gerenciamento de energia e linhas de codificação, cujas principais funções são:

(1) Estabelecimento de conexões físicas;

(2) Notificar a camada de enlace se uma conexão física é válida;

(3) Monitorar o status da conexão física, passar sinais de controle e dados para a camada de enlace quando a conexão física for válida e transmitir as informações de controle e dados provenientes da camada de enlace.

Camada de link: A camada de enlace é responsável por tratar o envio e recebimento de dados de enlace em pacotes, prestando serviços como endereçamento, buffering, controle de fluxo, detecção de erros e troca de dados. A qualidade de serviço (QoS) é refletida principalmente por esta camada. A máquina de estado é usada para definir as operações lógicas da camada de enlace como operações acessíveis externamente e não especifica operações internas.

Camada de rede: A camada de rede é responsável pelo roteamento de pacotes entre sub-redes IBA, incluindo operações unicast e multicast. A camada de rede não especifica roteamento multiprotocolo (por exemplo, roteamento IBA sobre tipos não IBA), nem especifica como os pacotes originais são roteados entre sub-redes IBA.

Camada de transporte: Cada dado IBA contém um cabeçalho de transporte. O cabeçalho de transporte contém as informações exigidas pelo nó final para executar a operação especificada. Ao manipular o QP, os clientes de comunicação do adaptador de canal IBA na camada de transporte formam uma fila de trabalho de “envio” e uma fila de trabalho de “recebimento”.

O mecanismo de comutação do InfiniBand

O Switched Fabric usado no InfiniBand é uma arquitetura de interconexão ponto a ponto baseada em switch voltada para tolerância a falhas e escalabilidade do sistema.

Os switches IBA são os blocos básicos de construção de roteamento para roteamento de sub-rede interna (a funcionalidade de roteamento entre sub-redes é fornecida pelos roteadores IBA). A interconexão de switches é realizada retransmitindo pacotes entre links.

Os switches InfiniBand implementam funções como Subnet Manager Agent (SMA), Performance Manager Agent (PMA) e Baseboard Manager Agent (BMA). O SMA fornece uma interface para gerentes de sub-rede obterem dados de registro e tabela dentro do switch por meio de pacotes de gerenciamento de sub-rede, implementando funções como notificação de mensagem, nível de serviço (SL) para mapeamento de faixa virtual (VL), arbitragem de VL, encaminhamento multicast e características do fornecedor . O PMA fornece uma interface para que os gerentes de desempenho monitorem as informações de desempenho, como taxa de transferência de dados e acúmulo de erros do switch. O BMA fornece um canal de comunicação entre o gerenciador da placa de base e o gerenciador da prateleira inferior.

As principais funções de encaminhamento de dados em switches InfiniBand são:

(1) Selecionando a porta de saída: Com base no identificador local de destino (DLID) do pacote, o switch descobre o número da porta de saída da tabela de encaminhamento.

(2) Selecione a saída VL: SL e VL são suportados e o switch determina o VL da porta de saída usada por pacotes de diferentes níveis de prioridade com base na tabela de mapeamento SL-VL.

(3) Controle de fluxo de dados: um mecanismo de controle de fluxo em nível de link baseado em crédito é usado.

(4) Suporte unicast, multicast e broadcast: O switch pode converter pacotes multicast ou pacotes broadcast em vários pacotes unicast para troca.

(5) Particionamento: Somente hosts na mesma partição podem se comunicar entre si. Cada partição possui uma chave de partição exclusiva e o switch verifica se o DLID do pacote está dentro da partição correspondente à chave.

(6) Verificação de erros: incluindo verificação de erro de inconsistência, verificação de erro de codificação, verificação de erro de enquadramento, verificação de comprimento de pacote, verificação de versão de cabeçalho de pacote, verificação de validade de nível de serviço, conformidade de controle de fluxo e verificação de unidade de transmissão máxima.

(7) Arbitragem VL: Suporta sub-rede VL (incluindo gerenciamento VL15 e dados VL). O switch usa arbitragem VL para garantir que os pacotes de alta prioridade sejam mais bem atendidos.

Atualmente, os principais fabricantes de switches InfiniBand são Mallanox, QLogic, Cisco, IBM, etc.

Para hosts, o lado do cliente da camada de transporte é uma camada de software Verbs, onde o cliente passa buffers ou comandos de e para essas filas, e o hardware passa dados de buffer de e para eles. Quando o QP é estabelecido, ele incorpora um dos quatro tipos de serviço de transporte IBA (conexão confiável, informações de autoendereçamento confiáveis, informações de autoendereçamento não confiáveis, conexão não confiável) ou um serviço encapsulado de protocolo não IBA. O serviço de transporte descreve como funcionam os dados de transporte de confiabilidade e QP e o que é transmitido.

Como parceiro de nível NVIDIA Elite, a FiberMall pode fornecer soluções InfiniBand de acordo com as diferentes necessidades dos clientes, e nossos engenheiros técnicos seniores têm uma vasta experiência em design de soluções de rede de alto desempenho InfiniBand e serviços de implementação de projetos e podem fornecer soluções ideais de acordo com diferentes cenários de aplicação. Podemos fornecer soluções de portfólio de switch QM8700/QM8790, HDR NIC, AOC/DAC/módulo óptico para obter superdesempenho e escalabilidade e melhorar o ROI para HPC, AI e outros aplicativos com menor custo e excelente desempenho.

Deixe um comentário

Voltar ao Topo