Qual é a diferença entre InfiniBand e RoCE?

Arquitetura de Rede do Data Center

Arquitetura de barra transversal

  • Um tipo de arquitetura derivada da primeira rede de comutação telefônica (crossbar switch)
  • Consiste em múltiplas portas de entrada, múltiplas portas de saída e uma matriz de switch
  • Muito flexível e eficiente, pode conseguir conexões arbitrárias entre diferentes dispositivos.
Arquitetura de barra transversal

Arquitetura próxima

  • Nasceu em 1952, proposto por uma pessoa chamada Charles Clos.
  • A arquitetura Clos descreve principalmente a estrutura de uma rede de comutação de circuitos de vários estágios
  • A arquitetura Clos é uma melhoria da estrutura crossbar, que pode fornecer uma rede sem bloqueio. A vantagem do Clos é que ele economiza custos e aumenta a eficiência.
Arquitetura próxima

Arquitetura Fat-Tree

Uma Fat-Tree é um tipo de arquitetura de rede CLOS.

Comparada com a estrutura tradicional da árvore, a Fat-Tree é mais parecida com uma árvore real, com galhos mais grossos perto da raiz. Das folhas à raiz, a largura de banda da rede não converge.

A ideia básica: usar um grande número de switches de baixo desempenho para construir uma rede sem bloqueio em grande escala. Para qualquer padrão de comunicação, existe sempre um caminho que permite atingir a largura de banda da placa de rede.

Arquitetura Fat-Tree

Depois que a arquitetura Fat-Tree foi introduzida no data center, o data center se tornou uma estrutura tradicional de três camadas:

Camada de acesso: usado para conectar todos os nós de computação. Geralmente na forma de um switch de rack (TOR, Top of Rack).

Camada de agregação: utilizado para interconexão da camada de acesso e como limite da segunda e terceira camadas da área de agregação. Vários serviços, como firewalls, balanceamento de carga, etc. também são implantados aqui.

Camada central: utilizado para interconexão da camada de agregação e para implementar a comunicação de terceira camada entre todo o data center e a rede externa.

estrutura de três camadas

As desvantagens da arquitetura Fat-Tree:

Desperdício de recursos: Na estrutura tradicional de três camadas, um switch da camada inferior será conectado a dois switches da camada superior por meio de dois links. Como o protocolo STP (Spanning Tree Protocol) é usado, apenas um link realmente transporta o tráfego. O outro uplink está bloqueado (usado apenas para backup). Isso causa desperdício de largura de banda.

Domínio de falha grande: O protocolo STP, devido ao seu próprio algoritmo, precisa reconvergir quando a topologia da rede muda, o que pode facilmente causar falhas e afetar a rede de toda a VLAN.

Não é adequado para tráfego leste-oeste: A comunicação entre servidores e servidores requer a passagem pelo switch de acesso, pelo switch de agregação e pelo switch principal.

Não é adequado para tráfego leste-oeste

Rede Spine-Leaf

Assim como a estrutura Fat-Tree, pertence ao modelo de rede CLOS.

Em comparação com a arquitetura de rede tradicional de três camadas, a rede Spine-Leaf foi achatada e transformada em uma arquitetura de duas camadas.

Rede Spine-Leaf

Switch Leaf, equivalente ao switch de acesso na arquitetura tradicional de três camadas, como TOR (Top Of Rack) conectado diretamente ao servidor físico. Acima do switch folha está a rede de terceira camada, cada uma é um domínio de transmissão L2 independente. Se os servidores sob switches de duas folhas precisarem se comunicar, eles precisarão ser encaminhados pelo switch de coluna.

Spine switch, equivalente ao core switch. Os switches leaf e Spine selecionam dinamicamente vários caminhos através do ECMP (Equal Cost Multi Path).

O número de portas de downlink do switch espinhal determina o número de switches leaf. O número de portas de uplink do switch leaf determina o número de switches de coluna. Eles determinam em conjunto a escala da rede Spine-Leaf.

Topologia Spin-Leaf

As vantagens da rede Spine-Leaf

Alta utilização de largura de banda

O uplink de cada switch leaf funciona de maneira balanceada de carga, aproveitando ao máximo a largura de banda.

Latência de rede previsível

No modelo acima, o número de caminhos de comunicação entre switches leaf pode ser determinado, e apenas um switch de coluna é necessário para cada caminho. A latência da rede leste-oeste é previsível.

Boa escalabilidade

Quando a largura de banda é insuficiente, o número de switches de coluna pode ser aumentado para dimensionar a largura de banda horizontalmente. Quando o número de servidores aumenta, o número de switches de coluna também pode ser aumentado para expandir a escala do data center. O planejamento e a expansão são muito convenientes.

Requisitos reduzidos para switches

O tráfego norte-sul pode sair dos nós folha ou dos nós espinhais. O tráfego leste-oeste é distribuído em vários caminhos. Não são necessários switches caros de alto desempenho e alta largura de banda.

Alta segurança e disponibilidade

As redes tradicionais utilizam o protocolo STP, que irá reconvergir quando um dispositivo falhar, afetando o desempenho da rede ou até mesmo causando falhas. Na arquitetura Spine-Leaf, quando um dispositivo falha, não há necessidade de reconvergência e o tráfego continua a passar por outros caminhos normais. A conectividade da rede não é afetada e a largura de banda só é reduzida pela largura de banda de um caminho. O impacto no desempenho é insignificante.

InfiniBand

Protocolo RDMA (acesso remoto direto à memória)

No TCP/IP tradicional, os dados da placa de rede são primeiro copiados para a memória do kernel e depois copiados para o espaço de armazenamento do aplicativo, ou os dados são copiados do espaço do aplicativo para a memória do kernel e depois enviados para a Internet via a placa de rede. Este modo de operação de E/S requer a conversão da memória do kernel. Aumenta o comprimento do caminho de transmissão do fluxo de dados, aumenta a carga da CPU e também aumenta a latência de transmissão.

O mecanismo de bypass do kernel do RDMA permite leitura e gravação direta de dados entre o aplicativo e a placa de rede, reduzindo a latência de transmissão de dados dentro do servidor para perto de 1us.

Ao mesmo tempo, o mecanismo de cópia zero da memória RDMA permite que o receptor leia diretamente os dados da memória do remetente, ignorando a participação da memória do kernel, reduzindo significativamente a carga da CPU e melhorando a eficiência da CPU.

RDM
infiniband vs rdma

O histórico do InfiniBand

InfiniBand (abreviado como IB) é um poderoso protocolo de tecnologia de comunicação. Sua tradução para o inglês é “largura de banda infinita”. Nasceu na década de 1990, para substituir o barramento PCI (Peripheral Component Interconnect). O barramento PCI foi introduzido pela Intel na arquitetura do PC e a velocidade de atualização era lenta, o que limitava bastante o desempenho de E/S e se tornava o gargalo de todo o sistema.

O histórico do InfiniBand

A história de desenvolvimento do InfiniBand

Na década de 1990, Intel, Microsoft e SUN lideraram o desenvolvimento do padrão de tecnologia “Next Generation I/O (NGIO)”, enquanto IBM, Compaq e HP lideraram o desenvolvimento de “Future I/O (FIO)”.

Em 1999, o FIO Developers Forum e o NGIO Forum fundiram-se e estabeleceram o InfiniBand Associação Comercial (IBTA).

Em 2000, a especificação da arquitetura InfiniBand versão 1.0 foi offoficialmente liberado.

Em maio de 1999, vários funcionários que deixaram a Intel e a Galileo Technology fundaram uma empresa de chips em Israel e a chamaram de Mellanox.

Após a fundação da Mellanox, ela se juntou à NGIO. Mais tarde, Mellanox juntou-se ao campo InfiniBand. Em 2001, lançaram seu primeiro produto InfiniBand. Começando em

Em 2003, a InfiniBand voltou-se para um novo campo de aplicação, que é a interconexão de cluster de computadores.

Em 2004, nasceu outra importante organização sem fins lucrativos da InfiniBand - a OFA (Open Fabrics Alliance).

Em 2005, a InfiniBand encontrou outro novo cenário – a conexão de dispositivos de armazenamento.

Desde então, a InfiniBand entrou numa fase de rápido desenvolvimento.

A história de desenvolvimento do InfiniBand

Arquitetura de Rede InfiniBand

InfiniBand é uma estrutura baseada em canais, composta por quatro componentes principais:

  • HCA (Host Channel Adapter), que conecta o host à rede InfiniBand.
  • TCA (Target Channel Adapter), que conecta o dispositivo alvo (como armazenamento) à rede InfiniBand.
  • O link InfiniBand, que pode ser um cabo, fibra ou link integrado, conecta os adaptadores de canal aos switches ou roteadores.
  • Switch e roteador InfiniBand, que fornecem conectividade de rede e roteamento para a rede InfiniBand.
  • Adaptadores de canal são usados ​​para estabelecer canais InfiniBand. Todas as transmissões iniciam ou terminam com adaptadores de canal, para garantir segurança ou funcionar em um determinado nível de QoS (Qualidade de Serviço).
Arquitetura de Rede InfiniBand
sub-rede
camada infinita
mensagem infiniband
transmissão infinibanda
padrão de interface
taxa de interface

Mellanox, adquirido pela Nvidia em 2020. Desde então, tem sido amplamente utilizado no treinamento de grandes modelos de IA.

banda infinita

RoCE

O nascimento da RoCE

Em abril de 2010, a IBTA lançou o RoCE (RDMA over Converged Ethernet), que “portou” a tecnologia RDMA em InfiniBand para Ethernet. Em 2014, propuseram um RoCEv2 mais maduro. Com o RoCEv2, a Ethernet reduziu bastante a lacuna de desempenho técnico com o InfiniBand e, combinada com suas vantagens inerentes de custo e compatibilidade, começou a reagir.

RoCE

RoCE V2

RoCE v1: Um protocolo RDMA baseado na camada de link Ethernet (o switch precisa suportar tecnologias de controle de fluxo como PFC, para garantir transmissão confiável na camada física), que permite a comunicação entre dois hosts na mesma VLAN. RoCE V2: Supera a limitação do RoCE v1 estar vinculado a uma única VLAN. Ao alterar o encapsulamento de pacotes, incluindo cabeçalhos IP e UDP, o RoCE 2 agora pode ser usado em redes L2 e L3.

princípio de funcionamento do roce
estrutura da mensagem roce
IB e Roce

Deixe um comentário

Voltar ao Topo