Arquitetura de Rede do Data Center
Arquitetura de barra transversal
- Um tipo de arquitetura derivada da primeira rede de comutação telefônica (crossbar switch)
- Consiste em múltiplas portas de entrada, múltiplas portas de saída e uma matriz de switch
- Muito flexível e eficiente, pode conseguir conexões arbitrárias entre diferentes dispositivos.
Arquitetura próxima
- Nasceu em 1952, proposto por uma pessoa chamada Charles Clos.
- A arquitetura Clos descreve principalmente a estrutura de uma rede de comutação de circuitos de vários estágios
- A arquitetura Clos é uma melhoria da estrutura crossbar, que pode fornecer uma rede sem bloqueio. A vantagem do Clos é que ele economiza custos e aumenta a eficiência.
Arquitetura Fat-Tree
Uma Fat-Tree é um tipo de arquitetura de rede CLOS.
Comparada com a estrutura tradicional da árvore, a Fat-Tree é mais parecida com uma árvore real, com galhos mais grossos perto da raiz. Das folhas à raiz, a largura de banda da rede não converge.
A ideia básica: usar um grande número de switches de baixo desempenho para construir uma rede sem bloqueio em grande escala. Para qualquer padrão de comunicação, existe sempre um caminho que permite atingir a largura de banda da placa de rede.
Depois que a arquitetura Fat-Tree foi introduzida no data center, o data center se tornou uma estrutura tradicional de três camadas:
Camada de acesso: usado para conectar todos os nós de computação. Geralmente na forma de um switch de rack (TOR, Top of Rack).
Camada de agregação: utilizado para interconexão da camada de acesso e como limite da segunda e terceira camadas da área de agregação. Vários serviços, como firewalls, balanceamento de carga, etc. também são implantados aqui.
Camada central: utilizado para interconexão da camada de agregação e para implementar a comunicação de terceira camada entre todo o data center e a rede externa.
As desvantagens da arquitetura Fat-Tree:
Desperdício de recursos: Na estrutura tradicional de três camadas, um switch da camada inferior será conectado a dois switches da camada superior por meio de dois links. Como o protocolo STP (Spanning Tree Protocol) é usado, apenas um link realmente transporta o tráfego. O outro uplink está bloqueado (usado apenas para backup). Isso causa desperdício de largura de banda.
Domínio de falha grande: O protocolo STP, devido ao seu próprio algoritmo, precisa reconvergir quando a topologia da rede muda, o que pode facilmente causar falhas e afetar a rede de toda a VLAN.
Não é adequado para tráfego leste-oeste: A comunicação entre servidores e servidores requer a passagem pelo switch de acesso, pelo switch de agregação e pelo switch principal.
Rede Spine-Leaf
Assim como a estrutura Fat-Tree, pertence ao modelo de rede CLOS.
Em comparação com a arquitetura de rede tradicional de três camadas, a rede Spine-Leaf foi achatada e transformada em uma arquitetura de duas camadas.
Switch Leaf, equivalente ao switch de acesso na arquitetura tradicional de três camadas, como TOR (Top Of Rack) conectado diretamente ao servidor físico. Acima do switch folha está a rede de terceira camada, cada uma é um domínio de transmissão L2 independente. Se os servidores sob switches de duas folhas precisarem se comunicar, eles precisarão ser encaminhados pelo switch de coluna.
Spine switch, equivalente ao core switch. Os switches leaf e Spine selecionam dinamicamente vários caminhos através do ECMP (Equal Cost Multi Path).
O número de portas de downlink do switch espinhal determina o número de switches leaf. O número de portas de uplink do switch leaf determina o número de switches de coluna. Eles determinam em conjunto a escala da rede Spine-Leaf.
As vantagens da rede Spine-Leaf
Alta utilização de largura de banda
O uplink de cada switch leaf funciona de maneira balanceada de carga, aproveitando ao máximo a largura de banda.
Latência de rede previsível
No modelo acima, o número de caminhos de comunicação entre switches leaf pode ser determinado, e apenas um switch de coluna é necessário para cada caminho. A latência da rede leste-oeste é previsível.
Boa escalabilidade
Quando a largura de banda é insuficiente, o número de switches de coluna pode ser aumentado para dimensionar a largura de banda horizontalmente. Quando o número de servidores aumenta, o número de switches de coluna também pode ser aumentado para expandir a escala do data center. O planejamento e a expansão são muito convenientes.
Requisitos reduzidos para switches
O tráfego norte-sul pode sair dos nós folha ou dos nós espinhais. O tráfego leste-oeste é distribuído em vários caminhos. Não são necessários switches caros de alto desempenho e alta largura de banda.
Alta segurança e disponibilidade
As redes tradicionais utilizam o protocolo STP, que irá reconvergir quando um dispositivo falhar, afetando o desempenho da rede ou até mesmo causando falhas. Na arquitetura Spine-Leaf, quando um dispositivo falha, não há necessidade de reconvergência e o tráfego continua a passar por outros caminhos normais. A conectividade da rede não é afetada e a largura de banda só é reduzida pela largura de banda de um caminho. O impacto no desempenho é insignificante.
InfiniBand
Protocolo RDMA (acesso remoto direto à memória)
No TCP/IP tradicional, os dados da placa de rede são primeiro copiados para a memória do kernel e depois copiados para o espaço de armazenamento do aplicativo, ou os dados são copiados do espaço do aplicativo para a memória do kernel e depois enviados para a Internet via a placa de rede. Este modo de operação de E/S requer a conversão da memória do kernel. Aumenta o comprimento do caminho de transmissão do fluxo de dados, aumenta a carga da CPU e também aumenta a latência de transmissão.
O mecanismo de bypass do kernel do RDMA permite leitura e gravação direta de dados entre o aplicativo e a placa de rede, reduzindo a latência de transmissão de dados dentro do servidor para perto de 1us.
Ao mesmo tempo, o mecanismo de cópia zero da memória RDMA permite que o receptor leia diretamente os dados da memória do remetente, ignorando a participação da memória do kernel, reduzindo significativamente a carga da CPU e melhorando a eficiência da CPU.
O histórico do InfiniBand
InfiniBand (abreviado como IB) é um poderoso protocolo de tecnologia de comunicação. Sua tradução para o inglês é “largura de banda infinita”. Nasceu na década de 1990, para substituir o barramento PCI (Peripheral Component Interconnect). O barramento PCI foi introduzido pela Intel na arquitetura do PC e a velocidade de atualização era lenta, o que limitava bastante o desempenho de E/S e se tornava o gargalo de todo o sistema.
A história de desenvolvimento do InfiniBand
Na década de 1990, Intel, Microsoft e SUN lideraram o desenvolvimento do padrão de tecnologia “Next Generation I/O (NGIO)”, enquanto IBM, Compaq e HP lideraram o desenvolvimento de “Future I/O (FIO)”.
Em 1999, o FIO Developers Forum e o NGIO Forum fundiram-se e estabeleceram o InfiniBand Associação Comercial (IBTA).
Em 2000, a especificação da arquitetura InfiniBand versão 1.0 foi offoficialmente liberado.
Em maio de 1999, vários funcionários que deixaram a Intel e a Galileo Technology fundaram uma empresa de chips em Israel e a chamaram de Mellanox.
Após a fundação da Mellanox, ela se juntou à NGIO. Mais tarde, Mellanox juntou-se ao campo InfiniBand. Em 2001, lançaram seu primeiro produto InfiniBand. Começando em
Em 2003, a InfiniBand voltou-se para um novo campo de aplicação, que é a interconexão de cluster de computadores.
Em 2004, nasceu outra importante organização sem fins lucrativos da InfiniBand - a OFA (Open Fabrics Alliance).
Em 2005, a InfiniBand encontrou outro novo cenário – a conexão de dispositivos de armazenamento.
Desde então, a InfiniBand entrou numa fase de rápido desenvolvimento.
Arquitetura de Rede InfiniBand
InfiniBand é uma estrutura baseada em canais, composta por quatro componentes principais:
- HCA (Host Channel Adapter), que conecta o host à rede InfiniBand.
- TCA (Target Channel Adapter), que conecta o dispositivo alvo (como armazenamento) à rede InfiniBand.
- O link InfiniBand, que pode ser um cabo, fibra ou link integrado, conecta os adaptadores de canal aos switches ou roteadores.
- Switch e roteador InfiniBand, que fornecem conectividade de rede e roteamento para a rede InfiniBand.
- Adaptadores de canal são usados para estabelecer canais InfiniBand. Todas as transmissões iniciam ou terminam com adaptadores de canal, para garantir segurança ou funcionar em um determinado nível de QoS (Qualidade de Serviço).
Mellanox, adquirido pela Nvidia em 2020. Desde então, tem sido amplamente utilizado no treinamento de grandes modelos de IA.
RoCE
O nascimento da RoCE
Em abril de 2010, a IBTA lançou o RoCE (RDMA over Converged Ethernet), que “portou” a tecnologia RDMA em InfiniBand para Ethernet. Em 2014, propuseram um RoCEv2 mais maduro. Com o RoCEv2, a Ethernet reduziu bastante a lacuna de desempenho técnico com o InfiniBand e, combinada com suas vantagens inerentes de custo e compatibilidade, começou a reagir.
RoCE V2
RoCE v1: Um protocolo RDMA baseado na camada de link Ethernet (o switch precisa suportar tecnologias de controle de fluxo como PFC, para garantir transmissão confiável na camada física), que permite a comunicação entre dois hosts na mesma VLAN. RoCE V2: Supera a limitação do RoCE v1 estar vinculado a uma única VLAN. Ao alterar o encapsulamento de pacotes, incluindo cabeçalhos IP e UDP, o RoCE 2 agora pode ser usado em redes L2 e L3.
Produtos relacionados:
- Mellanox MMA1B00-E100 Compatível 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP/MPO MMF DDM Módulo transceptor $50.00
- Mellanox MMA1T00-HS compatível com 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Módulo transceptor óptico $300.00
- Mellanox MMS1W50-HM Compatível 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2km LC SMF FEC Módulo Transceptor Óptico $650.00
- Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $1450.00
- NVIDIA MFP7E20-N050 compatível com 50m (164 pés) 8 fibras baixa perda de inserção fêmea para fêmea MPO12 a 2xMPO12 polaridade B APC para APC LSZH multimodo OM4 50/125 $145.00
- NVIDIA MFP7E20-N015 compatível com 15m (49 pés) 8 fibras baixa perda de inserção fêmea para fêmea MPO12 a 2xMPO12 polaridade B APC para APC LSZH multimodo OM3 50/125 $67.00
- Compatível com NVIDIA MFS1S90-H015E 15 m (49 pés) 2x200G QSFP56 a 2x200G QSFP56 PAM4 Breakout Cabo óptico ativo $830.00
- Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $1400.00
- Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $2000.00
- Compatível com NVIDIA MFS1S50-H015V 15m (49 pés) 200G InfiniBand HDR QSFP56 a 2x100G QSFP56 PAM4 Breakout Cabo óptico ativo $630.00
- Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $1400.00
- Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $2000.00
- Placa adaptadora NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI, HDR/200GbE, porta única QSFP56, PCIe3.0/4.0 x16, suporte alto $1400.00
- Mellanox MCP7H50-H003R26 Compatível com 3 m (10 pés) Infiniband HDR 200G QSFP56 a 2x100G QSFP56 PAM4 Cabo de cobre de conexão direta com breakout passivo $100.00
- Mellanox MFS1S50-H003E Compatível com 3 m (10 pés) 200 G HDR QSFP56 a 2x100 G QSFP56 PAM4 Cabo Óptico Ativo Breakout $605.00
- Placa adaptadora NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI, NDR/400G, OSFP de porta única, PCIe 5.0x 16, suporte alto $1650.00