Um protocolo de rede é uma coleção de regras, padrões ou convenções estabelecidas para troca de dados em uma rede de computadores. Em um nível legal, o protocolo OSI de sete camadas é um protocolo internacional.
Devido aos requisitos de HPC/AI para alta taxa de transferência de rede e baixa latência, o TCP/IP está gradualmente em transição para RDMA em data centers. O RDMA contém diferentes ramificações. Entre elas, o Infiniband é projetado especificamente para RDMA, o que garante transmissão confiável do nível de hardware. Ele tem tecnologia avançada, mas é caro. RoCE e iWARP são ambos baseados na tecnologia Ethernet RDMA.
Este artigo se concentra nos seguintes aspectos para discutir a relação entre switches e IA.
P: O que é um protocolo?
P: Qual é o papel dos switches na arquitetura do data center?
P: Switch NVIDIA = switch IB?
P: Como entender o NVIDIA SuperPOD?
P: Qual é o status quo do mercado de switches?
O que é um protocolo?
Um protocolo de rede é uma coleção de regras, padrões ou convenções estabelecidas para troca de dados em uma rede de computadores. Em um nível legal, o protocolo OSI de sete camadas é um protocolo internacional. Na década de 1980, para padronizar os métodos de comunicação entre computadores e atender às necessidades de redes abertas, foi proposto o protocolo OSI (Open System Interconnection), que adotou uma rede de sete camadas.
- Camada física: Resolve como o hardware se comunica entre si. Sua principal função é definir padrões de dispositivos físicos (como tipo de interface, taxa de transmissão, etc.) para atingir a transmissão de fluxos de bits (um fluxo de dados representado por 0 e 1).
- Camada de enlace de dados: As principais funções são codificação de quadros e controle de correção de erros. O trabalho específico é receber dados da camada física, encapsulá-los em quadros e, em seguida, transmiti-los para a camada superior. Da mesma forma, os dados da camada de rede podem ser divididos em fluxos de bits e transmitidos para a camada física. A função de correção de erros pode ser alcançada porque cada quadro inclui informações de verificação, além dos dados a serem transmitidos.
- Camada de rede: cria circuitos lógicos entre nós e encontra endereços por meio de IP (cada nó na rede tem um IP). Os dados transmitidos nessa camada são em pacotes.
- Camada de transporte: responsável por monitorar a qualidade da transmissão de dados. Se ocorrer perda de pacote, ele deve ser reenviado.
- Camada de sessão: A função principal é gerenciar conexões de sessão de dispositivos de rede.
- Camada de apresentação: responsável principalmente pela conversão de formato de dados, criptografia, etc.
- Camada de aplicação: fornece interfaces de aplicação, que podem fornecer diretamente aos usuários vários serviços de rede e concluir diversas tarefas de rede.
TCP/IP é uma pilha de protocolos que inclui vários protocolos. Esses protocolos podem ser divididos em quatro camadas, a saber, camada de aplicação, camada de transporte, camada de rede e camada de enlace de dados. Na verdade, o protocolo TCP/IP pode ser entendido como uma versão otimizada do protocolo OSI de sete camadas.

Comparação entre o modelo de rede OSI de sete camadas e o modelo TCP/IP de quatro camadas
Devido aos requisitos do HPC para alta taxa de transferência de rede e baixa latência, o TCP/IP está gradualmente em transição para RDMA. Existem várias desvantagens principais do TCP/IP:
Primeiro, há latência de dezenas de microssegundos. Como a pilha de protocolo TCP/IP requer múltiplas trocas de contexto durante a transmissão e depende da CPU para encapsulamento, a latência é relativamente longa.
Segundo, a CPU é muito carregada. A rede TCP/IP requer que a CPU do host participe da cópia de memória da pilha de protocolos várias vezes, e o coeficiente de correlação entre a carga da CPU e a largura de banda da rede é muito grande.
RDMA (Remote Direct Memory Access): pode acessar dados de memória diretamente pela interface de rede sem a intervenção do kernel do sistema operacional. Isso permite comunicação de rede de alta taxa de transferência e baixa latência, o que é particularmente adequado para uso em clusters de computadores massivamente paralelos.

Três modos de RDMA
O RDMA não especifica toda a pilha de protocolos, mas coloca altas demandas em transmissões específicas: por exemplo, nenhuma perda, alto rendimento e baixa latência, etc. O RDMA inclui diferentes ramificações, entre as quais o Infiniband é projetado especificamente para RDMA e garante transmissão confiável no nível de hardware. É tecnologicamente avançado, mas caro. RoCE e iWARP são ambos baseados na tecnologia Ethernet RDMA.
Qual é o papel dos switches na arquitetura do data center?
Switches e roteadores funcionam em níveis diferentes. O switch funciona na camada de link de dados e pode encapsular e encaminhar pacotes de dados com base na identificação MAC (endereço de hardware da placa de rede), permitindo que diferentes dispositivos se comuniquem entre si. Um roteador, também conhecido como seletor de caminho, funciona na camada de rede para obter interconexão, implementa endereçamento com base em IP e conecta diferentes sub-redes.
Os data centers tradicionais geralmente usam uma arquitetura de três camadas, a saber, a camada de acesso, a camada de agregação e a camada de núcleo. No entanto, em data centers pequenos, a existência da camada de agregação pode ser ignorada. Entre elas, a camada de acesso geralmente é conectada diretamente ao servidor, com o switch TOR (Top of Rack) sendo o mais comumente usado. A camada de agregação é o "intermediário (camada do meio)" entre a camada de acesso à rede e a camada de núcleo. Os switches de núcleo fornecem encaminhamento para pacotes que entram e saem do data center e fornecem conectividade para a camada de agregação.
Com o desenvolvimento da computação em nuvem, as desvantagens das redes tradicionais de três camadas tornaram-se mais proeminentes:
- Desperdício de largura de banda: Cada grupo de switches de agregação gerencia um POD (Point Of Delivery), e cada POD tem uma rede VLAN independente. O Spanning Tree Protocol (STP) é geralmente usado entre switches de agregação e switches de acesso. O STP disponibiliza apenas um switch de camada de agregação para uma rede VLAN, com outras camadas de agregação sendo bloqueadas. Isso também torna impossível expandir a camada de agregação horizontalmente.
- Grande domínio de falha: Devido ao algoritmo STP, a reconvergência é necessária quando a topologia da rede muda, o que é propenso a falhas.
- Longa latência: Com o desenvolvimento dos data centers, o tráfego leste-oeste aumentou significativamente, e a comunicação entre servidores na arquitetura de três camadas precisa passar por switches camada por camada, resultando em uma grande latência. Além disso, a pressão de trabalho dos switches principais e switches de agregação continua a aumentar, e as atualizações de desempenho também causam aumento de custos.
A arquitetura leaf-spine tem vantagens óbvias, incluindo design plano, baixa latência e alta largura de banda. A rede leaf-spine achata a rede, onde os switches leaf são equivalentes aos switches tradicionais da camada de acesso e os switches spine são semelhantes aos switches core.
Vários caminhos são selecionados dinamicamente entre switches leaf e spine por meio do ECMP (Equal Cost Multi Path). Quando não há gargalos nas portas de acesso e uplinks da camada Leaf, essa arquitetura atinge o não bloqueio. Como cada Leaf no Fabric é conectado a cada Spine, se um Spine falhar, o desempenho de throughput do data center só se degradará levemente.
Interruptor NVIDIA = interruptor IB?
Não. As plataformas NVIDIA Spectrum e Quantum são equipadas com switches Ethernet e IB.
Os switches IB são operados principalmente pelo fabricante mellanox, que a NVIDIA adquiriu com sucesso em 2020. Além disso, os switches da plataforma Spectrum da NVIDIA são baseados principalmente em Ethernet, e seus produtos estão em constante iteração. O Spectrum-4 lançado em 2022 é um produto switch 400G.

Plataformas NVIDIA Spectrum e Quantum
O Spectrum-X foi projetado para IA generativa e otimiza as limitações dos switches Ethernet tradicionais. Dois elementos-chave da plataforma NVIDIA Spectrum X são o switch Ethernet NVIDIA Spectrum-4 e o DPU NVIDIA BlueField-3.
Os principais benefícios do Spectrum-X incluem: Estender o RoCE para IA e Adaptive Routing (AR) para atingir o desempenho máximo da NVIDIA Collective Communications Library (NCCL). O NVIDIA Spectrum-X pode atingir até 95% de largura de banda efetiva na carga e escala de sistemas de hiperescala.
- Aproveite o isolamento de desempenho para garantir que, em um ambiente com vários inquilinos e vários trabalhos, um trabalho não afete outro.
- Garanta que a infraestrutura de rede continue a oferecer desempenho máximo em caso de falha de um componente de rede.
- Sincronize com o BlueField-3 DPU para desempenho ideal de NCCL e IA.
- Mantenha um desempenho consistente e estável em uma variedade de cargas de trabalho de IA, o que é essencial para atingir SLAs.
No modo de rede, IB ou Ethernet é uma questão importante. No mercado atual, a Ethernet ocupa a grande maioria da fatia de mercado, mas em alguns cenários de computação em larga escala, a IB se destaca. Na ISC 2021 Supercomputing Conference, a IB foi responsável por 70% dos sistemas TOP10 e 65% dos sistemas TOP100. À medida que o escopo de consideração cresce, a fatia de mercado da IB diminui.
As plataformas Spectrum e Quantum têm como alvo diferentes cenários de aplicação. Na visão da Nvidia, os cenários de aplicação de IA podem ser divididos em AI cloud e AI factory. Switches Ethernet tradicionais e Spectrum-X Ethernet podem ser usados em AI cloud, enquanto soluções NVLink+InfiniBand são necessárias em AI factory.
Como entender o NVIDIA SuperPOD?
O SuperPOD é um cluster de servidores que conecta vários nós de computação para fornecer maior desempenho de rendimento.
Tomando como exemplo o NVIDIA DGX A100 SuperPOD, o switch usado na configuração oficialmente recomendada pela NVIDIA é QM9700, que pode fornecer 40 portas 200G. Na primeira camada, o servidor DGX A100 tem um total de 8 interfaces, que são conectadas a 8 switches leaf, respectivamente, pois adota uma arquitetura fat tree (não convergente). 20 servidores formam um SU, então um total de 8 servidores SU são necessários. Na arquitetura de segunda camada, como a rede não converge e a velocidade da porta é consistente, a porta de uplink fornecida pelo spine switch deve ser maior ou igual à porta de downlink do leaf switch. Portanto, 1 SU corresponde a 8 leaf switches e 5 spine switches, 2 SUs correspondem a 16 leaf switches e 10 spine switches, e assim por diante. Além disso, quando o número de SUs aumenta para mais de 6, a recomendação oficial é adicionar um switch de camada central.

Referência de arquitetura NVIDIA DGX A100 SuperPOD
No DGX A100 SuperPOD, a proporção servidor:switch na rede de computação é de 1:1.17 (tomando 7 SUs como exemplo); Mas no DGX A100 SuperPOD, a proporção é de 1:0.38. Levando em conta os requisitos de armazenamento e gerenciamento de rede, as proporções servidor:switch para o DGX A100 SuperPOD e DGX H100 SuperPOD são 1:1.34 e 1:0.50, respectivamente.
Em termos de portas, na configuração recomendada para DGX H100, cada SU consiste em 31 servidores. Por um lado, o DGX H100 tem apenas 4 interfaces para computação, por outro lado, o switch é um QM9700, fornecendo 64 portas 400G no DGX H100 SuperPOD.
Em termos de desempenho do switch, o desempenho do QM9700 foi bastante aprimorado na configuração recomendada do DGX H100 SuperPOD. Os switches Infiniband introduzem a tecnologia Sharp. Ao construir uma árvore de agregação de streaming (SAT) na topologia física por meio do gerenciador de agregação e, em seguida, ter vários switches na árvore executando operações paralelas, a latência pode ser bastante reduzida e o desempenho da rede pode ser melhorado. O QM8700/8790+CX6 suporta apenas até 2 SATs, mas o QM9700/9790+CX7 suporta até 64. O número de portas de empilhamento aumenta, então o número de switches usados diminui.
A julgar pelos preços de troca, o preço do QM9700 é cerca de duas vezes maior que o do QM8700/8790. De acordo com o site oficial da SHI, o preço unitário do Quantum-2 QM9700 é de 38,000 dólares americanos, e o preço unitário do Quantum QM8700/8790 é de 23,000/17,000 dólares americanos, respectivamente.
Qual é o status quo do mercado de switches?
O mercado de switches está crescendo no curto prazo. Com o desenvolvimento da IA, espera-se que a demanda do mercado se expanda ainda mais e mostre uma tendência em direção à iteração de ponta.
De uma perspectiva estrutural, o mercado de switches ainda é um oceano azul, com a Cisco conquistando uma grande fatia e a Arista crescendo rapidamente.
Em termos de tamanho de mercado: No primeiro trimestre de 1, a receita global de switches Ethernet foi de US$ 2023 bilhões, um aumento anual de 10.021%. A receita de switches 31.5G/200G aumentou 400% ano a ano, e a receita de switches 41.3G aumentou 100% ano a ano.
Em termos de quantidade de embarques portuários: 229 milhões de unidades foram embarcadas no primeiro trimestre de 2023, um aumento anual de 14.8%. Os portos 200G/400G e 100G aumentaram em 224.2% e 17.0%, respectivamente.
O cenário competitivo do switch é melhor do que no mercado de servidores. De acordo com a NextPlatform, a Cisco foi responsável por 46% da participação de mercado no primeiro trimestre de 1, aproximadamente US$ 2023 bilhões, um aumento anual de 4.61%. A Arista obteve receita de US$ 33.7 bilhão no primeiro trimestre de 1.15, um aumento anual de 2023%, graças ao seu excelente desempenho no data center.
Em termos de lucratividade, a Cisco e a Arista têm margens brutas próximas a 60%. O cenário relativamente favorável criou boa lucratividade para os fabricantes na cadeia da indústria. Embora as margens de lucro bruto da Cisco e da Arista tenham mostrado uma tendência ligeiramente descendente, elas ainda mantêm uma margem de lucro bruto de cerca de 60% no geral. Olhando para o futuro, acreditamos que o mercado de switches deve continuar a se beneficiar do desenvolvimento da IA.
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $550.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $650.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $650.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $900.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1199.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $700.00
-
Mellanox MMA1T00-HS compatível com 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Módulo transceptor óptico $139.00
-
NVIDIA MFP7E10-N010 compatível com 10 m (33 pés) 8 fibras baixa perda de inserção fêmea para fêmea MPO cabo tronco polaridade B APC para APC LSZH multimodo OM3 50/125 $47.00
-
Compatível com NVIDIA MCP7Y00-N003-FLT 3m (10 pés) 800G OSFP de porta dupla a 2x400G OSFP plano superior InfiniBand NDR Breakout DAC $260.00
-
NVIDIA MCP7Y70-H002 compatível com 2m (7 pés) 400G Twin-port 2x200G OSFP para 4x100G QSFP56 Passivo Breakout Direct Attach Cabo de cobre $155.00
-
NVIDIA MCA4J80-N003-FTF compatível com 3m (10 pés) 800G de porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR cabo de cobre ativo, parte superior plana em uma extremidade e parte superior com aletas na outra $600.00
-
NVIDIA MCP7Y10-N002 compatível com 2m (7 pés) 800G InfiniBand NDR OSFP de porta dupla para 2x400G QSFP112 Breakout DAC $190.00