Evolução e desafios da arquitetura de rede de IA
Ao discutir redes de IA, duas dimensões principais podem ser analisadas. A primeira dimensão é a arquitetura de rede fundamental fornecida para IA. A segunda dimensão é a aplicação da tecnologia de IA em operações e manutenção de rede. Integramos vários recursos e soluções para aprimorar nossos sistemas internos, incluindo operações de IA (AIOps) e observabilidade. Nossos switches são equipados com vários sensores e recursos de segurança, como Smart System Upgrade (SSU), que são recursos essenciais das redes de IA. O recurso SSU permite atualizações contínuas de patches de segurança e atualizações de sistema, mantendo os serviços de rede críticos operacionais, e oferece suporte a análises preditivas.
Todos os produtos Arista, sejam eles switches de campus, roteadores WAN ou grandes switches de data center de 400G com 576 portas, operam no mesmo Sistema Operacional Extensível (EOS). Além disso, todos os produtos são gerenciados por meio da plataforma de software unificada CloudVision, fornecendo aos clientes soluções de ponta a ponta de alta qualidade que garantem desempenho consistente em vários ambientes. Essa uniformidade tem sido muito apreciada pelos clientes.
Tradicionalmente, as redes operam em silos isolados. Por exemplo, tivemos a rede frontend e a rede backend em data centers, com a rede backend composta principalmente de HPC dominada pela InfiniBand. Com o avanço da tecnologia de IA, estamos testemunhando uma mudança de data centers tradicionais para centros centrados em IA. Em centros de IA, a rede backend conecta GPUs, enquanto a rede frontend conecta redes tradicionais de data center, sistemas de armazenamento e WANs, cobrindo essencialmente todos os componentes de rede necessários para construir um centro de IA unificado.
Um slide do 650 Group ilustra a evolução histórica e a projeção futura das velocidades de porta do data center. Conforme ilustrado, as portas de alta velocidade estão em uma trajetória de crescimento significativa. O gráfico consolida as velocidades de 800G e 1.6T, o que faz sentido — 800G depende de 8x100G SERDES, enquanto 1.6T usa 16x100G ou 8x200G SERDES. Esse crescimento é impulsionado por aproximadamente 30% a 40% da demanda de rede de IA, refletindo a expansão de clusters de IA, particularmente clusters de treinamento. Olhando para o futuro, as operações de inferência também impulsionarão esse crescimento. Portanto, os recursos de E/S devem acompanhar as melhorias de desempenho da GPU. No lado direito do gráfico, o ASIC de 51.2T mostra a taxa de adoção mais rápida da história, marcando uma rápida transição de 25.6T para 51.2T, com chips de 100T potencialmente seguindo em um ritmo ainda mais rápido. Tradicionalmente, as atualizações de velocidade levavam vários anos, mas, impulsionadas pela demanda de IA, as transições tecnológicas agora ocorrem a cada 1.5 a 2 anos para atender às necessidades de largura de banda de GPUs e outros aceleradores.
De data centers tradicionais a centros de IA: a jornada de transformação da Arista
Transformação arquitetônica: Redes tradicionais de data center normalmente empregam uma arquitetura em camadas, com a rede frontend conectando dispositivos de usuários e redes externas, e a rede backend utilizando principalmente a tecnologia InfiniBand para atender às demandas de computação de alto desempenho (HPC). No entanto, com o rápido avanço da tecnologia de IA, as filosofias de design de data center estão mudando para modelos centrados em IA.
Reorganização de componentes: Em arquiteturas de data center de IA, a rede de backend conecta GPUs, enquanto a rede de frontend continua a vincular redes de data center tradicionais, sistemas de armazenamento e WANs. Isso resulta em um ambiente de rede abrangente centrado em cargas de trabalho de IA.
Em relação aos sistemas modulares, os principais produtos de backbone de IA da Arista apresentam os maiores designs de chassi, suportando até 576 portas de 800G. Essa configuração permite que redes menores se conectem a um chassi grande, alcançando mais de 1100 portas de 400G em escala — fornecendo quase meio petabyte de largura de banda de um único chassi. Para clusters maiores, como aqueles com dezenas ou centenas de milhares de GPUs, o design ideal emprega uma arquitetura de rede leaf-spine de camada dupla para o backend. Manter essa estrutura de camada dupla é crucial em cenários de IA, pois o balanceamento de carga é uma preocupação primária. Garantir a distribuição adequada do tráfego ajuda a evitar congestionamentos, evita que GPUs individuais desacelerem toda a carga de trabalho, reduz interrupções e diminui o consumo de energia de redes de alta potência.
Desafios das cargas de trabalho de IA em redes
Demanda de largura de banda: a escala e os requisitos computacionais dos modelos de IA estão crescendo exponencialmente, gerando um aumento acentuado na demanda por largura de banda de rede.
Tráfego em rajada: cada fluxo de dados dos servidores de treinamento de IA gera tráfego em rajada em taxas de linha, normalmente envolvendo apenas 4 a 8 fluxos de dados, mas esse padrão pode causar congestionamento severo na rede.
Gargalos de latência: a computação distribuída torna o caminho de tráfego mais lento um gargalo, com qualquer latência de rede potencialmente tendo um impacto significativo no desempenho geral.
Monitoramento de tráfego: monitorar e solucionar problemas de tráfego de IA é altamente desafiador devido à sua alta velocidade e natureza intermitente, tornando as ferramentas de monitoramento tradicionais insuficientes.
Soluções de rede de IA da Arista
A Arista oferece um conjunto abrangente de soluções de rede de IA, abrangendo plataformas de switch de alto desempenho, arquiteturas de rede inovadoras, recursos de software avançados e tecnologias ópticas eficientes para enfrentar os vários desafios impostos pelas cargas de trabalho de IA.
Switches Ethernet de alto desempenho:
Linha de produtos: A Arista fornece uma gama completa de switches Ethernet 800G, incluindo configurações fixas e sistemas modulares.
Série Etherlink AI:
Sistemas de configuração fixa: com o chip Broadcom 512T, equipado com 64 portas 800G (equivalentes a 128 portas 400G), adequado para cargas de trabalho de IA de pequeno a médio porte.
Sistemas modulares: produtos de backbone de IA emblemáticos com suporte para até 576 portas de 800 G por chassi, ideais para data centers de ultra grande escala.
Série 7700: os sistemas Etherlink distribuídos empregam um design de salto único, suportando expansão para 32,000 GPUs, atendendo a necessidades de computação em larga escala.
Sistema operacional: Todos os switches são executados no Arista EOS (Extensible Operating System), gerenciado uniformemente pela plataforma CloudVision, aumentando a eficiência do gerenciamento.
O chassi de 51.2 Tbps da Arista, construído em um processo de 5 nanômetros e equipado com 64 portas 800G, é a escolha mais eficiente em termos de energia disponível atualmente. Em clusters de IA, o balanceamento de carga e o consumo de energia são os dois principais desafios, com a eficiência energética sendo uma grande preocupação para os clientes. O setor está se movendo em direção à óptica plugável linear (LPO) para aprimorar a eficiência energética do módulo óptico e da rede. A economia de energia no lado da rede pode ser realocada para mais GPUs ou xPUs.
Isso representa uma inovação de hardware inteligente. Com base no feedback dos principais clientes, remover todos os cabos, desmontar o chassi e executar reparos quando um componente falha dentro do chassi é uma tarefa trabalhosa. Normalmente, os componentes com o menor tempo médio entre falhas (MTBF) são memória (RAM), unidades de estado sólido (SSD) ou unidades de processamento central (CPU). Para resolver esse problema, nosso design de sistema permite que todo o módulo da CPU seja removido após a retirada dos dois ventiladores do lado direito.
Outra vantagem deste design é sua capacidade de atender às necessidades de segurança de alguns clientes em relação a dados proprietários em SSDs. Como o módulo da CPU pode ser removido independentemente, os clientes podem manipular esses dados com segurança durante a manutenção. Este design traz conveniência significativa e marca uma grande inovação de hardware.
O 7700R4, produto de última geração, é equipado com placas de linha 800G. Em sua maior configuração, o chassi pode suportar até 1,152 portas 400G, capazes de fornecer quase meio petabyte de taxa de transferência de dados. Este chassi emprega uma arquitetura de enfileiramento de saída virtual (VOQ) totalmente baseada em célula, garantindo balanceamento de carga perfeito. Este design é particularmente adequado para clientes que constroem pequenos clusters, onde um único chassi é suficiente; ele também serve como um dispositivo de rede de backbone de IA ideal para clientes que constroem grandes clusters.
Tecnologias inovadoras de balanceamento de carga
- Desafio: Os algoritmos tradicionais de multicaminho de custo igual (ECMP) são ineficientes no tratamento de tráfego de IA, o que levou a Arista a desenvolver várias soluções de balanceamento de carga direcionadas:
- Layout com reconhecimento de congestionamento: distribui o tráfego de forma inteligente para diferentes uplinks com base na carga da rede em tempo real, reduzindo o risco de congestionamento.
- Balanceamento de carga baseado em RDMA: usa algoritmos de software para obter balanceamento de carga preciso com base nas características do tráfego RDMA.
- Distributed Etherlink Switch (DES): resolve problemas de balanceamento de carga por meio do encaminhamento de pacotes em nível de hardware, empregando um esquema de interconexão de salto único para reduzir a latência.
- Projeto de arquitetura: Apresenta uma arquitetura de rede de camada dupla que, na prática, exige apenas um salto, com o chip principal localizado no switch leaf e o spine atuando como um dispositivo de comutação de alta velocidade.
- Protocolo de transmissão de pulverização de pacotes: uma futura alternativa ao protocolo RDMA, projetado para lidar com pacotes fora de ordem e melhorar a estabilidade da transmissão de dados de forma eficaz.
Diferença entre Virtual Output Queuing (VOQ) e Balanceamento de Carga com suporte a RDMA: VOQ se refere à arquitetura dentro do chassi, usando filas de saída virtuais para alocar pacotes entre portas de entrada e saída, o que é um processo totalmente agendado. Em contraste, o balanceamento de carga com suporte a RDMA envolve balanceamento de carga dinâmico com foco específico nas características de tráfego RDMA, permitindo balanceamento de carga ou hash com base nesse tráfego.
O diagrama fornece uma visão geral abrangente da arquitetura de rede, abrangendo redes front-end tradicionais e redes de IA back-end dedicadas. Dependendo do tamanho do cluster, as configurações podem incluir chassis fixos menores, racks ou um híbrido de ambos. Para clusters de escala extremamente grande, uma arquitetura de três camadas pode até ser considerada.
Tanto o back-end quanto o front-end de IA exigem sistemas de armazenamento dedicados. Além disso, conexões WAN são necessárias. Esta visão geral apresenta a arquitetura geral de uma grande rede de IA.
Capacidades de visualização aprimoradas
- Ferramentas de monitoramento de rede: métodos tradicionais de monitoramento de rede têm dificuldade para capturar flutuações de nível de microssegundos no tráfego de IA. A Arista oferece várias ferramentas de monitoramento inovadoras:
- Analisador de IA: captura estatísticas de tráfego em intervalos de 100 microssegundos, fornecendo insights granulares sobre o comportamento da rede, permitindo a rápida identificação de problemas de congestionamento e balanceamento de carga.
- Agente de IA: estende o EOS para servidores NIC, alcançando gerenciamento e monitoramento centralizados de conexões ToR e NIC.
- Descoberta automatizada: o agente de IA pode descobrir e sincronizar automaticamente configurações entre switches e NICs, oferecendo suporte a diversas extensões de plug-in de NIC.
- Coleta de dados: reúne dados do contador NIC, oferecendo uma visão de rede mais abrangente e recursos de análise aprimorados.
Mecanismos abrangentes de controle de congestionamento
- Técnicas de gerenciamento de congestionamento: a Arista emprega diversas técnicas para gerenciar efetivamente o congestionamento da rede, incluindo:
- Controle de fluxo prioritário (PFC): evita a perda de pacotes causada pela agregação de tráfego de último salto por meio do controle de fluxo prioritário.
- Notificação de congestionamento explícita (ECN): reduz a velocidade de transmissão de dados durante o congestionamento do barramento PCI, evitando falhas de rede.
- Telemetria na rede: fornece informações granulares sobre a profundidade da fila de congestionamento da rede, facilitando o monitoramento e a otimização em tempo real.
Garantia de alta confiabilidade:
- Tecnologias de alta disponibilidade: a Arista oferece vários recursos para garantir alta disponibilidade de redes de IA:
- Atualizações não disruptivas (SSU): suporta atualizações de versão EOS sem tempo de inatividade.
- Otimização do plano de dados: otimiza o desempenho do chip para garantir uma operação de rede estável.
- Monitoramento abrangente de link L1: monitora o status de 400,000 módulos ópticos em tempo real, identificando e solucionando falhas imediatamente para garantir a confiabilidade da rede.
A joia da coroa da Arista: EOS (Sistema Operacional Extensível) e seus recursos:
Em um ambiente de IA, o balanceamento de carga é crucial. Nós fornecemos vários recursos, incluindo Balanceamento de Carga Dinâmico (DLB), Balanceamento de Carga de Congestionamento (CLB), hashing baseado em cabeçalho RDMA, Notificação de Congestionamento Quantizada do Data Center (DCQCN), Notificação de Congestionamento Explícita (ECN) e métodos de controle de congestionamento do Controle de Fluxo de Prioridade (PFC). Além disso, oferecemos recursos aprimorados, como watchdog PFC e opções multilocatário.
Se você estiver construindo clusters de GPU ou xPU e planeja oferecê-los como um serviço, serão necessários recursos de segmentação e multilocação. É aqui que a Virtual Extensible LAN (VXLAN) e a Ethernet Virtual Private Network (EVPN) entram em cena. Uma vez implantados, o monitoramento e a visualização são essenciais para acessar dados de telemetria, identificar pontos de congestionamento e links defeituosos, garantindo a confiabilidade e a robustez da rede.
Tecnologia Óptica e Tendências Futuras
Óptica Linear Plugável (LPO):
- Características de design: O 800G LPO usa um design linear, reduzindo significativamente o custo e o consumo de energia.
- Perspectivas futuras: O LPO de 1.6 T pode reduzir ainda mais o consumo de energia e deve atingir produção em larga escala até 2025, tornando-se uma tecnologia essencial para reduzir o consumo de energia em clusters de IA.
Em redes, é igualmente importante. Ao examinar a tecnologia óptica de 400G, é observada uma incompatibilidade entre sinais elétricos e sinais ópticos. Os sinais elétricos são 8X 50G, enquanto os sinais ópticos são 4X 100G, necessitando de uma caixa de engrenagens para converter o sinal elétrico de 50G em um sinal óptico de 100G. Além da conversão de sinal, a caixa de engrenagens também tem recursos de amplificação de sinal. Qual é o papel da caixa de engrenagens? Ela fornece ganho de potência para o sinal óptico, mas também adiciona custo. Em velocidades de 800G, a situação é linear, o que é uma característica favorável. Os sinais elétricos são 8X 100G PAM-4, e os sinais ópticos também são 8X 100G PAM-4, resultando em uma correspondência perfeita de velocidades de sinal óptico, levando ao menor custo e design óptico mais simples.
Integração em nível de rack:
- Solução de integração: Integração de mais GPUs e tecnologia de rede no mesmo rack, usando interconexões ópticas de cabo de cobre para melhorar o desempenho geral.
- Análise de caso: O rack NVL72 da Nvidia integra 72 GPUs com um consumo de energia de até 120 quilowatts. Embora a integração em nível de rack ofereça vantagens de custo e energia, ela também enfrenta desafios no gerenciamento térmico.
Em clusters de IA, se você estiver curioso sobre os esquemas de conexão óptica mais comumente usados, a maioria dos clusters de IA adota um design de fim de rack. Aqui, 800G VSR4 é usado, fornecendo uma distância de transmissão de 50 metros, suficiente para conectar qualquer GPU do fim do rack. Entre a folha e a espinha, XDR4 ou FR4 podem ser usados; um suporta transmissão de até 500 metros, o outro até 2 quilômetros.
Consórcio Ultra Ethernet (UEC):
- Histórico organizacional: A Arista é um dos membros fundadores da UEC, promovendo ativamente o desenvolvimento da tecnologia Ethernet.
- Metas técnicas: O UEC visa abordar os desafios de rede impostos pelas cargas de trabalho de IA e HPC, incluindo protocolos de transmissão, controle de congestionamento e tecnologia de pulverização de pacotes.
- Lançamento de especificações: a UEC deve lançar especificações de rede multicamadas no final de 2024, impulsionando a padronização do setor.
Escalonamento de redes de IA:
- Suporte arquitetônico: a Arista oferece várias arquiteturas de rede para dar suporte a clusters de IA de diferentes tamanhos, incluindo:
- Arquitetura Leaf-Spine de camada dupla: adequada para clusters de pequeno e médio porte, oferecendo utilização eficiente da largura de banda.
- Arquitetura de rede de três camadas: adequada para clusters de ultra grande escala, melhorando a escalabilidade da rede.
- Arquitetura de rede multiplano: expande a escala da rede por meio de vários planos independentes, suportando maior simultaneidade.
- Arquitetura de agendamento distribuído: alcança conexões lógicas de salto único, suportando necessidades de expansão de até 32,000 GPUs.
- Demanda do mercado: construir clusters de IA de ultragrande escala é caro, mas a crescente demanda do mercado por computação de alto desempenho e processamento de big data continua a impulsionar a inovação e o desenvolvimento em tecnologias relacionadas.
Produtos relacionados:
- Arista Networks QDD-400G-SR8 compatível 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3 FEC Módulo transceptor óptico $180.00
- Arista Networks QDD-400G-DR4 compatível 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMF FEC Módulo transceptor óptico $450.00
- Módulo transceptor óptico compatível com Arista QDD-400G-VSR4 QSFP-DD 400G SR4 PAM4 850nm 100m MTP/MPO-12 OM4 FEC $600.00
- Arista Networks QDD-400G-FR4 compatível 400G QSFP-DD FR4 PAM4 CWDM4 2km LC SMF FEC Módulo transceptor óptico $600.00
- Arista Networks QDD-400G-XDR4 compatível 400G QSFP-DD XDR4 PAM4 1310 nm 2km MTP / MPO-12 SMF FEC Módulo transceptor óptico $650.00
- Arista Networks QDD-400G-LR4 compatível 400G QSFP-DD LR4 PAM4 CWDM4 10km LC SMF FEC Módulo transceptor óptico $650.00
- Módulo transceptor óptico compatível com Arista QDD-400G-SRBD 400G QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 FEC $1000.00
- Arista Networks QDD-400G-PLR4 compatível 400G QSFP-DD PLR4 PAM4 1310nm 10km MTP / MPO-12 SMF FEC Módulo transceptor óptico $1000.00
- Arista Q112-400G-DR4 Compatível 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 com Módulo Transceptor Óptico FEC $800.00
- Módulo transceptor óptico compatível com Arista Q112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC $650.00
- Módulo transceptor óptico compatível com Arista OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10km SMF $1199.00
- Módulo transceptor óptico compatível com Arista OSFP-400G-XDR4 400G OSFP DR4+ 1310nm MPO-12 2km SMF $879.00
- Arista Networks OSFP-400G-2FR4 Compatível 2x 200G OSFP FR4 PAM4 2x CWDM4 CS 2km SMF FEC Módulo Transceptor Óptico $3000.00
- Arista Networks OSFP-400G-FR4 Compatível 400G OSFP FR4 PAM4 CWDM4 2km LC SMF FEC Módulo Transceptor Óptico $900.00
- Arista Networks OSFP-400G-DR4 Compatível com 400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo Transceptor Óptico $900.00
- Arista Networks OSFP-400G-SR8 Compatível 400G OSFP SR8 PAM4 850nm MTP/MPO-16 100m OM3 MMF FEC Módulo transceptor óptico $480.00
- Arista OSFP-800G-2SR4 compatível OSFP 2x400G SR4 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $750.00
- Módulo transceptor óptico SMF compatível com Arista OSFP-800G-2PLR4 8x100G LR PAM4 1310nm Dual MPO-12 10km SMF $2200.00
- Módulo transceptor óptico SMF compatível com Arista OSFP-800G-2XDR4 8x100G FR PAM4 1310nm Dual MPO-12 2km SMF $1300.00
- Módulo transceptor óptico dual duplex LC 800km SMF compatível com Arista OSFP-2G-4LR2 OSFP 400x4G LR4 PAM4 CWDM10 $3700.00