FiberMall oferece soluções de rede HPC para AIGC

O AIGC (conteúdo gerado por IA) tem se desenvolvido rapidamente recentemente e a taxa de iteração está explodindo exponencialmente. Entre eles, o lançamento do GPT-4 e do ERNIE Bot chamou muita atenção por seu valor comercial e cenários de aplicação. Com o desenvolvimento do AIGC, a escala dos parâmetros do modelo de treinamento passou de centenas de bilhões para trilhões de níveis, e a escala do suporte de GPU subjacente também atingiu trilhões de níveis de placa. A escala de rede resultante continua aumentando e a comunicação entre os nós da rede enfrenta desafios cada vez maiores. Nesse contexto, como melhorar o poder de computação do servidor de IA e a capacidade de comunicação de rede e levar em consideração o custo tornou-se uma das importantes direções de pesquisa no atual campo de IA.

A FiberMall lançou a solução de rede de alto desempenho "Smart Speed" DDC (Distributed Disaggregated Chassis) avançada do setor para abordar a relação entre o poder de computação AIGC, a utilização de GPU e a rede, bem como os desafios enfrentados pela rede HPC convencional, para ajudar a computação empresarial AIGC o poder sobe.

Diagrama da conexão do produto DDC da FiberMall

Diagrama da conexão do produto DDC da FiberMall

Relação entre potência aritmética AIGC, utilização de GPU e rede

Relação entre o tempo de treinamento e a utilização da GPU do ChatGPT

Tomando o ChatGPT como exemplo, em termos de potência aritmética, o consumo total de energia aritmética para treinamento na infraestrutura de supercomputação Microsoft Azure AI (um cluster de alta largura de banda de 10,000 V 100 GPUs) é de cerca de 3,640 PF-dias (mil trilhões de cálculos por segundo , executando por 3,640 dias), aqui está uma fórmula para converter quanto tempo leva para treinar 10,000 V 100s.

Capacidade de computação do ChatGPT e cronograma de treinamento

Capacidade de computação do ChatGPT e cronograma de treinamento

Observação: os requisitos de poder de computação do ChatGPT estão disponíveis online e são fornecidos aqui apenas para referência. No artigo “AI and Compute”, a OpenAI assume uma taxa de utilização de 33%, enquanto um grupo de pesquisadores da NVIDIA, Stanford e Microsoft alcançaram taxas de utilização de 44% a 52% para treinamento de grandes modelos de linguagem em sistemas distribuídos.

Pode-se ver que os principais fatores que afetam o tempo de treinamento de um modelo são a utilização da GPU e o poder de processamento do cluster da GPU. Essas métricas principais, por sua vez, estão intimamente relacionadas à eficiência da rede. A eficiência da rede é um fator importante que afeta a utilização da GPU em clusters de IA. Em clusters de IA, as GPUs geralmente são o principal recurso dos nós de computação porque podem lidar com tarefas de aprendizado profundo em larga escala com eficiência. No entanto, a utilização da GPU é influenciada por vários fatores, entre os quais a eficiência da rede é um fator chave.

Relação entre a eficiência da rede e a utilização da GPU

A rede desempenha um papel crítico no treinamento de IA, e os clusters de IA geralmente consistem em vários nós de computação e armazenamento, que precisam se comunicar e trocar dados com frequência. Se a rede for ineficiente, a comunicação entre esses nós ficará lenta, o que afetará diretamente o poder de computação do cluster AI.

Redes ineficientes podem levar aos seguintes problemas, que podem reduzir a utilização da GPU.

Maior tempo de transferência de dados: Em uma rede ineficiente, o tempo de transferência de dados aumentará. A utilização da GPU diminuirá quando as GPUs precisarem aguardar a conclusão da transferência de dados antes de poderem realizar cálculos.

Gargalo da largura de banda da rede: em um cluster de IA, as GPUs geralmente precisam trocar dados com outros nós de computação com frequência. Se a largura de banda da rede for insuficiente, as GPUs não obterão dados suficientes para computação, resultando em menor utilização da GPU.

Agendamento de tarefas desequilibrado: em uma rede ineficiente, as tarefas podem ser atribuídas a diferentes nós de computação das GPUs. Isso pode fazer com que a GPU fique ociosa quando uma grande quantidade de transferência de dados é necessária, reduzindo assim a utilização da GPU.

Para melhorar a utilização da GPU, a eficiência da rede precisa ser otimizada. Isso pode ser alcançado usando técnicas de rede mais rápidas, otimizando a topologia de rede e racionalizando a alocação de largura de banda. No modelo de treinamento, o paralelismo do treinamento distribuído: paralelismo de dados, paralelismo tensor e paralelismo de fluxo determina o modelo de comunicação entre os dados processados ​​pelas GPUs. A eficiência da comunicação entre os modelos é influenciada por vários fatores:

Fatores que afetam a comunicação

Fatores que afetam a comunicação

Entre eles, a largura de banda e a latência de encaminhamento do dispositivo são limitadas pelo hardware, a latência de processamento final é influenciada pela escolha da tecnologia (TCP ou RDMA), RDM será menor, e o enfileiramento e a retransmissão são influenciados pela otimização da rede e pela escolha da tecnologia.

Com base no modelo quantitativo: utilização da GPU = tempo de computação iterativo dentro da GPU / (tempo de computação iterativo dentro da GPU + tempo geral de comunicação da rede), as seguintes conclusões são tiradas:

Gráfico de taxa de transferência de largura de banda e utilização de GPU

Gráfico de taxa de transferência de largura de banda e utilização de GPU                        Gráfico de latência dinâmica e utilização de GPU

Pode-se observar que a taxa de transferência da largura de banda da rede e a latência dinâmica (congestionamento/perda de pacotes) têm um impacto significativo na utilização da GPU.

Com base na composição da latência total de comunicação:

Composição da latência total de comunicação

Composição da latência total de comunicação

A latência estática tem um impacto menor, por isso é mais importante focar em como reduzir a latência dinâmica, o que pode melhorar efetivamente a utilização da GPU para atingir o objetivo de melhorar o poder de computação.

Os desafios da rede HPC convencional

IB Networking é caro e fechado

banda infinita a rede é a solução mais eficaz para redes atuais de alto desempenho, usando largura de banda ultra alta e mecanismos baseados em crédito para garantir nenhum congestionamento e latência ultrabaixa, mas também é a solução mais cara. É também a solução mais cara. É várias vezes mais caro do que a rede Ethernet tradicional com a mesma largura de banda. Ao mesmo tempo, banda infinita a tecnologia é fechada e há apenas um fornecedor maduro no setor, o que impossibilita o usuário final de obter uma segunda fonte de suprimento.

Portanto, a maioria dos usuários do setor escolherá a solução de rede Ethernet tradicional.

PFC e ECN podem desencadear uma queda de velocidade

A atual solução de rede convencional para redes de alto desempenho é baseada em RoCE v2 para criar redes habilitadas para RDMA. Duas importantes tecnologias de colocação são PFC e ECN, ambas criadas para evitar congestionamento no link.

Na rede PFC de vários estágios, ele direcionará o congestionamento de entrada do switch e a contrapressão para o servidor de origem para suspender a transmissão passo a passo para aliviar o congestionamento da rede e evitar a perda de pacotes; no entanto, esta solução pode enfrentar o risco de PFC Deadlock, fazendo com que o tráfego RDMA pare de ser encaminhado em uma rede de vários estágios.

Diagrama esquemático do mecanismo de trabalho do PFC

Diagrama esquemático do mecanismo de trabalho do PFC

Enquanto o ECN gera um pacote RoCEv2 CNP diretamente para notificar a fonte de redução de velocidade com base na consciência de congestionamento do lado do destino na saída do switch, o servidor de origem recebe a mensagem CNP e reduz com precisão a taxa de envio do QP correspondente para aliviar o congestionamento, evitando redução indiscriminada de velocidade.

Diagrama esquemático de ECN

Diagrama esquemático de ECN

Ambas as tecnologias são projetadas para resolver o congestionamento, mas podem ser frequentemente acionadas por um possível congestionamento na rede. Eventualmente, o final da fonte fará uma pausa ou diminuirá a velocidade de transmissão e a largura de banda de comunicação será reduzida. A taxa de utilização da GPU é bastante afetada, o que reduz o poder de computação de toda a rede de alto desempenho.

ECMP desequilibrado pode causar congestionamento

No cálculo do treinamento de IA, existem dois modelos principais, All-Reduce e All-to-All, ambos exigindo comunicação frequente de uma GPU para várias GPUs.

Modelos de cálculo de treinamento de IA

Modelos de cálculo de treinamento de IA

Na rede tradicional, os dispositivos ToR e Leaf adotam o modo de rede roteamento + ECMP. O ECMP executa o roteamento de carregamento de hash com base em fluxos. Em um caso extremo, um link ECMP está cheio devido a um fluxo elefante, enquanto outros links ECMP estão relativamente ociosos, resultando em carga desigual.

Diagrama de implantação ECMP tradicional

Diagrama de implantação ECMP tradicional

Em um ambiente de teste com 8 links ECMP simulados internamente, os resultados do teste são os seguintes:

Resultados do teste de tráfego ECMP

Resultados do teste de tráfego ECMP

Como pode ser visto, o ECMP baseado em fluxo causa ocupação mais óbvia de certos links (ECMP1-5 e 1-6) e ociosidade (ECMP1-0 a 1-3 estão ociosos). Nos modelos All-Reduce e All-to-All, é fácil uma rota ficar congestionada devido à carga desigual no ECMP. Uma vez que o congestionamento causa retransmissão, ele aumenta a latência total geral da comunicação e reduz a utilização da GPU.

Portanto, a comunidade de pesquisa propôs soluções ricas, como phost, Homa, NDP, 1RMA e Aeolus. Eles abordam o incast em vários graus e também abordam o balanceamento de carga e o tráfego de solicitação/resposta de baixa latência. Mas também trazem novos desafios. Frequentemente, essas soluções estudadas exigem resolução de problemas de ponta a ponta, com grandes alterações em hosts, NICs e redes, o que é caro para o usuário médio.

Desafios do AI Clustering com Box Switches

Algumas empresas de Internet procuram comutadores de caixa com chips DNX que suportam a tecnologia VOQ para resolver o problema de baixa utilização de largura de banda devido ao desequilíbrio de carga, mas também enfrentam vários desafios, como segue.

Escalabilidade média. O tamanho do quadro limita o número máximo de portas. Se você deseja fazer um cluster de escala maior, precisa expandir vários quadros horizontalmente, o que também gera links PFC e ECMP de vários níveis. Portanto, o quadro é adequado apenas para implantação em pequena escala.

Grande consumo de energia do dispositivo. O número de chips de cartão de linha, chips de tecido, ventiladores etc. no quadro é grande e o consumo de energia de um único dispositivo é ótimo, facilmente mais de 20,000 watts, alguns até mais de 30,000 watts, com altos requisitos de energia para o gabinete .

O número de portas de dispositivo único é grande e o domínio de falha é grande.

Portanto, pelos motivos acima, os dispositivos de caixa são adequados apenas para implantação em pequena escala de clusters de computação de IA.

Produtos DDC nascidos para apoiar AIGC

O DDC é uma solução de dispositivo de quadro desacoplado distribuído, usando quase o mesmo chip e as principais tecnologias dos comutadores de quadro tradicionais, mas a arquitetura DDC é simples para suportar expansão elástica e iteração rápida de funções, mais fácil de implantar e baixo consumo de energia por máquina.

Conforme mostrado na figura abaixo, a placa de linha de serviço se torna a função NCP como front-end e a placa de comutação se torna a função NCF como back-end. Os componentes do conector original entre os dois agora são substituídos por cabos de fibra ótica, e o mecanismo de gerenciamento do dispositivo de estrutura original torna-se o componente de gerenciamento centralizado/distribuído do NCC na arquitetura DDC.

Diagrama de conectividade do produto DDC

Diagrama de conectividade do produto DDC

O DDC oferece suporte à implantação em escala ultralarga

A vantagem da arquitetura DDC sobre a arquitetura de caixa é que ela pode fornecer escalabilidade flexível, e a escala de rede pode ser selecionada de forma flexível de acordo com o tamanho do cluster AI.

Na rede POD única, 96 NCPs são usados ​​como acessos, dos quais 36 interfaces 200G no downlink dos NCPs são responsáveis ​​por conectar NICs de clusters de computação AI. O montante total de 40 interfaces 200G pode conectar 40 NCFs, o NCF fornece 96 interfaces 200G e a largura de banda upstream e downstream dessa escala é 1.1:1. O POD inteiro pode suportar 3456 interfaces de rede 200G e, de acordo com o cálculo de um servidor com 8 GPUs, 432 servidores de computação AI podem ser suportados.

Diagrama de arquitetura de rede de POD único

Diagrama de arquitetura de rede de POD único

Na rede POD de vários níveis, a construção sob demanda baseada no POD pode ser realizada. Porque o equipamento NCF neste cenário POD tem que sacrificar metade do SerDes para conectar o NCF do segundo nível, então neste momento o POD único usa 48 NCPs como acesso, com um total de 36 interfaces 200G no downlink, e pode suporta 1728 interfaces 200G em um único POD. Ao aumentar o POD horizontalmente para realizar a expansão de escala, o máximo geral pode suportar mais de 10,368 portas de rede 200G.

NCP uplink 40 200G para 40 NCFs em POD, NCFs em POD usam 48 interfaces 200G downstream, e 48 interfaces 200G são divididas em 16 grupos para uplink para NCFs no segundo nível. 40 planos são usados ​​para NCFs no segundo nível, e cada plano é projetado com 3 unidades, correspondendo a 40 NCFs em POD.

A rede inteira alcança uma taxa de overdrive de 1:1:1 dentro do POD e uma taxa de convergência de 1:1 entre o POD e o NCF de segundo estágio.

extenuar

A porta de rede 200G é compatível com placa de rede 100G acesso e, em casos especiais, é compatível com NIC 25/50G usando cabos 1 em 2 ou 1 em 4.

Carga mais balanceada com base no mecanismo VOQ+Cell, menor taxa de perda de pacotes

Contando com o mecanismo de encaminhamento das células após a divisão para balanceamento de carga dinâmico, ele percebe a estabilidade do atraso e reduz a diferença de pico de largura de banda de diferentes links.

O processo de encaminhamento é mostrado na figura:

Primeiro, o remetente recebe pacotes da rede e os classifica em VOQs para armazenamento. Antes de enviar os pacotes, uma mensagem de crédito é enviada para determinar se o destinatário tem espaço em cache suficiente para manipulá-los.

Se assim for, os pacotes são divididos em células e balanceados dinamicamente para os nós de malha intermediários. Essas células são remontadas e armazenadas na extremidade receptora e, em seguida, encaminhadas para a rede.

processo de encaminhamento

As células são técnicas de fatiamento baseadas em pacotes, geralmente com tamanho de 64 a 256 bytes.

As células fatiadas são encaminhadas de acordo com a consulta de destino da célula na tabela de acessibilidade e são enviadas usando um mecanismo de votação. A vantagem disso é que a carga de células fatiadas será totalmente utilizada para cada uplink e a quantidade de dados transmitidos em todos os uplinks será aproximadamente igual, em comparação com o modo ECMP de selecionar um caminho específico após o hash por fluxo.

baseado em células

Se o receptor for temporariamente incapaz de processar a mensagem, a mensagem será temporariamente armazenada no VOQ do lado do remetente e não será encaminhada diretamente para o lado do receptor, resultando em perda de pacotes. Cada chip DNX pode fornecer um cache OCB on-chip e um off-chip Cache HBM de 8 GB, o que equivale a armazenar em cache cerca de 150 ms de dados para uma porta de 200 G. As mensagens de crédito são enviadas apenas quando são claramente aceitáveis ​​do outro lado. Com tal mecanismo, fazer pleno uso do cache pode reduzir significativamente a perda de pacotes, ou até mesmo não gerar perda de pacotes. Com menos retransmissão de dados, a latência geral da comunicação é mais estável e menor, portanto, a utilização da largura de banda pode ser melhorada e, portanto, a eficiência da taxa de transferência do serviço pode ser aprimorada.

tecido baseado em crédito

Nenhum impasse na implantação de salto único PFC

De acordo com a lógica do DDC, todos os NCPs e NCFs podem ser vistos como um único dispositivo. Portanto, após a implantação do domínio RDMA nesta rede, haverá apenas 1 nível de PFC na interface direcionada ao servidor, o que não gerará supressão e bloqueio de PFC multinível como nas redes tradicionais. Além disso, de acordo com o mecanismo de encaminhamento de dados do DDC, o ECN pode ser implantado na interface e, uma vez que o mecanismo interno de crédito e cache não pode suportar o tráfego de rajada, as mensagens CNP podem ser enviadas para o lado do servidor para solicitar redução de velocidade (geralmente sob o modelo de comunicação de AI, All-to-All e All-Reduce+Cell slicing pode equilibrar o tráfego tanto quanto possível, e é difícil de ter (1 porta está preenchida, então ECN pode ser desconfigurado na maioria dos casos).

Nenhum impasse na implantação de salto único do PFC

Design livre de NCC com sistema operacional distribuído para aumentar a confiabilidade

No plano de gerenciamento e controle, para resolver o impacto da falha da rede de gerenciamento e ponto único de falha do NCC, eliminamos o plano de controle centralizado do NCC e construímos um sistema operacional distribuído, configurando dispositivos de gerenciamento por meio de interfaces padrão (Netconf, GRPC, etc.) por controladores de operação e manutenção SDN, e cada NCP e NCF é gerenciado independentemente com planos independentes de controle e gerenciamento.

Resultados da Comparação de Testes

Do ponto de vista teórico, o DDC tem muitas vantagens, como suporte à expansão elástica e rápida iteração de funções, implantação mais fácil e baixo consumo de energia de uma única máquina; porém, do ponto de vista prático, a rede tradicional também apresenta vantagens como mais marcas e linhas de produtos disponíveis no mercado, podendo suportar clusters de maior escala e outras vantagens trazidas pela tecnologia madura. Portanto, quando os clientes se deparam com os requisitos do projeto, eles podem consultar a seguinte comparação e resultados de teste para determinar se devem escolher um DDC de maior desempenho ou uma rede tradicional para implantação em maior escala:

Resultado da comparação entre a rede tradicional e o teste DDC

Resultado da comparação entre a rede tradicional e o teste DDC

Introdução ao equipamento FiberMall

Com base no profundo conhecimento das necessidades do cliente, a FiberMall foi a primeira a lançar dois produtos entregáveis, o switch 200G NCP e o switch 200G NCF.

NCP: Interruptor FM-S6930-36DC40F1

Este switch tem 2U de altura e fornece 36 portas de painel 200G, 40 portas inline 200G Fabric, 4 ventiladores e 2 fontes de alimentação.

Interruptor NCP FM-S6930-36DC40F1

NCF: Interruptor FM-X56-96F1

Este switch tem 4U de altura, fornecendo 96 portas em linha de 200G, 8 ventiladores e 4 fontes de alimentação.

Interruptor NCF FM-X56-96F1

A FiberMall continuará a desenvolver e lançar produtos de fator de forma de porta 400G no futuro.

Conclusão

A FiberMall, como líder do setor, tem o compromisso de fornecer equipamentos e soluções de rede de alta qualidade e confiabilidade para atender à crescente demanda de clientes por Smart Computing Center. Ao lançar a solução DDC “Smart Speed”, a FiberMall também está explorando e desenvolvendo ativamente soluções de otimização de rede final em redes tradicionais. Ao fazer uso total de NICs inteligentes de servidor e otimização de protocolo de equipamento de rede, toda a utilização da largura de banda da rede pode ser aprimorada para ajudar os clientes a entrar na era da computação inteligente AIGC mais rapidamente.

Deixe um comentário

Voltar ao Topo