A FiberMall analisará a necessidade de introduzir a tecnologia de resfriamento líquido em switches de data center do ponto de vista da política e do chip e discutirá a diferenciação de diferentes soluções de tecnologia de resfriamento líquido, bem como a experiência em pesquisa e desenvolvimento e as conquistas de Ruijie em resfriamento líquido de placas frias interruptor e interruptor de resfriamento líquido de imersão.
Com o aumento da Internet, computação em nuvem e serviços de big data, o consumo total de energia dos data centers está aumentando e sua eficiência energética está recebendo cada vez mais atenção. De acordo com as estatísticas, a eficiência média de uso de energia (PUE) de um data center é de 1.49, muito maior do que o requisito de que o PUE seja inferior a 1.25 para um novo data center grande.
A redução da PUE é iminente. Como os fabricantes de equipamentos de rede podem reduzir significativamente o consumo de energia e, ao mesmo tempo, garantir alto desempenho? Como um fator chave que afeta o desempenho e o consumo de energia, o sistema de resfriamento tornou-se o foco da reforma do data center, e a tecnologia de resfriamento líquido está gradualmente substituindo o resfriamento a ar tradicional como a solução de resfriamento principal devido às suas vantagens exclusivas.
Consumo de energia e perspectiva política
O valor de PUE é a razão entre o consumo total de energia de um data center e o consumo de energia do equipamento de TI. Quanto mais próximo o valor de PUE estiver de 1, menor será o consumo de energia de equipamentos não relacionados a TI, melhor será o nível de eficiência energética e mais ecológico será o data center.
Figura 1. A métrica PUE
A FiberMall descobriu que o consumo médio de energia do sistema de resfriamento chega a 33% do consumo de energia do data center, o que representa quase um terço do consumo total. Isso ocorre porque o sistema de resfriamento de ar usado no data center tradicional usa ar com capacidade de calor específico deficiente como meio de resfriamento. Acionado pelo ventilador do equipamento, o calor transferido pela CPU e outras fontes de calor para o radiador é retirado do equipamento de TI, e o ar é resfriado pela circulação do trocador de calor fan coil ou refrigeração do ar condicionado, que também é o limitação do resfriamento do ar. Portanto, resolver a eficiência do uso de energia do sistema de resfriamento tornou-se um desafio de iteração de tecnologia enfrentado pelos fabricantes de equipamentos sob o novo ambiente de política.
Figura 2. Painel do Composição do Consumo de Energia do Data Center
Perspectiva de Demanda de Resfriamento de Chip
Com o desenvolvimento de chips de comutação, processos de chip de alto desempenho (como 5nm) podem efetivamente reduzir o consumo de energia por unidade de poder de computação. No entanto, à medida que a largura de banda do chip de comutação aumenta para 51.2 Tbps, o consumo total de energia de um único chip aumenta para cerca de 900 W. Portanto, como resolver o problema de dissipação de calor do chip do dispositivo tornou-se uma dificuldade no projeto de hardware de todo o dispositivo.
Embora o atual sistema de refrigeração refrigerado a ar ainda possa suportar a operação, quando o fluxo de calor do chip (um fluxo de energia por unidade de área por unidade de tempo) for maior que 100W/cm², o problema ocorrerá um após o outro:
Primeiro nome, a redução adicional da resistência térmica do dissipador de calor encontra um gargalo. Para ser capaz de resolver o pequeno chip quase quilowatts de potência de calor, o dissipador de calor precisa usar uma resistência térmica total mais baixa da abordagem arquitetônica. Isso também significa que uma melhor condutividade térmica e um design de dissipador de calor são necessários se o aumento da capacidade do dissipador de calor for equilibrar o aumento do consumo de energia do chip. Mas, atualmente, o projeto e o processamento de dissipadores de calor refrigerados a ar de alto desempenho obtiveram principalmente tubo de calor, câmara de vapor e suporte 3D VC, que já estão perto do limite da otimização de desempenho.
Segundo, limitado pelos requisitos de altura dos produtos de comutação, é difícil resolver o problema de dissipação de calor expandindo o volume do dissipador de calor. Porque o calor a partir do chip rompe o invólucro do chip, materiais de interface térmica, câmara de vapor, solda, tubo de calor, etc., mas finalmente fica preso nas aletas de interface do ar sólido. E devido ao baixo coeficiente de transferência de calor por convecção entre as aletas e o ar, a fim de obter a área de dissipação de calor necessária para resfriamento de chip de alta potência, os engenheiros de projeto térmico precisam expandir o tamanho do dissipador de calor continuamente, quase preenchendo o espaço disponível dentro dos servidores e switches. Pode-se dizer que o gargalo final da dissipação de calor do resfriamento do ar é sua estrutura aletada para a demanda inelástica de espaço. Além disso, para aumentar o volume de ar, a velocidade do ventilador atingiu 30,000 RPM e a aeronave levaoff-como o ruído é uma equipe de desenvolvimento e operações profundamente preocupante.
Finalmente, com o consumo de energia do chip ainda aumentando, a capacidade de resfriamento do sistema de refrigeração a ar está prestes a atingir seu limite. Mesmo que os dissipadores de calor refrigerados a ar possam resolver o atual problema de resfriamento do switch, no futuro, quando 102.4/204.8 Tbps se tornar o mainstream e o consumo de energia do chip for maior, os dissipadores de calor refrigerados a ar serão incapazes de lidar. Portanto, a tecnologia de refrigeração líquida de alto desempenho surge para a próxima geração de equipamentos de TI. Nos próximos 5 a 10 anos, tornou-se um consenso na indústria que o resfriamento a ar será gradualmente substituído pelo resfriamento líquido em data centers.
Classificação, vantagens e desvantagens da tecnologia de refrigeração líquida
A atual tecnologia de refrigeração líquida é dividida principalmente em refrigeração líquida monofásica e refrigeração líquida bifásica. No white paper da COBO “Considerações de projeto de conectividade óptica em um comutador ótico integrado ou integrado”, Ruijie separou e classificou de forma abrangente as formas de sistemas de resfriamento para equipamentos de TI em data centers (Figura 3).
Resfriamento líquido monofásico significa que o refrigerante sempre mantém o líquido no processo de ciclo de dissipação de calor e remove facilmente o calor por meio de alta capacidade específica de calor.
Resfriamento líquido bifásico significa que o refrigerante sofre uma mudança de fase durante o processo de dissipação de calor, e o refrigerante remove o calor do equipamento através do alto calor latente de vaporização.
Por outro lado, o resfriamento líquido monofásico tem menor complexidade e é mais fácil de alcançar, e sua capacidade de dissipação de calor é suficiente para suportar dispositivos de TI no data center. Portanto, é a melhor escolha na fase atual.
Figura 3. Principais modos de dissipação de calor dos dispositivos de TI no data center
O resfriamento líquido monofásico é dividido em resfriamento líquido de placa fria e resfriamento líquido de imersão. O resfriamento líquido da placa fria fixa a placa fria do líquido no dispositivo de aquecimento principal do equipamento e depende do líquido que flui através da placa fria para retirar o calor para atingir o objetivo de dissipação de calor. Já existem diversas aplicações para datacenter de supercomputadores, e o Comitê OCP tem promovido a implantação do padrão de arquitetura Manifold por meio do Open Rack V3.0.
O resfriamento líquido por imersão consiste em mergulhar toda a máquina diretamente no refrigerante, contando com o fluxo de circulação natural ou forçada do líquido para retirar o calor gerado pela operação do servidor e outros equipamentos. Tem sido amplamente utilizado na mineração de moeda digital e supercomputação e também tem sido um tema discutido pela OCP, ODCC e outras organizações nos últimos anos. O data center de uma grande empresa de computação em nuvem realizou uma implantação em larga escala.
As vantagens do resfriamento por líquido de imersão incluem:
- porque o refrigerante entra em contato direto com o equipamento, a capacidade de dissipação de calor é mais forte e o risco de superaquecimento do dispositivo é menor;
- O equipamento de resfriamento líquido de imersão não requer ventiladores, resultando em menos vibração do equipamento e vida útil mais longa dos dispositivos de hardware.
- A temperatura de abastecimento de água gelada do lado da sala de resfriamento líquido de imersão é alta, o lado externo é mais fácil de aquecer. Assim, a escolha do local da sala não é mais como era de resfriamento de ar, tão restrita pela região e temperatura.
Obviamente, o resfriamento por líquido de imersão também tem desvantagens, incluindo alto custo, altos requisitos de segurança e altos requisitos de suporte de carga.
As vantagens do resfriamento líquido de placa fria são as seguintes:
Há poucas mudanças na sala de equipamentos. Somente os racks, as Unidades de Distribuição de Refrigerante (CDU) e os sistemas de abastecimento de água precisam ser trocados. Além disso, o resfriamento líquido de placa fria pode usar mais tipos de refrigerante e a quantidade é muito menor do que o tipo de imersão, portanto, o custo inicial do investimento é menor. Além disso, a cadeia da indústria de refrigeração líquida de placa fria é mais madura, o mercado é mais aceitável. No entanto, a placa fria também apresenta algumas limitações. Primeiro, as linhas de líquido e conectores podem vazar, causando danos ao equipamento e interrupção do serviço.
Experiência de pesquisa e desenvolvimento de interruptor refrigerado a líquido de imersão
Nos últimos anos, grandes empresas exploraram a solução de centros de dados refrigerados a líquido por imersão, e a Ruijie Network acumulou mais experiência na pesquisa e desenvolvimento de switches refrigerados a líquido por imersão, o que se reflete principalmente na aparência estrutural, recorte do ventilador, compatibilidade de material , características SI (integridade do sinal) quatro aspectos:
- Aparência estrutural
Primeiro, a maior mudança é que a fonte de alimentação foi movida do painel traseiro do switch para o painel frontal. A interface do painel também aumenta a largura do switch de 19 polegadas para 21-23 polegadas para acomodar duas fontes de alimentação. O design geral do alinhamento da fonte de alimentação da placa de circuito impresso (PCB) também mudará.
Figura 4. Mudanças na aparência do switch
Devido ao alto custo do refrigerante, a fim de economizar o máximo possível o uso total de refrigerante, o espaço extra é preenchido com enchimento para atingir o objetivo de ocupar mais espaço de refrigerante no tanque de imersão personalizado baseado em servidor. Conforme mostrado na Figura 5, o bloco amarelo é o enchimento, que é usado para ocupar o líquido.
Figura 5. Painel do Mude a evolução da estrutura
- recorte do ventilador
Alterações estruturais também levam ao corte geral do ventilador. Os designers não apenas não precisam mais projetar ventiladores de dispositivo para o switch, como também podem simplesmente escolher um design sem ventilador para a fonte de alimentação. Essa alteração não apenas reduz o valor PUE, mas também reduz significativamente o ruído na sala do servidor.
- Compatibilidade de material
Uma vez que o líquido de arrefecimento do líquido de imersão é dividido principalmente em fluorocarbonetos e uma variedade de óleos, o interruptor deve prestar atenção aos dois pontos a seguir:
- Se os materiais dos dispositivos ópticos utilizados são selados. Se eles não estiverem selados e ocorrer vazamento, a poluição do caminho óptico pode levar à atenuação do sinal e falha do switch;
- Se todos os dispositivos reagirão física ou quimicamente com o refrigerante. Caso ocorra uma reação, a proporção de material de alguns componentes da chave original será alterada, o que trará riscos como a alteração da isolação. Portanto, peças estruturais não metálicas, várias peças elétricas, materiais TIM, blocos de enchimento, alças de plástico, conjuntos de terminais suspensos, etiquetas, colas, conectores, cabos e placas de circuito impresso (PCB) devem ser compatíveis com o refrigerante.
- Características SI (Integridade do Sinal)
Como a chave de imersão refrigerada a líquido estará em contato direto com o líquido, o SI (Integridade do Sinal) será afetado pelo líquido. Portanto, existem requisitos especiais para placas PCB como segue.
(1) Tente evitar a montagem em superfície dos principais modelos.
(2) O sinal interno não é afetado e o sinal de baixa velocidade é montado em superfície sem muita atenção.
(3) O sinal de alta velocidade deve ser montado na superfície, para melhorar o projeto de impedância;
(4) Fan out de BGA e conectores para minimizar o comprimento da linha de superfície;
(5) O projeto de perda e projeto de impedância de 25G e 50G SerDes são diferentes dos tradicionais.
Experiência em pesquisa e desenvolvimento de interruptor resfriado a líquido de placa fria
Com base nas características especiais da tecnologia fotônica de silício, a Ruijie Network desenvolveu switches resfriados a líquido de placa fria. Entre elas, a tecnologia OBO e a tecnologia NPO são para empacotar o módulo óptico na placa-mãe, o mais próximo possível do chip MAC. No entanto, isso tornará a fonte de calor muito concentrada e a altura do equipamento será limitada pelos requisitos de projeto da forma esperada de alta densidade de 1RU, por isso é difícil resolver o problema com o dissipador de calor refrigerado a ar tradicional. Se o resfriamento por líquido de imersão for usado, a vedação do link óptico é severamente desafiada.
Figura 6. Mude a evolução da estrutura
A este respeito, a Ruijie adota um dissipador de calor de resfriamento líquido de placa fria para cobrir o chip MAC e o módulo óptico circundante de forma integrada e transporta o calor através do fluxo do líquido de resfriamento no canal de fluxo na placa. Além disso, para minimizar a complexidade e o risco de vazamento das tubulações de líquido, outros componentes de aquecimento do dispositivo são resfriados por ventiladores. A solução de resfriamento da placa fria pode matar dois coelhos com uma cajadada só. Ele pode não apenas atender aos requisitos de dissipação de calor da fonte de calor NPO/CPO de alta potência e alta densidade, mas também reduzir a altura do dispositivo para 1RU extremamente fino.
As realizações de pesquisa e desenvolvimento de Ruijie em interruptores refrigerados a líquido
Em 2019, a Ruijie Network cooperou com um cliente doméstico de Internet para fornecer o switch de data center de 32*100 Gbps refrigerado a líquido imerso e o switch de gerenciamento de rede gigabit correspondente. Em 2022, a Ruijie Network começou a distribuir interruptor refrigerado a líquido de imersão 100/200/400G e interruptor refrigerado a líquido de placa fria.
A Ruijie Network lançou dois switches refrigerados a líquido de imersão comercial, ou seja, switch de acesso ao data center 32G de 100 portas e switch de rede de gerenciamento 48G de 1 portas. Ambos os interruptores têm 21" de largura e são compatíveis com o refrigerante 3M FC-40. A fonte de alimentação suporta redundância 1+1. O módulo plugável ABS+PC economiza muito o custo do refrigerante. As ranhuras no módulo facilitam o fluxo de líquido para dissipação de calor e equilibram habilmente a flutuabilidade e a gravidade.
No Global OCP Summit em novembro de 2021, a Ruijie Network offInterruptor NPO refrigerado a líquido de placa fria 64*400G lançado oficialmente para atender aos requisitos de alta confiabilidade de data centers e redes de operadoras.
Sob a liderança da OIF, a Ruijie Network cooperou com muitos fabricantes do setor para lançar o protótipo estrutural do switch NPO refrigerado a líquido de placa fria 64 * 800G em 2022 OFC Summit. O painel frontal suporta 64 conectores de fibra 800G, cada um dos quais também pode ser dividido em duas portas 400G para compatibilidade futura. O número de módulos de fonte de laser externa aumentou para 16. Devido ao design cego, o dano do laser de alta potência aos olhos humanos é evitado e a segurança do pessoal de operação e manutenção é garantida em maior extensão. Os chips de comutação e os módulos NPO suportam resfriamento de placa fria para dissipação de calor eficiente, o que resolve o problema do fluxo de calor altamente concentrado. Comparado com o desempenho do switch com o módulo óptico conectável tradicional e solução refrigerada a ar, o consumo de energia é bastante reduzido.