Problema de dissipação de calor de servidores de alta potência
O data center é como uma “superfábrica” de informações, processando enormes quantidades de dados dia e noite. Ao entrar no data center, fileiras de armários altos aparecem. Os servidores dentro dele estão funcionando em alta velocidade como incansáveis “workaholics”. Mas você sabia? Embora esses servidores forneçam um poder de computação poderoso, eles também enfrentam sérios desafios de dissipação de calor.
Com o rápido desenvolvimento da tecnologia, o desempenho dos servidores continua a aumentar, e o consumo de energia também aumenta drasticamente. O método tradicional de resfriamento a ar é como usar um pequeno ventilador para resfriar um grande fogão, que está se tornando cada vez mais incapaz de fazer isso. Tomando um data center comum como exemplo, a densidade de potência do gabinete por metro quadrado pode ser tão alta quanto vários quilowatts. Em alguns cenários de computação de alto desempenho, a potência de um único gabinete pode até exceder dezenas de quilowatts. Sob cargas tão altas, os sistemas tradicionais de resfriamento a ar precisam ser equipados com unidades de ar condicionado de alta potência e um grande número de ventiladores de resfriamento para remover o calor. Isso não apenas consome uma quantidade impressionante de energia, respondendo por cerca de 40% do consumo de eletricidade do data center, perdendo apenas para o próprio equipamento de TI, mas o efeito de dissipação de calor também é insatisfatório.
É bem sabido que CPU, GPU e outros chips dentro do servidor geram muito calor. No entanto, como o componente-chave para armazenamento de dados e leitura e gravação, o problema de dissipação de calor da memória também não pode ser ignorado. A memória de servidor de alto desempenho de hoje, especialmente DDR5 e módulos de memória de especificação superior, aumentou significativamente o consumo de energia em comparação com as gerações anteriores. O consumo de energia padrão geralmente é de até 15 W, e DIMMs de alta potência são ainda mais comuns. Quando a memória funciona em um ambiente de alta temperatura por um longo tempo, a taxa de erros de leitura e gravação de dados aumentará significativamente, assim como um escriba cansado que comete erros frequentes em uma sala abafada. Isso não só levará a um declínio no desempenho do sistema, mas em casos graves também pode causar consequências catastróficas, como travamentos e perda de dados, lançando uma sombra sobre a operação estável do data center.
Por que a tecnologia de resfriamento líquido se destaca
Diante das dificuldades do resfriamento a ar tradicional, a tecnologia de resfriamento líquido fez uma estreia brilhante como um “mago da dissipação de calor”. O resfriamento líquido, como o nome sugere, usa o líquido como meio de transferência de calor para remover rapidamente o calor gerado pelo servidor. Seu princípio de funcionamento pode ser comparado ao sistema de circulação sanguínea do corpo humano. Impulsionado pela bomba, o refrigerante circula ao longo dos tubos cuidadosamente projetados e flui pelos componentes geradores de calor no servidor, como CPU, GPU, memória, etc., como um “transportador de calor”, transportando continuamente o calor para o dispositivo de resfriamento externo e finalmente dissipando-o no ar.
Comparado com o resfriamento a ar, as vantagens do resfriamento líquido são óbvias. Primeiro, a condutividade térmica do líquido é cerca de 25 vezes maior que a do ar, o que significa que o calor é transferido mais rápido e eficientemente no líquido, e pode ser descarregado tão rápido quanto um raio, mantendo o interior do servidor "fresco" o tempo todo. Assim como em um dia quente de verão, lavar as mãos com água fria pode rapidamente tirar o calor das mãos, enquanto o efeito de resfriamento de uma brisa é muito menos eficaz.
Em segundo lugar, o sistema de resfriamento líquido tem excelente estabilidade. Como a capacidade térmica específica do líquido é grande, após absorver uma grande quantidade de calor, o aumento em sua própria temperatura é relativamente pequeno, o que pode fornecer um ambiente térmico relativamente estável para o servidor e evitar efetivamente falhas de hardware causadas por flutuações excessivas de temperatura. Isso é como colocar uma camada de "roupa protetora" de temperatura constante no servidor, para que o servidor possa funcionar de forma estável, não importa como o ambiente externo mude.
Além disso, a tecnologia de resfriamento líquido se destaca na economia de energia e redução de ruído. Por um lado, o sistema de resfriamento líquido não precisa ser equipado com um grande número de ventiladores de resfriamento de alta potência como o resfriamento a ar, o que reduz o consumo de energia do ventilador e também reduz o ruído gerado pela operação do ventilador. De acordo com as estatísticas, os data centers resfriados a líquido podem reduzir o consumo de energia em cerca de 30% em comparação com os data centers tradicionais resfriados a ar, o que pode reduzir significativamente as contas de eletricidade dos data centers e obter economia de energia verde. Por outro lado, sem o zumbido dos ventiladores, o data center fica mais silencioso, criando um ambiente de trabalho relativamente confortável para o pessoal de operação e manutenção e reduzindo o impacto do ruído no ambiente ao redor.
Finalmente, a tecnologia de resfriamento líquido torna possível a implantação de servidores de alta densidade. Como o sistema de resfriamento líquido tem alta eficiência de dissipação de calor e pode efetivamente lidar com a grande quantidade de calor gerada por servidores de alta densidade de potência, mais servidores podem ser colocados no mesmo espaço, melhorando o poder de computação e a densidade de armazenamento do data center e fazendo uso total dos preciosos recursos de espaço da sala de computadores, assim como construir arranha-céus mais altos em terras limitadas, aumentando muito a "capacidade de produção" do data center.
Soluções de resfriamento líquido de memória para servidores de alta potência

Soluções de resfriamento líquido de memória para servidores de alta potência
- Limitações das soluções existentes
Atualmente, as soluções de resfriamento líquido de memória existentes no setor usam principalmente tubos de aço ou tubos de cobre para conectar placas frias para dissipar o calor. O TIM (material de interface térmica) é fixado à superfície do tubo, e o resfriamento é obtido pelo contato entre o TIM e o DIMM. Embora esse design possa reduzir a temperatura do DIMM e melhorar o desempenho até certo ponto, ele tem muitas desvantagens.
Por um lado, a compatibilidade é ruim. Devido à diversidade de layouts de sistemas de servidores, esse design com espaçamento DIMM fixo não pode ser aplicado a diferentes plataformas como uma peça padrão. Isso é como roupas personalizadas do mesmo tamanho para pessoas com diferentes formas corporais. Elas são muito apertadas ou muito largas e difíceis de ajustar perfeitamente. Isso não só aumentará significativamente o custo geral, mas também pode afetar a estabilidade do sistema. De acordo com dados relevantes, em alguns cenários em que os acessórios do servidor precisam ser substituídos com frequência, o gasto adicional de custo causado por problemas de compatibilidade de resfriamento líquido de memória pode representar mais de 30% do custo total do sistema de resfriamento.
Por outro lado, é difícil de manter. O sistema de resfriamento líquido DIMM requer fácil manutenção ao conectar e desconectar DIMMs. No entanto, o design atual tem o risco de danificar o TIM na superfície do tubo ao conectar e desconectar DIMMs. Também é possível que a força de contato seja difícil de controlar, resultando em mau contato entre o DIMM e o tubo, o que por sua vez leva à distribuição desigual da temperatura do DIMM. Assim como ao desmontar e instalar um componente-chave de um instrumento de precisão, pode-se danificar acidentalmente os componentes sensíveis internos, afetando a operação normal de todo o instrumento. Nos registros de operação e manutenção de alguns grandes data centers, falhas de dissipação de calor causadas por conexão e desconexão de memória ocorrem frequentemente, causando grandes problemas ao pessoal de operação e manutenção e aumentando o risco de tempo de inatividade do sistema.
- Destaques da solução inovadora
Para superar esses desafios, foi desenvolvido um sistema de resfriamento líquido de memória de alta potência baseado em placas frias térmicas e mecânicas modulares. O sistema usa um dissipador de calor especial conectado diretamente ao DIMM para transferir eficientemente o calor gerado pela memória para uma placa fria remota. Ele obtém troca de calor por meio de líquido fluindo para otimizar a temperatura do DIMM e mantê-la dentro da faixa operacional apropriada.
O design do dissipador de calor modular e da placa fria são os principais destaques desta solução inovadora. Ao montar o DIMM e o dissipador de calor separadamente e usar pressão para manter uma força de contato uniforme, o contato estável entre o DIMM e o dissipador de calor é garantido, permitindo que o calor seja transferido de forma eficiente, evitando o superaquecimento local causado por mau contato. Isso também torna a distribuição de temperatura do DIMM mais uniforme, fornecendo uma garantia sólida para uma operação de memória estável.
Em termos de compatibilidade, este design adota um design de passo padrão e pode ser amplamente utilizado em várias plataformas DIMM. O design de referência do passo DIMM é de 0.297 polegadas, que pode ser usado universalmente em vários designs de plataforma de passo DIMM de 0.297 a 0.35 polegadas. É como uma chave mestra que pode ser adaptada a uma variedade de "fechaduras" de especificações diferentes, reduzindo muito os custos adicionais. Seja um servidor de dados para uma pequena empresa ou um cluster de computação de alto desempenho em um grande data center, ele pode ser facilmente gerenciado sem se preocupar com problemas de compatibilidade.
Adaptabilidade também é uma grande vantagem desta solução. Ela pode ajustar flexivelmente o material ou design do dissipador de calor de acordo com as necessidades para atender a diferentes requisitos de consumo de energia DIMM. Por exemplo, para DIMMs DDR5 de alta potência com maior consumo de energia, um dissipador de calor de cobre com condutividade térmica mais forte pode ser selecionado, e sua estrutura de aleta do dissipador de calor pode ser otimizada. Para DIMMs comuns com consumo de energia relativamente baixo, um dissipador de calor de alumínio de baixo custo pode ser usado para garantir o efeito de dissipação de calor enquanto obtém controle de custo preciso. Isso permite que fabricantes de servidores e operadores de data center personalizem a solução de resfriamento de memória mais adequada de acordo com as necessidades reais do negócio, evitando desperdício de recursos.
Para verificar a excelência desta solução inovadora, os pesquisadores conduziram simulações térmicas usando a ferramenta Flotherm 2210. Os resultados mostram que o novo design supera as soluções de resfriamento convencionais em termos de resistência térmica, com melhorias variando de 8% a 19%. Ao mesmo tempo, no teste DDR5 TTV, os resultados reais do teste diferiram da simulação em 5%, comprovando ainda mais a eficácia da nova solução. Isso significa que, após adotar a nova solução de resfriamento líquido, os módulos de memória podem dissipar o calor mais rapidamente, assim como substituir um carro com baixa potência por um motor de alto desempenho, permitindo que ele mantenha uma boa dissipação de calor ao dirigir em altas velocidades, garantindo uma operação estável e eficiente do sistema do servidor.
Desempenho real do resfriamento líquido de memória
No data center de uma grande empresa de Internet, os servidores que originalmente usavam resfriamento a ar tradicional experimentariam um aumento acentuado na temperatura da memória durante os períodos de pico de negócios, e o sistema frequentemente relataria erros, deixando a equipe de operação e manutenção frequentemente sobrecarregada. Para resolver completamente esse problema, eles introduziram uma solução de resfriamento líquido de memória baseada em placas frias térmicas e mecânicas modulares.
O efeito após a implementação é significativo. A temperatura da memória do servidor é controlada com precisão. Mesmo sob operação de alta carga, a flutuação da temperatura é extremamente pequena e sempre permanece na faixa de trabalho ideal. A estabilidade do sistema foi bastante melhorada. Problemas como travamentos do sistema e erros de dados causados por superaquecimento da memória quase desapareceram, e a continuidade dos negócios foi efetivamente garantida. Ao mesmo tempo, o consumo de energia do data center também foi significativamente reduzido, e a economia de custos de eletricidade é considerável, trazendo benefícios econômicos reais para a empresa.
Há também uma startup focada em computação de inteligência artificial. Com a rápida expansão de seus negócios, os requisitos para desempenho do servidor estão ficando cada vez maiores. Quando seus servidores de alta potência executam modelos de IA complexos, o resfriamento de memória se torna um gargalo. Após substituir o novo sistema de resfriamento líquido de memória, o servidor pareceu ser injetado com um reforço, o desempenho foi totalmente liberado, o tempo de treinamento do modelo foi bastante reduzido e forte suporte foi fornecido para a rápida iteração do produto, ajudando a empresa a se destacar na acirrada competição de mercado.
Pode ser visto a partir desses casos bem-sucedidos que a tecnologia de resfriamento líquido de memória demonstrou seu poder poderoso em combate real, garantindo a operação estável e eficiente de data centers para muitas empresas. Olhando para o futuro, com o avanço contínuo da ciência dos materiais e dos processos de fabricação, a tecnologia de resfriamento líquido de memória continuará a evoluir. A condutividade térmica do refrigerante será ainda mais aprimorada, o design dos tubos de dissipação de calor e dissipadores de calor será mais sofisticado e eficiente, com compatibilidade e manutenibilidade atingindo novos patamares, o que abre um caminho sólido de dissipação de calor para o desenvolvimento de servidores de alta potência, ajudando o mundo digital a florescer.
Abrace a era do resfriamento líquido
O surgimento da tecnologia de resfriamento líquido de memória de servidor de alta potência trouxe soluções inovadoras para os problemas de dissipação de calor em data centers. Ela não apenas atende aos altos requisitos de dissipação de calor que o resfriamento a ar tradicional não consegue atender, mas também supera os problemas de compatibilidade e manutenção das soluções de resfriamento líquido de memória existentes. Com seu excelente desempenho de dissipação de calor, estabilidade excepcional, efeitos significativos de economia de energia e boa adaptabilidade, ela garante a operação eficiente e estável do servidor.
Nesta era de transformação digital acelerada, os data centers, como a pedra angular da sociedade da informação, estão enfrentando desafios e oportunidades sem precedentes. A ascensão da tecnologia de resfriamento líquido é, sem dúvida, a chave para abrir um novo capítulo nos futuros data centers. Se as empresas quiserem se destacar na competição acirrada do mercado, elas devem acompanhar a tendência do desenvolvimento tecnológico e prestar atenção e aplicar ativamente tecnologias avançadas, como o resfriamento líquido de memória. Acredito que, em um futuro próximo, com a popularização e melhoria contínuas da tecnologia de resfriamento líquido, os data centers inaugurarão uma nova transformação, injetando ímpeto contínuo no desenvolvimento vigoroso da economia digital global. Vamos esperar para ver e dar as boas-vindas a esta era de resfriamento líquido cheia de infinitas possibilidades!