Servidor de IA GB300 refrigerado a líquido da Meta: Clemente (1U 4xGPU) – Revolucionando a infraestrutura de IA

No mundo em rápida evolução dos data centers de IA, os servidores refrigerados a líquido são a espinha dorsal da computação de alto desempenho. Se você está explorando soluções de ponta para computação em nuvem, redes corporativas ou ambientes habilitados para IA, o servidor de IA refrigerado a líquido GB300 da Meta – codinome Clemente – se destaca. Este poderoso servidor 1U reúne 4 GPUs em um formato compacto, expandindo os limites de densidade, eficiência e escalabilidade. Nesta postagem do blog, abordaremos sua arquitetura, inovações em refrigeração, gerenciamento de energia e como ele se encaixa nas tendências mais amplas de racks de IA. Seja você um arquiteto de TI ou um entusiasta de data centers, entender o GB300 Clemente pode ajudar a otimizar suas configurações de última geração.

A evolução dos supernós de IA: de racks agregados para desagregados?

A evolução dos supernós da IA

Antes de nos aprofundarmos nos detalhes do GB300, vamos analisar o panorama geral do escalonamento da infraestrutura de IA. No OCP Global Summit de 2025, a apresentação da Meta sobre "Escalonamento da Infraestrutura de IA para Regiões de Data Center" destacou uma mudança nos designs de racks de IA. Da esquerda para a direita nas imagens: gabinetes existentes utilizando o MI300X da AMD, os aceleradores MTIA internos da Meta e agora o GB300 com tecnologia NVIDIA.

GB300 com tecnologia NVIDIA

Domínios de computação Scale-Up em larga escala exigem racks maiores.

AspectoORv3 HPRORW (rack aberto)Modelos futuros
Nó de status/tempoImplantado (Atual)Q3 2026Q3 2027
Contagem de aceleradores suportados≤ 72≤ 144≥ 256
Tipo de interconexãoBackplane cabeadoBackplane cabeado(Não especificado, espera-se que seja mais avançado)
Esquema de fonte de alimentação48 VCC / ±400 VCC48 VCC / ±400 VCC± 400 VDC
Método de refrigeraçãoResfriamento a ar / Resfriamento líquidoResfriamento a ar / Resfriamento líquidoPrincipalmente resfriamento líquido
Especificações do rackGabinete de TI/Energia de largura únicaGabinete de TI de largura duplaTamanho do gabinete de TI a ser definido
Capacidade de Alimentação(Não especificado)(Não especificado)> 900kW

Principais tendências em domínios de computação de IA em larga escala

  • Racks maiores para computação maior: À medida que as cargas de trabalho de IA exigem mais xPUs (aceleradores), os racks estão evoluindo. O roteiro da Meta prevê o escalonamento das configurações atuais para mais de 256 xPUs até o terceiro trimestre de 2027, com consumos de energia superiores a 900 kW. É aqui que entram os padrões Open Rack Wide (ORW) – uma colaboração entre a Meta e a AMD, com implantação prevista para o terceiro trimestre de 2026. Ele oferece suporte a futuras GPUs Instinct MI450 e enfatiza a abertura na infraestrutura de IA.
  • A Ascensão da Desagregação: Os projetos tradicionais "agregados" utilizam backplanes (pense em linhas verdes e laranjas nos diagramas) para integrar firmemente componentes em um ou dois racks. Mas, à medida que a contagem de xPUs aumenta, a complexidade da interconexão dispara. Eis a desagregação: recursos distribuídos em racks de menor densidade, conectados por interconexões ópticas para comunicação de baixa latência e alta largura de banda.

Por que isso importa para servidores de IA como o GB300? A desagregação aumenta a elasticidade para treinamento massivo de IA, ignora os limites de energia e resfriamento de um único rack e utiliza a óptica para superar gargalos elétricos. É um divisor de águas para data centers de hiperescala que buscam eficiência em cargas de trabalho de IA e HPC.

Para saber mais sobre padrões de rack aberto, confira nossos insights recentes sobre o “Helios” da AMD e o 2025 OCP Dual-Wide Open Rack da Meta.

o futuro é a desagregação

GB300 NVL72 Densidade: Embalagem 1U com 2x CPUs + 4x GPUs

visão geral da bandeja de computação Clemente

No coração do ecossistema GB300 está a configuração NVL72, e a bandeja de computação Clemente da Meta oferece densidade impressionante. Esta bandeja de 1 unidade de processamento (OU) abriga dois módulos NVIDIA GB300 HPM, cada um com uma CPU Grace ARM emparelhada com duas GPUs B300. Isso representa um total de 4 GPUs em um único slot 1U – o dobro da densidade em comparação com o anterior GB200 Catalina (que gerenciava 2 GPUs por 1U).

Vista frontal da bandeja de computação Clemente

Visão frontal e falha de conectividade

O painel frontal do Clemente é um centro de conectividade:

  • Rede de expansão horizontal: 4 portas OSFP 800G para estrutura de IA de alta velocidade.
  • Gestão de Sistemas: Módulo DC-SCM abaixo.
  • E/S adicional: 2 portas 400G à esquerda; 4 baias SSD NVMe E1.S à direita para armazenamento rápido.

Densidade de potência? O TDP da bandeja gira em torno de 4,200 W, com picos de até 7,740 W – exigindo um resfriamento robusto, que abordaremos a seguir.

Diagrama de blocos: dentro da arquitetura Clemente do GB300

A verdadeira mágica se revela no diagrama de blocos. Para contextualizar, aqui está uma rápida comparação com o GB200 Catalina (atualizado para suporte à placa de rede CX8):

  • Interconexões CPU-GPU: Cada CPU Grace se conecta às suas duas GPUs B300 via NVLink C2C. As duas Graces se conectam via Clink x12, enquanto as B300s usam NVLink 5 para comunicação intra-GPU.
  • Proezas de rede: A placa de rede CX8 oferece uma porta de 800G e integra um switch PCIe para conectividade com CPU (Gen5 x16), GPU (Gen6 x16) e SSD. Ela também funciona como um endpoint PCIe x1 para gerenciamento. Cada Grace recebe um CX7 dedicado. placa de rede 400G (Gen5 x16), com o Grace0 primário vinculado ao BMC via PCIe Gen5 x4.

Essa configuração garante um fluxo de dados contínuo em supernós de IA, minimizando gargalos no treinamento de modelos massivos.

Compatibilidade: Chassi de 19 polegadas em racks abertos de 21 polegadas

Clemente se mantém fiel às raízes do OCP: é uma bandeja 1RU compatível com racks padrão de 19 polegadas, com adaptadores para quadros HPR Open Rack V3 de 21 polegadas. As dimensões e o peso são otimizados para fácil implantação – consulte o diagrama de especificações para obter as especificações exatas (normalmente menos de 30 kg sem carga).

Conjunto de recipientes para adaptar 19” RU em 21” OU

Uma abordagem de resfriamento dividido se destaca aqui: resfriamento a ar para componentes de baixo calor (lado esquerdo nos diagramas), resfriamento líquido por meio de placas frias para os componentes quentes (lado direito).

Resfriamento a ar para componentes de baixo calor

Fundamentos do resfriamento líquido: design das Ilhas do Canal

Ilha do Canal de Meta refrigeração líquida Projetado para TDP máximo sob carga. Principais especificações do GB300 Clemente:

  • Refrigerante: Mistura de 25% de propilenoglicol (PG25), como o Dow's Frost LC-25.
  • Temperatura de alimentação: 40°C padrão (desvio máximo de até 42°C).
  • Fluxo e Pressão: Até 140 LPM a 15 psi delta.
  • Delta T: 10-12°C em carga máxima, equivalente a 1.25-1.5 LPM/kW.

Isso mantém as GPUs B300 (cada uma com ~1,100 W de TDP) e Graces frias, permitindo desempenho de IA sustentado sem limitação térmica.

Especificação de resfriamento de ar

Para periféricos refrigerados a ar, as normas incluem curvas de ventilador padrão, mas o líquido domina em termos de densidade.

Fornecimento de energia: de entrada de 50 V a racks de 200 kW

Em termos de potência, a Clemente aumenta a entrada de 48 V para 50 V do GB200, convertendo para 12 V para VRMs em CPUs e GPUs. Em um rack NVL72 (18 bandejas Clemente), espere um total de ~200 kW, considerando interruptores, capacitores e perdas. (Dica profissional: leia sobre os novos recursos do GB300 NVL72 para uma alimentação de IA estável.)

Novos recursos do NVL72 para potência de IA estável

Notas sobre a escala:

  • Gabinetes refrigerados a líquido geralmente atingem 40-200 kW+ (segundo especialistas em data center).
  • Os futuros racks duplos (por exemplo, o Panjiu da Alibaba) visam 650 kW+.

O módulo DC-SCM? Uma configuração BMC simples com chip AST2600 e CPLD para monitoramento.

Conclusão: Por que o GB300 Clemente é importante para data centers de IA

O servidor de IA GB300 refrigerado a líquido da Meta, via Clemente, não é apenas mais denso – é um modelo para o futuro da IA ​​desagregada e opticamente vinculada. Com potência de 4 GPUs em 1U, resfriamento eficiente e compatibilidade com OCP, ele está pronto para hiperescaladores de 2026+. À medida que os racks de IA ultrapassam os limites de 900 kW, designs como este garantem escalabilidade sem concessões.

Diagrama de blocos do DC-SCM

Na FiberMall, nosso objetivo é fortalecer esses ecossistemas com produtos e soluções de comunicação óptica com boa relação custo-benefício. Como líderes em redes habilitadas para IA, fornecemos transceptores, cabos e módulos de alta qualidade, personalizados para data centers, nuvem e configurações corporativas. Seja integrando malhas NVLink ou interconexões ópticas para racks desagregados, a FiberMall tem tudo o que você precisa. Visite nosso site oficial ou entre em contato com nossa equipe de suporte para obter aconselhamento personalizado.

Voltar ao Topo