Serveur d'IA refroidi par liquide GB300 de Meta : Clemente (1U 4xGPU) – Révolutionner l'infrastructure d'IA

Dans le monde en constante évolution des centres de données IA, les serveurs à refroidissement liquide constituent l'épine dorsale du calcul haute performance. Si vous recherchez des solutions de pointe pour le cloud computing, les réseaux d'entreprise ou les environnements IA, le serveur IA à refroidissement liquide GB300 de Meta, nom de code Clemente, se démarque. Ce puissant serveur 1U intègre quatre GPU dans un format compact, repoussant ainsi les limites de la densité, de l'efficacité et de l'évolutivité. Dans cet article de blog, nous explorerons son architecture, ses innovations en matière de refroidissement, sa gestion de l'énergie et son intégration aux tendances plus larges des racks IA. Que vous soyez architecte informatique ou passionné de centres de données, comprendre le GB300 Clemente peut vous aider à optimiser vos configurations nouvelle génération.

L'évolution des super-nœuds d'IA : des racks agrégés aux racks désagrégés ?

L'évolution des super-nœuds d'IA

Avant d'aborder les spécificités du GB300, examinons de plus près la mise à l'échelle de l'infrastructure d'IA. Lors du Sommet mondial OCP 2025, la présentation de Meta sur « La mise à l'échelle de l'infrastructure d'IA dans les régions des centres de données » a mis en lumière une évolution dans la conception des racks d'IA. De gauche à droite : les baies existantes équipées du MI300X d'AMD, les accélérateurs MTIA internes de Meta et, désormais, le GB300 équipé de NVIDIA.

GB300 alimenté par NVIDIA

Les domaines de calcul Scale-Up à grande échelle nécessitent des racks plus grands.

AspectORv3 HPRORW (Open Rack Wide)Modèles futurs
Nœud d'état/d'heureDéployé (actuel)Q3 2026Q3 2027
Nombre d'accélérateurs pris en charge≤ 72≤ 144≥ 256
Type d'interconnexionFond de panier câbléFond de panier câblé(Non spécifié, devrait être plus avancé)
Schéma d'alimentation électrique48 VCC / ±400 VCC48 VCC / ±400 VCC± 400 VDC
Méthode de refroidissementRefroidissement par air / Refroidissement par liquideRefroidissement par air / Refroidissement par liquideRefroidissement principalement liquide
Spécifications du rackArmoire informatique/d'alimentation simple largeurArmoire informatique double largeurTaille de l'armoire informatique à déterminer
Capacité d'alimentation(Non spécifié)(Non spécifié)> 900 kW

Tendances clés dans les domaines de calcul de l'IA à grande échelle

  • Des racks plus grands pour des calculs plus importantsAlors que les charges de travail d'IA exigent davantage d'accélérateurs (xPU), les racks évoluent. La feuille de route de Meta prévoit une mise à l'échelle des configurations actuelles à plus de 256 xPU d'ici le troisième trimestre 2027, avec une consommation électrique supérieure à 900 kW. C'est là qu'interviennent les normes Open Rack Wide (ORW) – une collaboration entre Meta et AMD, dont le déploiement est prévu au troisième trimestre 2026. Elles prennent en charge les futurs GPU Instinct MI450 et mettent l'accent sur l'ouverture de l'infrastructure d'IA.
  • L'essor de la désagrégationLes conceptions « agrégées » traditionnelles utilisent des fonds de panier (représentant les lignes vertes et oranges sur les schémas) pour intégrer étroitement les composants dans un ou deux racks. Mais avec l'augmentation du nombre d'unités xPU, la complexité des interconnexions explose. C'est là qu'intervient la désagrégation : les ressources sont réparties sur des racks de faible densité, connectés via des interconnexions optiques pour une communication à faible latence et à haut débit.

Pourquoi est-ce important pour les serveurs d'IA comme le GB300 ? La désagrégation améliore l'élasticité pour un entraînement massif de l'IA, contourne les limites d'alimentation et de refroidissement d'un rack unique et exploite l'optique pour surmonter les goulots d'étranglement électriques. C'est une révolution pour les centres de données hyperscale en quête d'efficacité pour leurs charges de travail d'IA et de HPC.

Pour en savoir plus sur les normes de rack ouvert, consultez nos analyses récentes sur « Helios » d'AMD et le rack ouvert double largeur OCP 2025 de Meta.

l'avenir est à la désagrégation

GB300 NVL72 Densité : 1U avec 2 processeurs et 4 cartes graphiques

vue d'ensemble du plateau de calcul Clemente

Au cœur de l'écosystème GB300 se trouve la configuration NVL72, et le plateau de calcul Clemente de Meta offre une densité impressionnante. Ce plateau 1UO accueille deux modules NVIDIA GB300 HPM, chacun équipé d'un processeur Grace ARM couplé à deux GPU B300. Cela représente un total de quatre GPU dans un seul emplacement 1U, soit une densité doublée par rapport au précédent GB200 Catalina (qui gérait deux GPU par emplacement 1U).

Vue de face du plateau de calcul Clemente

Vue de face et répartition de la connectivité

Le panneau avant du Clemente est un hub de connectivité :

  • Mise en réseau évolutive: 4 ports OSFP 800G pour une structure IA haut débit.
  • la direction:Module DC-SCM ci-dessous.
  • E/S supplémentaires: 2 ports 400G à gauche ; 4 baies SSD NVMe E1.S à droite pour un stockage rapide.

Densité de puissance ? Le TDP du plateau atteint environ 4 200 W, avec des pointes jusqu'à 7 740 W, ce qui exige un refroidissement robuste, que nous aborderons ensuite.

Schéma fonctionnel : À l'intérieur de l'architecture GB300 Clemente

La véritable magie réside dans le schéma fonctionnel. Pour contextualiser, voici une brève comparaison avec le GB200 Catalina (mis à jour pour la prise en charge de la carte réseau CX8) :

  • Interconnexions CPU-GPUChaque processeur Grace est relié à ses deux GPU B300 via NVLink C2C. Les deux Grace se connectent via Clink x12, tandis que les B300 utilisent NVLink 5 pour les échanges intra-GPU.
  • Prouesses en matière de réseautageLa carte réseau CX8 offre un port 800G et intègre un commutateur PCIe pour la connectivité CPU (Gen5 x16), GPU (Gen6 x16) et SSD. Elle sert également de point de terminaison PCIe x1 pour la gestion. Chaque Grace dispose d'un CX7 dédié. Carte réseau 400G (Gen5 x16), avec le Grace0 principal relié au BMC via PCIe Gen5 x4.

Cette configuration garantit un flux de données transparent dans les super nœuds d'IA, minimisant les goulots d'étranglement dans la formation de modèles massifs.

Compatibilité : châssis 19 pouces dans racks ouverts 21 pouces

Clemente reste fidèle aux racines OCP : il s'agit d'un plateau 1 RU compatible avec les racks 19 pouces standard, avec des adaptateurs pour les châssis Open Rack V3 HPR 21 pouces. Les dimensions et le poids sont optimisés pour un déploiement facile ; consultez le schéma des spécifications pour plus de précision (généralement moins de 30 kg à vide).

Ensemble de bidon pour adapter un RU de 19 po à un OU de 21 po

Une approche de refroidissement fractionnée brille ici : refroidissement par air pour les composants à faible chaleur (côté gauche dans les schémas), refroidissement liquide via des plaques froides pour les composants chauds (côté droit).

Refroidissement par air pour composants à faible chaleur

L'essentiel du refroidissement liquide : conception des îles Anglo-Normandes

L'île anglo-normande de Meta refroidissement par liquide Conçu pour un TDP maximal en charge. Caractéristiques principales du GB300 Clemente :

  • Liquide de refroidissement:Mélange de 25 % de propylène glycol (PG25), comme le Frost LC-25 de Dow.
  • Température d'alimentation: 40°C standard (jusqu'à 42°C d'écart max).
  • Débit et pression:Jusqu'à 140 LPM à 15 psi delta.
  • Delta T:10-12°C à pleine charge, ce qui équivaut à 1.25-1.5 LPM/kW.

Cela maintient les GPU B300 (chacun ~ 1 100 W TDP) et Graces au frais, permettant des performances d'IA soutenues sans limitation thermique.

Spécifications de refroidissement par air

Pour les périphériques refroidis par air, les normes incluent des courbes de ventilateur standard, mais le liquide règne en maître en matière de densité.

Alimentation électrique : de 50 V d'entrée à des racks de 200 kW

Côté puissance, Clemente passe de 48 V à 50 V en entrée du GB200, avec une conversion descendante à 12 V pour les régulateurs de tension (VRM) des processeurs et des cartes graphiques. Dans un rack NVL72 (18 plateaux Clemente), prévoyez une puissance totale d'environ 200 kW, en tenant compte des commutateurs, des condensateurs et des pertes. (Conseil de pro : renseignez-vous sur les nouvelles fonctionnalités du GB300 NVL72 pour une alimentation IA stable.)

Les nouvelles fonctionnalités du NVL72 pour une puissance d'IA stable

Notes sur l'échelle :

  • Les armoires refroidies par liquide atteignent souvent 40 à 200 kW+ (selon les experts du centre de données).
  • Les futurs racks double largeur (par exemple, Panjiu d'Alibab) visent 650 kW+.

Le module DC-SCM ? Une configuration BMC simple avec puce AST2600 et CPLD pour la surveillance.

Conclusion : Pourquoi GB300 Clemente est important pour les centres de données d'IA

Le serveur d'IA refroidi par liquide GB300 de Meta, via Clemente, n'est pas seulement plus dense : il constitue un modèle pour l'avenir de l'IA désagrégée et connectée optiquement. Avec sa puissance 1U (4 GPU), son refroidissement efficace et sa compatibilité OCP, il est prêt pour les hyperscalers d'ici 2026. Alors que les racks d'IA repoussent les limites de plus de 900 kW, des conceptions comme celle-ci garantissent une évolutivité sans compromis.

Schéma fonctionnel du DC-SCM

Chez FiberMall, notre objectif est de fournir à ces écosystèmes des produits et solutions de communication optique économiques. Leader des réseaux IA, nous proposons des émetteurs-récepteurs, des câbles et des modules de haute qualité, adaptés aux centres de données, au cloud et aux configurations d'entreprise. Que vous intégriez des matrices NVLink ou des interconnexions optiques pour racks désagrégés, FiberMall a la solution. Visitez notre site web officiel ou contactez notre équipe d'assistance pour obtenir des conseils personnalisés.

Remonter en haut