Technologie de refroidissement accéléré de nouvelle génération de NVIDIA

La révolution des centres de données à l'ère de l'IA

L'intégration poussée de l'intelligence artificielle, du calcul accéléré et des centres de données marque le début de ce que l'on pourrait appeler la troisième révolution scientifique. Les modèles d'IA modernes gagnent en complexité à un rythme exponentiel, exigeant des puissances de calcul de plusieurs ordres de grandeur pour l'entraînement de modèles contenant des centaines de milliards de paramètres. Ces avancées sont cruciales pour des domaines de pointe tels que la dynamique des fluides numérique, la simulation climatique et le séquençage génomique.

Équilibrage de la distribution du flux d'air du centre de données et température de l'air de retour du CRAH
Équilibrage de la distribution du flux d'air du centre de données et limitations de la température de l'air de retour du CRAH

L'évolution des centres de données

  • Selene 2021 : Ce système utilisait 4,480 100 GPU A3 pour atteindre une performance de calcul de XNUMX exaFLOPS.
  • EOS 2023 : mise à niveau pour inclure 10,752 100 GPU H10, cette configuration a franchi le seuil des XNUMX exaFLOPS.
  • Usine d'IA de nouvelle génération : les plans incluent le déploiement de 32,000 645 GPU Blackwell, qui offriront une capacité de calcul de 58,000 exaFLOPS et une bande passante améliorée de XNUMX XNUMX To/s.

Cette progression spectaculaire a conduit à l’émergence d’une nouvelle génération d’« usines d’IA », qui utilisent des clusters de GPU à haute densité pour effectuer des calculs d’IA à grande échelle et en temps réel, entraînant ainsi des changements transformateurs dans le modèle de location de calcul.

Limites des solutions de refroidissement traditionnelles

Actuellement, les centres de données s'appuient principalement sur trois solutions de refroidissement par air :

Systèmes CRAC/CRAH refroidis par air

  • Scénario applicable : Racks à faible densité (moins de 5 kW).
  • Caractéristiques architecturales : Ces systèmes sont basés sur un refroidissement centralisé au niveau du centre de données, utilisant une distribution d'air sous le plancher.
  • Contraintes d’efficacité énergétique : les chiffres d’efficacité énergétique (PUE) dépassent généralement 1.5.

Unités de refroidissement en rangée

  • Scénario applicable : Racks de densité moyenne (entre 5 et 15 kW).
  • Caractéristiques techniques : En créant des allées chaudes et froides séparées, ces systèmes utilisent des échangeurs de chaleur au niveau des rangées pour une dissipation thermique plus efficace.
  • Coûts de mise à niveau : ils nécessitent souvent des modifications importantes de l’infrastructure existante du centre de données.

Échangeurs de chaleur de fond de panier

  • Aspect innovant : le module de refroidissement est directement intégré dans le fond de panier du rack serveur et prend en charge les composants remplaçables à chaud.
  • Limitation : Cette méthode ne peut dissiper que jusqu'à 20 kW par rack.
Équilibrage de la distribution du flux d'air du centre de données et limitations de la température de retour de l'air CRAH.
Équilibrage de la distribution du flux d'air du centre de données et limitations de la température de retour de l'air CRAH.

L'essor de la technologie de refroidissement liquide

Compte tenu des défis posés par les clusters de GPU fonctionnant avec une bande passante réseau de 800 Gbit/s et des consommations électriques supérieures à 800 W, les méthodes traditionnelles de refroidissement par air ont atteint leurs limites physiques. Pour y remédier, NVIDIA a introduit trois solutions majeures. refroidissement par liquide :

Refroidissement latéral liquide-air (L2A)

  • Approche transitoire : cette solution est conçue pour être compatible avec les centres de données refroidis par air existants.
  • Points forts techniques : Dans un espace 2U, il peut fournir une capacité de refroidissement de 60 kW.
  • Efficacité énergétique : La consommation électrique de cette méthode de refroidissement ne représente que 4 % de la capacité de refroidissement globale.

Système CDU liquide-liquide (L2L)

  • Percée révolutionnaire : dans un espace 4U, ce système atteint une capacité de refroidissement de 2 MW.
  • Efficacité spatiale : Il est 6.5 fois plus économe en énergie que les unités CRAC traditionnelles.
  • Avantages opérationnels : La conception du flux monophasé réduit considérablement le risque de fuite.

Refroidissement liquide direct sur puce (DLC)

  • Solution ultime : cette méthode utilise un refroidissement par microcanaux au niveau de la puce.
  • Performances : Il prend en charge les configurations à très haute densité, avec la capacité de dissiper plus de 160 kW par rack.
  • Durabilité : Le système peut atteindre un PUE inférieur à 1.05.
Centre de données refroidi L2A
Centre de données refroidi L2A

Jumeau numérique et opérations intelligentes

En s'appuyant sur la plateforme Omniverse, les jumeaux numériques des centres de données sont construits pour permettre :

  • Simulation en temps réel : l'intégration de la dynamique des fluides numérique (CFD) avec les réseaux neuronaux basés sur la physique (PINN) permet des prédictions précises du comportement thermodynamique.
  • Simulation de panne : des scénarios extrêmes, tels que des pannes de courant et des fuites, peuvent être modélisés et évalués.
  • Régulation intelligente : la distribution dynamique du flux est gérée par des algorithmes d'apprentissage par renforcement.
Inférence en temps réel de la dynamique thermo-fluide dans un POD à l'aide de NVIDIA Modulus et Omniverse.
Inférence en temps réel de la dynamique thermo-fluide dans un POD à l'aide de NVIDIA Modulus et Omniverse.
Indicateurs clés de performance technique
Indicateurs clés de performance technique

Des orientations de recherche de pointe

Développement de nouveaux agents de refroidissement

  • Nanofluides : incorporation de nanotubes de carbone pour améliorer la conductivité thermique.
  • Réfrigérants écologiques : Développement de réfrigérants avec un potentiel de réchauffement global (PRG) inférieur à 1 qui ne contribuent pas à l’appauvrissement de la couche d’ozone.
  • Conception biomimétique : optimisation du flux des microcanaux en reproduisant la structure de la peau de requin.

Cadre de vérification de la fiabilité

  • Essais de corrosion : utilisation des normes ASTM pour évaluer la résistance à la corrosion des tubes en cuivre.
  • Contrôle de la contamination biologique : établissement de modèles prédictifs pour la croissance des bactéries anaérobies.
  • Expériences de dynamique des fluides : utilisation de plates-formes d'essai simulant un rinçage à grande vitesse à 6.5 m/s.
Bocaux en verre hermétiques conservés dans une chambre environnementale

Initiatives de développement durable

Projets de récupération de chaleur perdue

  • En collaboration avec le Massachusetts Institute of Technology (MIT), des unités de refroidissement par adsorption sont en cours de développement pour recycler environ 15 % de la chaleur résiduelle générée par les équipements informatiques.
  • Objectif : Construire un écosystème zéro carbone pour les centres de données.

Programme ARPA-E COOLERCHIPS

  • Le programme a reçu 5 millions de dollars du gouvernement américain dans le cadre d’un financement total de 40 millions de dollars.
  • Objectifs principaux : Atteindre un PUE inférieur à 1.05 ; Atteindre une densité de puissance supérieure à 160 kW par rack ; Utiliser des déploiements conteneurisés conformes aux dimensions des conteneurs de 40 pieds de la norme ISO.
Programme ARPA-E COOLERCHIPS

Perspectives d'avenir

Avec la production en masse des superpuces Grace Hopper, les centres de données devraient évoluer selon trois trajectoires principales :

  • Adoption généralisée du refroidissement liquide : d’ici 2025, les serveurs refroidis par liquide devraient constituer plus de 30 % de tous les déploiements.
  • Edge Intelligence : des mini-nœuds de refroidissement liquide devraient alimenter les stations de base 5G.
  • Autonomie énergétique : les centres de données utilisant le refroidissement liquide fonctionneront à terme avec une énergie 100 % renouvelable.

Cette révolution silencieuse dans le domaine des technologies de refroidissement remodèle l'architecture fondamentale des infrastructures numériques. Elle annonce un avenir où l'informatique sera non seulement plus efficace et intelligente, mais aussi plus verte et durable.

Jumeau numérique à refroidissement par air
Jumeau numérique à refroidissement par air

Laisser un commentaire

Remonter en haut