NVIDIA의 차세대 가속 컴퓨팅 냉각 기술

AI 시대의 데이터 센터 혁명

인공지능, 가속 컴퓨팅, 그리고 데이터 센터의 긴밀한 통합은 이른바 제3차 과학 혁명을 예고하고 있습니다. 현대 AI 모델은 기하급수적으로 복잡해지고 있으며, 수천억 개의 매개변수를 포함하는 모델을 학습시키기 위해 컴퓨팅 성능의 수십 배에 달하는 증가를 요구하고 있습니다. 이러한 발전은 전산 유체 역학, 기후 시뮬레이션, 유전체 시퀀싱과 같은 최첨단 분야에 매우 중요합니다.

데이터 센터 공기 흐름 분배 밸런싱 및 CRAH 반환 공기 온도
데이터 센터 공기 흐름 분배 균형 및 CRAH 반환 공기 온도 제한

데이터 센터의 진화

  • Selene 2021: 이 시스템은 4,480개의 A100 GPU를 사용하여 3 exaFLOPS의 컴퓨팅 성능을 달성했습니다.
  • EOS 2023: 10,752개의 H100 GPU를 포함하도록 업그레이드된 이 구성은 10 exaFLOPS 한계를 돌파했습니다.
  • 차세대 AI 팩토리: 계획에는 32,000개의 Blackwell GPU를 배치하여 645 exaFLOPS의 컴퓨팅 성능과 58,000TB/s의 향상된 대역폭을 제공하는 것이 포함됩니다.

이러한 극적인 진전으로 인해 고밀도 GPU 클러스터를 활용하여 실시간으로 대규모 AI 계산을 수행하는 새로운 종류의 "AI 팩토리"가 등장하여 컴퓨팅 대여 모델에 획기적인 변화를 가져왔습니다.

기존 냉각 솔루션의 한계

현재 데이터 센터는 주로 세 가지 공기 냉각 솔루션에 의존합니다.

공랭식 CRAC/CRAH 시스템

  • 적용 시나리오: 저밀도 랙(5kW 미만).
  • 건축적 특징: 이 시스템은 바닥 공기 공급을 이용한 데이터 센터 수준의 중앙 냉각을 기반으로 합니다.
  • 에너지 효율성 제약: 전력 사용 효율(PUE) 수치는 일반적으로 1.5를 초과합니다.

인로우 냉각 장치

  • 적용 가능한 시나리오: 중밀도 랙(5~15kW).
  • 기술적 특징: 이 시스템은 별도의 난방 통로와 냉방 통로를 만들어서 열 방출 효율을 높이기 위해 행 수준 열교환기를 사용합니다.
  • 업그레이드 비용: 기존 데이터 센터 인프라를 상당히 수정해야 하는 경우가 많습니다.

백플레인 열교환기

  • 혁신적인 측면: 냉각 모듈은 서버 랙의 백플레인에 직접 통합되어 있으며 핫스왑 가능한 구성 요소를 지원합니다.
  • 제한 사항: 이 방법은 랙당 최대 20kW까지만 소모할 수 있습니다.
데이터 센터 공기 흐름 분배 균형 및 CRAH 반환 공기 온도 제한.
데이터 센터 공기 흐름 분배 균형 및 CRAH 반환 공기 온도 제한.

액체 냉각 기술의 부상

800Gbps 네트워크 대역폭에서 작동하는 GPU 클러스터와 800W를 초과하는 전력 소비로 인해 발생하는 과제를 고려할 때, 기존의 공랭 방식은 물리적 한계에 도달했습니다. 이에 따라 NVIDIA는 세 가지 주요 기술을 도입했습니다. 액체 냉각 솔루션 :

액체 대 공기(L2A) 측면 냉각

  • 전환적 접근 방식: 이 솔루션은 기존의 공랭식 데이터 센터와 호환되도록 설계되었습니다.
  • 기술적 주요 내용: 2U 공간 내에서 60kW의 냉각 용량을 제공할 수 있습니다.
  • 에너지 효율성: 이 냉각 방식의 전력 소비량은 전체 냉각 용량의 4%에 불과합니다.

액체-액체 CDU 시스템(L2L)

  • 혁신적인 혁신: 이 시스템은 4U 공간 내에서 2MW의 냉각 용량을 달성합니다.
  • 공간 효율성: 기존 CRAC 장치보다 에너지 효율성이 6.5배 더 높습니다.
  • 운영상의 이점: 단상 흐름 설계로 누출 위험이 크게 낮아집니다.

직접 칩 액체 냉각(DLC)

  • 궁극적인 솔루션: 이 방법은 칩 수준의 마이크로채널 냉각을 채택합니다.
  • 성능: 랙당 160kW 이상을 소모할 수 있는 기능을 갖춰 초고밀도 구성을 지원합니다.
  • 지속 가능성: 이 시스템은 1.05 미만의 PUE를 달성할 수 있습니다.
L2A 냉각 데이터 센터
L2A 냉각 데이터 센터

디지털 트윈과 지능형 운영

Omniverse 플랫폼을 활용하여 데이터 센터 디지털 트윈은 다음을 지원하도록 구성됩니다.

  • 실시간 시뮬레이션: 계산 유체 역학(CFD)과 물리 정보 신경망(PINN)을 통합하면 열역학적 행동을 정확하게 예측할 수 있습니다.
  • 고장 시뮬레이션: 정전이나 누수와 같은 극단적인 시나리오를 모델링하고 평가할 수 있습니다.
  • 지능형 규제: 강화 학습 알고리즘을 통해 동적 흐름 분포가 관리됩니다.
NVIDIA Modulus와 Omniverse를 사용하여 POD에서 열유체 역학을 실시간으로 추론합니다.
NVIDIA Modulus와 Omniverse를 사용하여 POD에서 열유체 역학을 실시간으로 추론합니다.
핵심 기술 성과 지표
핵심 기술 성과 지표

최첨단 연구 방향

새로운 냉각제 개발

  • 나노유체: 탄소 나노튜브를 통합하여 열전도도를 향상시킵니다.
  • 친환경 냉매: 오존층 파괴에 영향을 미치지 않으면서 지구 온난화 잠재력(GWP)이 1 미만인 냉매를 개발합니다.
  • 생체모방 설계: 상어 피부의 구조를 모방하여 미세채널 흐름을 최적화합니다.

신뢰성 검증 프레임워크

  • 부식 테스트: ASTM 표준을 사용하여 구리 튜브의 부식 저항성을 평가합니다.
  • 생물학적 오염 제어: 혐기성 세균의 성장을 위한 예측 모델 구축.
  • 유체 역학 실험: 6.5m/s의 고속 플러싱을 시뮬레이션하는 테스트 플랫폼을 활용합니다.
밀폐된 유리병에 담아 환경실에 보관

지속 가능한 개발 이니셔티브

폐열 회수 프로젝트

  • 매사추세츠 공과대학(MIT)과 협력하여 IT 장비에서 발생하는 폐열의 약 15%를 재활용하는 흡착 기반 냉각 장치가 개발되고 있습니다.
  • 목표: 데이터 센터를 위한 탄소 제로 생태계 구축

ARPA-E COOLERCHIPS 프로그램

  • 이 프로그램은 총 5만 달러의 자금 풀 중 일부로 미국 정부로부터 40만 달러를 지원받았습니다.
  • 핵심 목표: PUE를 1.05 미만으로 달성합니다. 랙당 160kW 이상의 전력 밀도를 달성합니다. ISO 표준 40피트 컨테이너 치수를 준수하는 컨테이너화된 배치를 채택합니다.
ARPA-E COOLERCHIPS 프로그램

미래 전망

Grace Hopper 슈퍼칩의 대량 생산으로 데이터 센터는 세 가지 주요 방향으로 발전할 것으로 예상됩니다.

  • 액체 냉각 방식의 광범위한 도입: 2025년까지 액체 냉각 서버가 전체 배포의 30% 이상을 차지할 것으로 예상됩니다.
  • 엣지 인텔리전스: 미니 액체 냉각 노드가 5G 기지국에 힘을 실어줄 것으로 예상됩니다.
  • 에너지 자율성: 액체 냉각을 활용하는 데이터 센터는 결국 100% 재생 에너지로 운영될 것입니다.

냉각 기술의 이러한 조용한 혁명은 디지털 인프라의 기반 구조를 재편하고 있습니다. 이는 컴퓨팅이 더욱 효율적이고 지능적일 뿐만 아니라 더욱 친환경적이고 지속 가능한 미래를 예고합니다.

공기 냉각 디지털 트윈
공기 냉각 디지털 트윈

코멘트 남김

위쪽으로 스크롤