Meta의 GB300 액체 냉각 AI 서버: Clemente(1U 4xGPU) – AI 인프라 혁신

빠르게 진화하는 AI 데이터 센터 세계에서 수냉식 서버는 고성능 컴퓨팅의 중추입니다. 클라우드 컴퓨팅, 엔터프라이즈 네트워크 또는 AI 지원 환경을 위한 최첨단 솔루션을 찾고 있다면 Meta의 GB300 수냉식 AI 서버(코드명 Clemente)가 단연 돋보입니다. 이 강력한 1U 서버는 4개의 GPU를 컴팩트한 폼팩터에 탑재하여 밀도, 효율성, 확장성의 한계를 뛰어넘습니다. 이 블로그 게시물에서는 아키텍처, 냉각 혁신, 전력 관리, 그리고 광범위한 AI 랙 트렌드에 어떻게 부합하는지 자세히 살펴보겠습니다. IT 설계자든 데이터 센터 애호가든 GB300 Clemente를 이해하면 차세대 환경을 최적화하는 데 도움이 될 것입니다.

AI 슈퍼 노드의 진화: 통합 랙에서 분리 랙으로?

AI 슈퍼 노드의 진화

GB300의 세부 사항을 자세히 살펴보기 전에, AI 인프라 확장의 전반적인 모습을 살펴보겠습니다. 2025 OCP 글로벌 서밋에서 Meta는 "데이터 센터 지역으로의 AI 인프라 확장"이라는 주제로 AI 랙 설계의 변화를 강조했습니다. 왼쪽부터 오른쪽으로, AMD MI300X를 활용하는 기존 캐비닛, Meta의 자체 MTIA 가속기, 그리고 NVIDIA 기반 GB300을 보여줍니다.

NVIDIA 기반 GB300

대규모 스케일업 컴퓨팅 도메인에는 더 큰 랙이 필요합니다.

아래ORv3 HPRORW(오픈 랙 와이드)미래 모델
상태/시간 노드배치됨(현재)Q3 2026Q3 2027
지원되는 가속기 수≤ 72≤ 144≥ 256
상호 연결 유형케이블 백플레인케이블 백플레인(명시되지 않음, 더 발전될 것으로 예상)
전원 공급 계획48VDC / ±400VDC48VDC / ±400VDC± 400 VDC
냉각 방식공랭식 / 액랭식공랭식 / 액랭식주로 액체 냉각
랙 사양IT/전원 캐비닛 단일 너비IT 캐비닛 더블 폭IT 캐비닛 크기 미정
전원 용량(명시되지 않은)(명시되지 않은)> 900kW

대규모 AI 컴퓨팅 도메인의 주요 동향

  • 더 큰 컴퓨팅을 위한 더 큰 랙: AI 워크로드가 더 많은 xPU(가속기)를 요구함에 따라 랙은 진화하고 있습니다. Meta의 로드맵에 따르면 현재 구성에서 2027년 3분기까지 256개 이상의 xPU로 확장될 예정이며, 전력 소비량은 900kW를 초과합니다. 바로 이러한 상황에서 Meta와 AMD가 협력하여 2026년 3분기에 배포될 예정인 ORW(Open Rack Wide) 표준이 등장합니다. ORW는 향후 Instinct MI450 GPU를 지원하고 AI 인프라의 개방성을 강조합니다.
  • 분리의 증가: 기존의 "집계형" 설계는 백플레인(다이어그램의 녹색과 주황색 선 참조)을 사용하여 하나 또는 두 개의 랙에 구성 요소를 긴밀하게 통합합니다. 하지만 xPU 수가 증가함에 따라 상호 연결의 복잡성은 급격히 증가합니다. 분리형 설계의 등장: 리소스는 저밀도 랙에 분산되어 있으며, 저지연, 고대역폭 통신을 위해 광 상호 연결을 통해 연결됩니다.

GB300과 같은 AI 서버에 이 점이 중요한 이유는 무엇일까요? 분산화는 대규모 AI 학습의 탄력성을 높이고, 단일 랙 전력 및 냉각 한계를 극복하며, 광학 기술을 활용하여 전기적 병목 현상을 극복합니다. AI 및 HPC 워크로드의 효율성을 추구하는 하이퍼스케일 데이터 센터에 획기적인 변화를 가져올 것입니다.

오픈 랙 표준에 대한 자세한 내용은 AMD의 "Helios"와 Meta의 2025 OCP Dual-Wide Open Rack에 대한 최근 통찰력을 확인하세요.

미래는 분리다

GB300 NVL72 밀도: 2개의 CPU와 4개의 GPU로 1U 패키징

클레멘테 컴퓨트 트레이의 전체 모습

GB300 생태계의 핵심은 NVL72 구성이며, Meta의 Clemente Compute Tray는 뛰어난 밀도를 제공합니다. 이 1OU 트레이에는 두 개의 NVIDIA GB300 HPM 모듈각 모델은 Grace ARM CPU 1개와 B300 GPU 2개를 탑재했습니다. 1U 슬롯 하나에 총 4개의 GPU를 탑재할 수 있으며, 이는 기존 GB200 Catalina(1U당 2배의 GPU 탑재)에 비해 집적도가 두 ​​배 높아진 것입니다.

Clemente Compute Tray의 전면 모습

전면 보기 및 연결 분석

Clemente의 전면 패널은 연결 허브입니다.

  • 스케일 아웃 네트워킹: 고속 AI 패브릭을 위한 4x 800G OSFP 포트.
  • : 아래에 DC-SCM 모듈이 있습니다.
  • 추가 I/O: 왼쪽에 2개의 400G 포트, 오른쪽에 4개의 E1.S NVMe SSD 베이가 있어 빠른 저장이 가능합니다.

전력 밀도는 어떨까요? 이 트레이의 TDP는 약 4,200W이며, 최대 7,740W까지 올라갑니다. 강력한 냉각 성능이 필요한데, 이에 대해서는 다음에 자세히 다루겠습니다.

블록 다이어그램: GB300 Clemente 아키텍처 내부

진짜 마법은 블록 다이어그램에서 펼쳐집니다. 맥락을 위해 GB200 Catalina(CX8 NIC 지원으로 업데이트됨)와 간단히 비교해 보겠습니다.

  • CPU-GPU 상호 연결: 각 Grace CPU는 NVLink C2C를 통해 두 개의 B300 GPU에 연결됩니다. 두 Grace는 Clink x12를 통해 연결되고, B300은 GPU 간 통신을 위해 NVLink 5를 사용합니다.
  • 네트워킹 능력: CX8 NIC는 800G 포트 1개를 제공하며 CPU(Gen5 x16), GPU(Gen6 x16) 및 SSD 연결을 위한 PCIe 스위치를 통합합니다. 또한 관리를 위한 PCIe x1 엔드포인트로도 연결됩니다. 각 Grace에는 전용 CX7이 제공됩니다. 400G NIC (Gen5 x16) 기본 Grace0은 PCIe Gen5 x4를 통해 BMC에 연결됩니다.

이러한 설정은 AI 슈퍼 노드에서 원활한 데이터 흐름을 보장하여 대규모 모델을 훈련할 때 병목 현상을 최소화합니다.

호환성: 21인치 오픈 랙의 19인치 섀시

Clemente는 OCP의 뿌리를 충실히 따릅니다. 1RU 트레이로 표준 19인치 랙에 맞으며, 21인치 Open Rack V3 HPR 프레임용 어댑터가 포함되어 있습니다. 크기와 무게는 손쉬운 배치를 위해 최적화되어 있습니다. 정확한 무게는 사양 다이어그램을 확인하세요(일반적으로 무부하 30kg 미만).

19인치 RU를 21인치 OU로 조정하기 위한 캐니스터 어셈블리

여기서는 분할 냉각 방식이 빛을 발합니다. 낮은 발열 부품에는 공랭을 사용하고(그림의 왼쪽), 더운 발열 부품에는 냉각판을 통한 액체 냉각을 사용합니다(오른쪽).

저열 구성품에 대한 공랭

액체 냉각의 필수 요소: 채널 아일랜드 설계

메타의 채널 섬 액체 냉각 부하 시 최대 TDP를 구현하도록 설계되었습니다. GB300 Clemente의 주요 사양:

  • 냉각수: Dow's Frost LC-25와 같은 25% 프로필렌 글리콜(PG25) 블렌드.
  • 공급 온도: 40°C 기준(최대 42°C 편차).
  • 유량 및 압력: 델타 15psi에서 최대 140 LPM.
  • 델타 T: 최대 부하 시 10-12°C, 1.25-1.5 LPM/kW에 해당합니다.

이를 통해 B300 GPU(각각 약 1,100W TDP)와 Graces가 냉각 상태를 유지하여 열 조절 없이 지속적인 AI 성능을 발휘할 수 있습니다.

공기 냉각 사양

공랭식 주변 장치의 경우 표준 팬 곡선이 기준에 포함되지만 밀도에 있어서는 액체가 더 우세합니다.

전력 공급: 50V 입력부터 200kW 랙까지

전력 측면에서 Clemente는 GB200의 48V 입력 전압을 50V로 높여 CPU 및 GPU의 VRM을 위해 12V로 다운컨버팅합니다. NVL72 랙(Clemente 트레이 18개)에서는 스위치, 커패시터, 손실을 고려하여 총 약 200kW의 전력을 예상할 수 있습니다. (전문가 팁: 안정적인 AI 전력 공급을 위한 GB300 NVL72의 새로운 기능에 대해 알아보세요.)

안정적인 AI 전력을 위한 NVL72의 새로운 기능

척도에 대한 참고 사항:

  • 액체 냉각 캐비닛은 종종 40~200kW 이상(데이터 센터 전문가 기준)에 달합니다.
  • 미래의 듀얼 와이드 랙(예: Alibab의 Panjiu)은 650kW 이상을 목표로 합니다.

DC-SCM 모듈? AST2600 칩과 모니터링용 CPLD를 탑재한 간단한 BMC 구성입니다.

마무리: GB300 Clemente가 AI 데이터 센터에 중요한 이유

Clemente를 통해 출시된 Meta의 GB300 수냉식 AI 서버는 단순히 밀도가 높은 것이 아니라, 분산형 광 연결 AI의 미래를 위한 청사진입니다. 1U 4xGPU 용량, 효율적인 냉각, 그리고 OCP(Open Processing Protocol) 호환성을 갖춘 이 서버는 2026년 이후의 하이퍼스케일러에 적합합니다. AI 랙이 900kW 이상의 한계를 넘어섬에 따라, 이러한 설계는 타협 없는 확장성을 보장합니다.

DC-SCM의 블록 다이어그램

FiberMall은 비용 효율적인 광통신 제품과 솔루션을 통해 이러한 생태계를 강화하는 데 전념합니다. AI 기반 네트워크 분야의 선두주자로서, FiberMall은 데이터 센터, 클라우드 및 엔터프라이즈 환경에 최적화된 고품질 트랜시버, 케이블 및 모듈을 제공합니다. NVLink 패브릭 통합이든 분산형 랙을 위한 광 상호 연결이든, FiberMall은 모든 솔루션을 제공합니다. 맞춤형 상담을 원하시면 공식 웹사이트를 방문하시거나 지원팀에 문의하세요.

위쪽으로 스크롤