Hotchip 2025 0일차 튜토리얼: AI 워크로드, 랙 아키텍처 및 맞춤형 GB200 솔루션에 대한 필수 통찰력

끊임없이 진화하는 AI와 데이터 센터 기술 분야에서 Hotchip 2025는 풍성한 Day 0 튜토리얼 라인업으로 시작되었습니다. 업계의 주요 행사인 올해 세션들은 오전에는 데이터 센터 랙, 오후에는 커널 프로그래밍에 중점을 두어 흥미진진한 서막을 열었습니다. 본 기사에서는 하드웨어 중심의 오전 세션을 심층적으로 다루며, 특히 Meta의 혁신적인 Nvidia GB200 커스텀 솔루션에 주목합니다. AI 기반 통신 네트워크 전문가들에게 이러한 발전은 견고한 광 통신 솔루션의 필요성을 강조합니다. 글로벌 데이터 센터, 클라우드 컴퓨팅, 엔터프라이즈 네트워크, 액세스 네트워크 및 무선 시스템을 위한 비용 효율적인 솔루션을 제공하는 전문 기업 FiberMall을 만나보세요. AI 기반 네트워크 분야의 선두 주자로 정평이 난 FiberMall은 고품질의 가치 중심 솔루션을 위한 이상적인 파트너입니다. 자세한 내용은 공식 웹사이트를 방문하거나 고객 지원팀에 문의하십시오.

AI 워크로드를 최적화하든 패브릭 기술을 확장하든, 이러한 트렌드를 이해하면 인프라를 혁신할 수 있습니다. 주요 세션을 자세히 살펴보겠습니다.

1. AI 워크로드가 랙 시스템 아키텍처를 형성하는 방식

AMD의 이 세션은 지난 10년 이상의 AI 진화를 종합적으로 회고하는 자리였습니다. 상징적인 GTX 580과 AlexNet 시대(499달러라는 저렴한 가격)부터 시작하여, 오늘날 엔비디아의 급등하는 GPU 가격과 미묘한 대조를 이루었습니다.

AI 워크로드가 랙 시스템 아키텍처를 형성하는 방식

이 강연에서는 다양한 병렬화 전략과 그에 따른 상호 연결 구조의 변화를 간략하게 다루었습니다. 이는 칩 엔지니어들이 최근 몇 년간 인프라 팀들이 어떤 노력을 해왔는지 이해하는 데 도움이 되는 교육적 교량 역할을 했습니다.

AI 모델 빌딩 블록

주요 특징으로는 FP32에서 FP4로의 숫자 형식 발전이 있으며, 이는 효율성 향상을 반영합니다. 칩 패키지 크기가 급증하고 있으며, 이에 따라 스케일업 영역도 확장되고 있습니다. AI 랙 아키텍처를 다루는 사람들에게 이러한 발전은 확장 가능한 광 상호 연결의 중요성을 강조합니다. FiberMall의 AI 기반 통신 네트워크 전문성은 이러한 요구에 대한 완벽한 통합을 보장합니다.

2. AI 클러스터를 위한 패브릭 기술 확장

AMD가 주도한 또 다른 세션에서 스케일업의 핵심을 심도 있게 다루었습니다. 일반적인 스케일업 기술은 나열했지만, 화웨이의 UB는 언급하지 않아 감점을 받았습니다!

확장 가능한 패브릭 기술

프레젠테이션에서는 차이점을 명확히 했습니다. 스케일업과 스케일아웃 접근 방식. 스위치 기수와 데이터 경로가 스케일업 GPU 수와 대역폭에 얼마나 중요한 영향을 미치는지 강조했습니다.

스케일업 대 스케일아웃

일반적인 단일 계층 스케일업 네트워크가 소개되었고, 이어서 L2 스케일업과 L1 스위치 기반의 L1.5 메시 구축에 대한 설명이 이어졌습니다. 전반적으로 처음 두 세션은 교육적인 개요에 중점을 두어 AI 클러스터 스케일링 초보자에게 적합했습니다. 데이터 센터에 이러한 솔루션을 구현하는 경우, FiberMall의 비용 효율적인 광 솔루션은 최고의 성능을 위해 패브릭 기술을 최적화할 수 있습니다.

대체 토폴로지

3. 구글의 특성을 활용한 액체 냉각

Google은 모듈식 액체 냉각 펌프 설계 등을 중심으로 TPU 경험에서 얻은 통찰력을 공유했습니다.

디자인 배포
프로젝트 데슈츠 CDU

특히, 5세대 시스템은 1MW 랙에 맞춰 설계되어 AI 인프라의 열 관리 한계를 넓혔습니다. 이러한 고밀도 환경에서 안정적인 냉각은 필수적입니다. FiberMall의 광통신 제품은 이러한 혁신을 실현하는 기반 네트워크를 지원합니다.

4. 재설계된 전력 시스템

Microsoft에서 발표한 이 세션에서는 800VDC 전력 공급에 대해 소개했습니다. 단일 캐비닛 내 확장으로 더 많은 GPU가 필요해짐에 따라 전력 변환기가 외부화되고 있으며, 이는 랙 전력 분리(RPD)로 이어집니다.

인프라 최적화

전력망은 오늘날의 다단 AC 변압기에서 800V 중전압 DC(MVDC) 시스템으로 발전했는데, 이는 주로 종단에서 AC-DC 변환으로 인한 손실을 줄이기 위한 것입니다.

AI 시스템 전원

향후 800V 솔리드 스테이트 변압기(SST) 도입은 상당한 효율 향상을 가져올 것으로 예상됩니다. 하지만 이면에 대규모 학습으로 인해 GPU 시작-정지가 동기화되어 고조파 및 무효 전력 문제로 인해 전력망에 부담을 주고 있습니다. 현재 이러한 문제를 완화하기 위한 방안으로는 캐비닛 레벨 배터리(BBU)와 커패시터(CBU)가 있습니다. MVDC는 이러한 배터리에 대해 인로우(in-row) 또는 SST 레벨 보상을 허용합니다.

요약하자면, 800V MVDC는 데이터 센터의 전력 손실을 절반으로 줄여 획기적인 변화를 가져올 수 있습니다. AI 전력 시스템의 경우, FiberMall과 같은 공급업체의 광 네트워크와 통합하면 전체적인 효율성을 보장할 수 있습니다.

5. 사례 연구: Nvidia GB200 NVL72

엔비디아는 작년 OCP 서밋에서 발표된 PPT를 재활용했습니다. (매우 실망스러운 내용입니다.) AI 랙 마니아들에게 새로운 가치를 거의 제공하지 못했기 때문에 자세한 내용은 생략하겠습니다.

6. 사례 연구: Meta의 Catalina(NVL72)

단연코 오늘의 가장 눈에 띄는 세션이었습니다. Meta의 GB200 랙 커스텀이 시선을 사로잡았습니다. 맥락을 파악하기 위해 AWS의 7월 GB200 인스턴스 릴리스와 비교해 커스텀의 차이점을 확인해 보세요.

Meta의 NVL72는 6개의 캐비닛으로 구성됩니다. 액체 냉각 각 끝에 유닛이 있습니다(AWS의 근거리 펌프를 모방하여 데이터 센터 개조를 최소화하기 위해 직접 공기 냉각 방식을 사용합니다). 가운데에는 NVL36 캐비닛을 쌍으로 사용합니다.

메타의 카탈리나

공식적으로 Nvidia의 GB200은 Grace 1개와 B200 2개를 결합하여 총 18개의 트레이를 제공합니다. Meta는 Grace와 B200을 1:1로 결합하여 메모리 확장을 위한 36개의 컴퓨팅 트레이를 제공합니다.

비공식적으로는 더 깊은 동기가 존재합니다. 엔비디아의 표준 CX7 기반 토폴로지는 각 Grace가 PCIe x1을 통해 두 대의 B200을 연결하며, Grace당 CX7 두 대가 사용됩니다(B200당 400Gbps 스케일아웃). 두 대의 Grace는 6개의 Clink를 통해 연결됩니다.

GPU-Direct-RDMA(GDR)의 경우 PCIe GDR은 Gen4 x1 대역폭으로 제한되므로 Grace 및 NVLink C2C 액세스에 메모리 할당이 필요합니다.

시뮬레이션 결과 B200이 필요함을 보여주었습니다. 800Gbps 스케일아웃. AWS는 외부 PCIe 스위치(Gen5, 현재 400Gbps로 제한됨)를 사용합니다. Nvidia의 CX8은 PCIe 스위치를 내장하고 있지만, 관리를 위해 x1 Grace 링크를 유지하며 PCIe를 통해 Grace로 데이터를 라우팅한 후 NVLink C2C로 전송합니다. 따라서 NCCL 2.27의 특수 처리가 필요합니다.

메타의 해결책: 1:1 비율로 Grace는 두 개의 Gen5 x16 CX7 NIC를 연결하여 B200당 800Gbps 속도를 구현합니다. B200은 Grace에 Gen4 x1 PCIe를 계속 사용하지만, 진정한 GDR은 직접 연결되지 않습니다. DMA는 Grace의 PCIe RC와 NVLink C2C를 통해 라우팅됩니다.

1:1 구성에서는 NIC-to-CPU가 유리합니다. CPU 메모리 공유로 인한 병목 현상이 발생하지 않습니다. GPU는 CPU 메모리를 통해 RDMA를 처리하여 HBM 대역폭을 최대 200GB/s 절약합니다.

Clink between Graces는 시스템 간 대역폭을 높이기 위해 12개 레인으로 두 배로 확장됩니다. CX8을 완전히 지원하지 않더라도 Meta의 접근 방식은 CPU 메모리를 늘리는 동시에 확장성을 800Gbps로 향상시킵니다.

추측컨대, Grace + CX7은 초대형 BF3를 모방합니다. 즉, 한쪽에는 스케일아웃, 다른 한쪽에는 메모리 시맨틱 스케일업을 갖춘 거대한 DPU와 충분한 메모리를 갖추고 있습니다. 이는 2021년 NetDAM과 유사하며, KVCache에 이점을 제공하고 INCA를 활성화하거나 NVLink C2C를 통해 Grace로 통신 작업을 오프로드합니다.

Meta의 컴퓨팅 캐비닛에는 중복성을 위한 내장 BBU가 포함되어 있습니다.

Meta의 컴퓨팅 캐비닛에는 이중화를 위한 내장 BBU, 예비 부품을 갖춘 확장형 파이버 패치 패널이 포함되어 있습니다. Wedge400 스위치 두 개가 프런트엔드를 처리합니다(CX7 + DC-SCM 보안 모듈을 통해 Grace당 200Gbps - BF3는 제공되지 않음).

스케일아웃은 분산된 예약된 패브릭을 사용합니다.

확장형은 분산된 예약 패브릭을 사용합니다(아마도 Cisco Silicon One에서 영감을 받아 다중 경로 해시 충돌을 해결).

각 트레이의 PDB에서 누출 감지

추가 사항: 각 트레이의 PDB에서 누출 감지, GPIO/I2C를 위한 RJ45를 통한 랙 관리 컨트롤러(RMC)와의 인터페이싱, 외부 센서.

원격 관리를 위한 OCP 사양 BMC+TPM

최종: 원격 관리를 위한 OCP 사양 BMC+TPM(BF3 없음).

Meta와 같은 맞춤형 AI 랙의 경우

Meta와 같은 맞춤형 AI 랙의 경우 FiberMall의 AI 지원 광 네트워크는 안정적이고 고대역폭 상호 연결을 위한 백본을 제공합니다.

7. TPU 랙 개요

Google은 TPU 랙 세부 정보로 마무리했습니다. 작년 분석에서는 ICI 상호 연결 라우팅, 보호, 탄력성 및 스케줄링에 대해 다루었습니다.

TPU 랙 개요

이번에는 Ironwood 랙을 4x4x4 블록으로 구성하여 중복성과 패치 패널이 있는 파이버 번들을 통해 OCS 광 스위치에 연결합니다.

4x4x4 블록으로 만든 아이언우드 랙
액체 냉각과 UPS는 행 수준입니다.

액체 냉각과 UPS는 행 수준입니다.

랙 매니폴드

결론적으로, Hotchip 2025의 Day 0은 최첨단 AI 데이터 센터 혁신의 토대를 마련했습니다. 이러한 통찰력이 귀사의 시스템에 대한 아이디어를 떠올리게 한다면, AI 워크로드에 최적화된 최고급 광통신 솔루션을 제공하는 FiberMall을 고려해 보십시오.

위쪽으로 스크롤