2024년 GTC 컨퍼런스에서 NVIDIA는 획기적인 Blackwell AI 칩을 공개했습니다. 무엇이 차별화를 시키고, 어떤 극복할 수 없는 장벽을 극복합니까?

Blackwell의 세부 사항을 살펴보기 전에 GB200의 디자인 철학에 대한 높은 수준의 이해를 얻어보겠습니다. GB200은 NVIDIA의 가장 강력한 AI 슈퍼칩으로, 잠재적으로 세계에서 가장 강력한 AI 서버의 백본을 형성합니다. NVIDIA는 어떻게 이 업적을 달성했을까요?
답은 꼼꼼한 연구 개발과 명확한 확장 전략에 있습니다. Jensen Huang(NVIDIA CEO)은 Blackwell의 개발 비용이 약 10억 달러라고 밝혔습니다. 엄청난 투자였습니다.
이제 컴퓨팅 성능의 5가지 계층에 대해 자세히 살펴보겠습니다.
단일 칩 컴퓨팅 파워
동등한 공정 기술의 제약 하에서, 더 큰 칩 영역은 더 많은 트랜지스터를 수용합니다. 블랙웰의 칩 크기는 한계를 뛰어넘어 리소그래피 기계의 최대 노출 한계 내에서 전체 웨이퍼(800mm²)를 덮습니다. 황은 더 크게 하면 물리적 한계로 인해 전체 웨이퍼가 파손될 수 있다고 농담을 했습니다.
많은 사람들이 AI 컴퓨팅 파워를 스트리밍 멀티프로세서(SM) 코어의 축적으로 인식합니다. 이는 어느 정도 사실이지만, 단일 카드 컴퓨팅 파워의 발전을 탐구하는 것이 필수적입니다. 예를 들어, Huawei의 Ascend 910B 프로세서는 SM을 늘려 A100 수준에 접근합니다.

하지만, 우리가 볼 수 있듯이, 단일 카드 컴퓨팅 파워는 AI 역량의 첫 번째 수준에 불과합니다. 이제 이 도메인에서 블랙웰의 진전을 살펴보겠습니다.
이를 해결하기 위해 NVIDIA의 AI 가속 카드의 역사적 발전을 다시 살펴보겠습니다. 100세대 AI 가속 카드인 Volta는 AI 계산을 위해 특별히 설계된 Tensor Core 아키텍처를 도입했습니다. 이 아키텍처를 기반으로 하는 GPU V80은 각각 8개의 계산 코어(블록)를 포함하는 128개의 SM 유닛을 특징으로 합니다. 각 코어는 사이클당 16개의 1.53비트 부동 소수점 곱셈-누적 연산을 완료할 수 있습니다. 100GHz의 클록 주파수를 갖춘 V125의 부동 소수점 계산 능력은 XNUMX테라플롭(TFLOPS)에 달했습니다.

모든 사람의 이해를 돕기 위해 여기서 몇 가지 약어를 간단히 설명하겠습니다. "FLOPS"는 "Floating Point Operations Per Second"의 약자로, 초당 수행되는 부동 소수점 계산 횟수를 나타냅니다. "Tera"는 과학적 표기 단위로, 1 Tera는 1000 Giga와 같습니다. 이 맥락에서 "Tera"는 특정 크기의 순서에 해당합니다.
이제 NVIDIA의 다양한 GPU 아키텍처에 대한 세부 사항을 살펴보겠습니다.
튜링 아키텍처(T4):
- NVIDIA의 4세대 텐서 컴퓨팅 아키텍처는 "Turing"이라고 불립니다. TXNUMX 그래픽 카드를 나타냅니다.
- T4 카드에는 40개의 스트리밍 멀티프로세서(SM)가 들어 있으며, 다른 사양은 V100과 비슷합니다.
- 따라서 T4의 연산 능력은 V100의 약 절반, 즉 65 TFLOPS입니다.
암페어 아키텍처(A100):
- 100세대 텐서 처리 아키텍처는 Ampere이며, 여기에는 익숙한 AXNUMX 시리즈 그래픽 카드가 포함됩니다.
- 칩 제조 기술의 발전으로 A100은 V108과 동일한 코어 수를 갖고 있고 100개의 SM(이전 세대보다 XNUMX배 증가)을 탑재했습니다.
- 업그레이드된 컴퓨팅 유닛을 사용하면 각 코어가 사이클당 256개의 부동 소수점 곱셈과 누적을 수행할 수 있습니다(기존 아키텍처의 두 배 성능).
- 또한 A100은 딥 러닝 워크로드에 최적화된 8비트 부동 소수점(FP8) 모드를 도입합니다. 각 16비트 코어는 두 개의 8비트 코어로 작동하여 컴퓨팅 능력을 더욱 강화할 수 있습니다.
- 클록 주파수(1.41GHz)가 약간 낮아졌음에도 불구하고 A100은 V5보다 약 100배 높은 연산 능력을 달성하여 총 624 TFLOPS(FP8)에 달합니다.

호퍼 아키텍처(H100):
- 호퍼(Hopper)라고 불리는 4세대 아키텍처는 작년에 엔비디아가 출시했습니다.
- H132 시리즈는 이전 세대에 비해 SM(100)의 수가 크게 늘어나지 않았지만, 새로운 Tensor Core 아키텍처와 비동기 메모리 설계를 특징으로 합니다.
- 이제 각 SM 코어는 사이클당 16번의 FP512 곱셈 및 누적을 수행할 수 있습니다.
- 클럭 주파수는 1.83GHz로 약간 높습니다.
- 그 결과, 단일 H100 카드가 무려 1978 테라 플롭스(FP8)를 달성해 처음으로 PFLOPS(1.97 페타 플롭스) 영역에 진입했습니다.
- 이를 좀 더 이해하기 쉽게 설명하자면, 1 PFLOPS는 1000 TFLOPS와 같습니다.
- 하드 드라이브 용량을 천 배로 확장하면 1PB가 되는데, 이는 대규모 데이터 센터에서 일반적으로 사용되는 저장 단위입니다.

지난주, 황은 200세대 블랙웰 아키텍처를 공개하여 연산 능력에서 상당한 진전을 이루었습니다. 공개적으로 이용 가능한 데이터에 따르면, 새로운 FP4 데이터 유닛을 활용하는 GB20은 추론 작업에서 8페타플롭스의 연산 능력을 달성할 것으로 예상됩니다. FP10 정밀도로 다시 변환하면 여전히 인상적인 100PFLOPS를 제공할 것으로 예상되며, 이는 HXNUMX보다 약 XNUMX배 향상된 수치입니다.
공개적으로 공개된 정보에 따르면 Blackwell은 2.1GHz의 클록 주파수에서 작동합니다. 최소한의 구조적 변경을 가정하면 Blackwell은 H600의 약 100배인 100개의 스트리밍 멀티프로세서(SM)를 탑재할 것입니다. Blackwell 설계에 다이가 두 개라면 단일 다이 GPU조차도 HXNUMX보다 SM 수가 두 배 더 많습니다.
연산 능력의 놀라운 증가는 리소그래피, 칩 에칭 및 웨이퍼 크기와 관련된 물리적 제한의 발전에 크게 기인합니다. 이는 개선의 첫 번째 수준입니다. 또한, 트랜스포머 및 전용 CUDA 드라이버에 대한 최적화된 파이프라인을 포함하여 Tensor Core 아키텍처에 대한 NVIDIA의 지속적인 개선은 Blackwell의 향상된 성능에 크게 기여했습니다.

그러나 Blackwell의 컴퓨팅 파워의 근본적인 향상은 주로 SM의 수 증가에서 비롯됩니다. 2023년에 도입된 Hopper 아키텍처와 비교했을 때 Blackwell은 약 2017배의 개선을 달성합니다. 40년의 Volta 아키텍처와 비교했을 때, 그 도약은 훨씬 더 큽니다. 약 XNUMX배입니다.
두 번째 계산 능력 계층에는 Die-to-Die 상호 연결이 포함됩니다.
블랙웰은 세계에서 가장 큰 칩렛을 만들어 600개의 SM을 달성했습니다. 두 개의 GPU 코어를 직접 결합하여 단일 웨이퍼의 물리적 한계를 깨는 거대한 유닛을 만들었습니다. 이러한 코어 간의 통신 속도는 놀랍게도 10TB/s에 도달하여 거대한 단일 칩으로 인식하게 되었습니다.
포토마스크, 노출, 웨이퍼 크기, 공정 차원의 제약이 일반적으로 단일 칩의 트랜지스터 수를 제한하는 반면, 블랙웰은 이러한 경계를 무시합니다. 칩 면적은 800제곱밀리미터로, "레티클 크기"라고 하며, 포토리소그래피 기계에서 생산할 수 있는 최대 크기를 나타냅니다.

황의 야망은 거기서 끝나지 않습니다. 그는 다음 단계의 컴퓨팅 파워에 도전합니다. 두 개의 다이를 연결하여 훨씬 더 큰 칩렛을 형성합니다. 상호 연결 속도가 충분히 빠른 한, 이 두 개의 칩렛은 단일 장치로 작동할 것입니다. 세계에서 가장 큰 GPU의 탄생입니다.
왜 칩렛이 3개나 4개가 아닌 2개일까요? "하나가 2개를 낳고, 2개가 모든 것을 낳는다"는 원칙이 여기에 적용됩니다. "2개"는 현재 기술적 제약 내에서 칩 통신과 복잡성에 대한 최적의 솔루션을 나타냅니다.
애플은 또한 UltraFusion이라는 자체 듀얼 다이 상호 연결 기술을 보유하고 있지만 통신 용량은 감소했습니다(2.5TB/s에 불과). 그러나 Huang Renxun의 GPU는 산업용 제품으로 소비자 등급 전자 제품을 훨씬 능가합니다.

이 업적은 NVIDIA가 폭발적인 컴퓨팅 파워 수요에 의해 주도한 비용 없는 능력의 과시입니다. Blackwell은 NV-HBI(High Bandwidth Interface)라는 기술을 활용하여 10TB/s라는 엄청난 속도로 세계에서 가장 빠른 Die-to-Die 통신을 자랑합니다. 이 기술은 아직 공개되지 않았습니다. 우리는 이것이 NVLINK 5.0 또는 224G XSR SerDes의 변형일 수 있다고 추측하며, 총 대역폭이 48TB/s인 10개 채널 그룹을 사용합니다.
NVIDIA가 채택한 특정 기술과 관계없이, 이는 Advanced Packaging에 완전히 새로운 요구를 제기합니다. 보드 내부의 복잡한 구리선 스레딩과 PCB 뒷면의 금속 솔더 볼을 통해 패키징 회사는 복잡한 2.5D 상호 연결을 달성합니다. 이는 진정한 기술적 업적입니다. 포토리소그래피에 이어 두 번째로 패키징은 국내 칩 산업에 상당한 과제를 안겨줍니다.

요약하자면, Blackwell은 206억 개의 트랜지스터를 자랑하며, 각각 3GB 용량과 24TB/s 대역폭을 가진 최대 1개의 HBM200e 메모리 스택(192개가 아닌)을 지원합니다. 결과적으로 B8 GPU는 총 XNUMXGB의 메모리와 XNUMXTB/s 메모리 대역폭을 제공합니다.
Blackwell GPU의 연구 개발 비용은 무려 10억 달러입니다. 궁극의 단일 GPU 컴퓨팅 파워를 달성하는 것은 NVIDIA의 AI 슈퍼컴퓨팅 프로세서를 위한 첫 번째 방어선입니다.
3개, 4개 또는 그 이상의 GPU를 상호 연결하는 문제에 대해 황 런쉰은 그 과제를 차세대 컴퓨팅 파워인 NVLink에 맡깁니다.
NVIDIA의 Blackwell 아키텍처의 세 번째 컴퓨팅 성능에는 NVLink가 포함되며 72개의 GPU를 상호 연결합니다.
두 개의 다이를 하나의 GPU로 결합하는 것이 강력해 보이지만, 실제적인 애플리케이션에는 여전히 더 많은 것이 필요합니다. 수천억 개의 매개변수가 있는 대규모 언어 모델의 경우, 수조 개의 토큰이 있는 방대한 텍스트 코퍼스에서 적시에 학습을 달성하려면 광범위한 병렬 컴퓨팅이 필요합니다.
데이터 병렬성은 한 측면으로, 모델 가중치와 개별 레이어를 병렬 계산을 위해 여러 GPU에 분산해야 하며, 3차원 분할 정복 가속을 달성합니다. 대규모 언어 모델의 병렬 학습을 위해 이 주제에 대한 HuggingFace의 통찰력을 참조할 수 있습니다.

우리가 이해해야 할 점은 충분한 메모리가 있더라도 단일 GPU로는 대규모 언어 모델을 훈련하기에 부족하다는 것입니다.
NVIDIA의 솔루션은 단일 마더보드에 두 개의 Blackwell GPU와 Arm 프로세서(Grace CPU)를 조립하는 것을 포함합니다. GB200(Grace Blackwell 200)이라는 이름의 이 제품은 두 개의 Blackwell GPU와 네 개의 다이를 자랑하며, FP8 연산 능력은 20 PFLOPS로 단일 GPU의 두 배입니다. 두 GPU는 Grace CPU의 도움을 받아 NVLink 기술을 통해 상호 연결되어 GPU당 1.8TB/s의 통신 대역폭과 3.6TB/s의 총 대역폭을 달성합니다. 구체적인 연결은 아래 다이어그램에 나와 있습니다.

그 후, NVIDIA는 이러한 PCB 보드 36개(랙이라고 함)를 표준 서버 섀시로 조립합니다. 이 36개의 메인보드는 구리 케이블 전기 신호로 촉진되는 NVLink를 사용하여 상호 연결된 상태로 유지됩니다.
NVLink 5 표준에 따라 각 GPU는 최대 18개의 다른 GPU와 동시에 통신할 수 있어 총 대역폭이 1.8TB/s가 됩니다. 이는 PCIe 14의 5배입니다. 총 72개의 GPU는 130TB/s의 결합 통신 대역폭을 달성하는데, 이는 이론적으로 전체 인터넷을 수용할 수 있습니다.

72개의 Blackwell GPU 코어를 장착한 이 캐비닛은 GB200 NVL72로 명명되었습니다. 72개 GPU 상호 연결은 기존 8개 GPU 병렬 방식(예: Huawei 및 AMD)을 9배 능가합니다. NVL72의 구성 가능한 고속 HBM3e 메모리 용량은 단일 카드 192GB에서 무려 13.5TB로 늘어나며 최대 메모리 대역폭은 576TB/s입니다.
이러한 숫자는 어지러울 수 있지만, 대규모 모델 학습 속도에 미치는 영향은 부인할 수 없습니다. GPU가 두 개뿐인 GB200과 비교했을 때, NVL72의 성능 향상은 무려 36배입니다. 우리는 단순함과 무차별 대입이 만나는 슈퍼컴퓨팅의 영역에 들어섰습니다.

구체적으로 GB200 NVL72는 FP720 연산 능력에서 8 PFLOPS를 달성하고, FP1.44에서 4 Exa FLOPS로 Exa 영역에 처음으로 진입했습니다. 이는 추론 작업에서 NVL72가 H100보다 최대 30배 더 우수한 성능을 보이는 이유를 설명합니다.
엑사스케일 연산 능력은 이제 세계 최고의 슈퍼컴퓨터와 맞먹습니다. 슈퍼컴퓨터가 FP64 계산과 수백만 개의 CPU 코어를 사용하여 이 수준의 성능을 달성하는 반면, GB200 NVL72는 단 72개의 GPU로 이를 달성합니다.

4번째 계층 컴퓨팅: NVSwitch, SuperPOD
캐비닛 하나로는 충분하지 않을 때 해결책은 캐비닛을 더 추가하는 것입니다. 이 간단하고 무차별적인 접근 방식은 Jensen Huang의 Scale Up 슈퍼컴퓨팅 전략의 기본 원칙입니다.
이론적으로 NVSwitch를 활용하면 NVLink를 통해 최대 576개의 GPU 연결이 가능합니다. 우연히도 이는 NVIDIA가 GB8 SuperPOD라고 부르는 200개의 GB72-NVL200 캐비닛 구성과 일치합니다.

각 NVSwitch는 최대 144개의 NVLink 인터페이스를 제공합니다. 단일 캐비닛 내에서 9개의 NVSwitch가 필요하므로 72개의 GPU가 생성되고 각각 18개의 NVLink 연결(72 * 18 = 9 * 144)이 완전히 로드됩니다.
NVLink는 모든 GPU 간 연결을 제공합니다. 즉, 각 GPU에 업스트림과 다운스트림 채널이 모두 있어서 시스템 내의 다른 GPU에 연결할 수 있습니다.
NVLink 5는 이전 GH100 제품에 비해 상당한 이점이 있습니다. 이전 세대는 NVSwitch당 최대 64개의 NVLink 채널과 NVLINK 시스템에서 256개의 GPU를 허용했지만, GB200은 단일 캐비닛(72개의 H6)에 100개의 GPU를 수용할 수 있습니다. 256개의 캐비닛에 8개의 GPU를 사용하려면 총 72개의 NVSwitch(9 * 8)가 필요합니다.
캐비닛 사이에서 InfiniBand 표준을 사용하는 NVIDIA의 ConnectX 시리즈 네트워크 카드는 400GB/s의 이더넷을 통해 연결됩니다. 이는 묘사된 설정의 뒷면에 보이는 파란색 케이블을 설명합니다. 800G OSFP는 일반적으로 2GB/s의 400개 채널 또는 8GB/s의 100개 채널을 지원합니다.

또는 비전통적인 접근 방식은 아래에 표시된 것처럼 가장 바깥쪽 캐비닛을 상호 연결하기 위해 NVSwitch를 사용하는 것입니다. 이 구성에서 8개의 H100이 노드를 형성하여 32개의 노드가 됩니다. 각 노드는 내부적으로 4개의 NVSwitch를 사용하여 연결합니다. 다이어그램의 파이버 스위치 배열에 따라 추가 18개의 NVSwitch를 사용하여 각 노드의 여유 인터페이스를 완전히 연결합니다. 총 146개의 NVSwitch가 됩니다.

NVSwitch의 최대 집계 대역폭은 1PB/s(단일 NVLink의 약 500배)이지만, 피크 비차단 대역폭인 14.4TB/s는 단일 NVL130 캐비닛 내의 72TB/s에 크게 못 미칩니다. 따라서 성능 확장은 손실이 없습니다. 훈련 중에 통신 작업은 주로 캐비닛 내에서 이루어져야 하며, 캐비닛 간 통신은 배치 완료 후의 그래디언트 업데이트와 같은 특정 요구 사항에만 예약되어야 합니다.
의심할 여지 없이, 이 8개의 캐비닛을 살 여유가 있다면, 당신의 연산 능력(FP4 계산)은 놀랍게도 11.52 Exa FLOPS에 도달할 것입니다. 흔히 사용되는 FP8의 경우에도 5.76 Exa FLOPS입니다. 인상적이죠?
5층 컴퓨팅: AI 슈퍼 팩토리
2023년 이전 GTC 컨퍼런스에서 황은 흥미로운 이미지를 공개했습니다. 8,000개의 GPU를 지원하고, 400억 개의 매개변수를 가진 거대한 MoE 하이브리드 전문가 언어 모델을 단 20시간 만에 학습할 수 있는 시스템입니다. 그렇지 않았다면 XNUMX개월이 걸렸을 작업입니다. NVIDIA는 Azure와 같은 클라우드 공급업체와 협력할 가능성이 높으며, 이 시스템이 전 세계적으로 유일무이한 현상이라고 가정하는 것이 안전합니다.

수많은 GPU가 광 스위치와 파이버 토폴로지를 사용하여 여러 SuperPOD에 걸쳐 상호 연결될 가능성이 높습니다. 전체 데이터 센터는 GPU가 지배하는 영역이 될 것입니다. 미래에는 원자력 발전소와 함께 TV 시리즈 "웨스트월드"의 예언적인 레호보암과 매우 유사한 계산 공장의 부상을 목격할 수 있습니다. 이러한 공장은 AGI(인공 일반 지능)를 만들어 잠재적으로 인간 세계를 지배할 것입니다.
아래에서 계산 공장의 개념도를 볼 수 있고 그 뒤에 레호보암의 이미지가 나옵니다.


연산 능력은요? 여전히 궁금하시다면, 이걸 생각해보세요. 8,000개의 GPU(SuperPOD 추정치의 20배)로 FP4 계산은 전례 없는 220 Exa FLOPS에 도달할 것입니다. 흔히 사용되는 FP8의 경우에도 115 Exa FLOPS를 보고 있습니다.
관련 상품:
-
NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $550.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $650.00
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $650.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $900.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $900.00
-
NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $700.00
-
Mellanox MMA1T00-HS 호환 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 광 트랜시버 모듈 $149.00
-
NVIDIA MFP7E10-N010 호환 10m(33ft) 8 섬유 낮은 삽입 손실 암-암 MPO 트렁크 케이블 극성 B APC-APC LSZH 다중 모드 OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT 호환 3m(10피트) 800G 트윈 포트 OSFP - 2x400G 플랫 탑 OSFP InfiniBand NDR 브레이크아웃 DAC $260.00
-
NVIDIA MCP7Y70-H002 호환 2m(7피트) 400G 트윈 포트 2x200G OSFP - 4x100G QSFP56 패시브 브레이크아웃 직접 연결 구리 케이블 $155.00
-
NVIDIA MCA4J80-N003-FTF 호환 3m(10피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 활성 구리 케이블, 한쪽 끝은 평면 상단, 다른 쪽 끝은 핀형 상단 $600.00
-
NVIDIA MCP7Y10-N002 호환 가능한 2m(7피트) 800G InfiniBand NDR 트윈 포트 OSFP - 2x400G QSFP112 브레이크아웃 DAC $190.00