NVIDIA의 최신 하드웨어 분석: B100/B200/GH200/NVL72/SuperPod

살펴보기

이전에 NVIDIA의 최신 Blackwell GPU에 대해 간략하게 소개한 바 있으나, NVIDIA의 최신 Blackwell GPU에 대한 모호함이나 모호한 개념 등 일부 내용은 쉽게 오해될 수 있습니다. off공식 소개. 또한, 우리는 성능이 수십 배 향상되었다는 믿음과 같이 차세대 GPU의 기능에 대해 일부 오해를 보았습니다. 따라서 우리는 모든 사람이 보다 포괄적이고 공정한 비교를 할 수 있도록 다양한 데이터를 종합적으로 요약하기로 결정했습니다.

이 기사에서는 B100, B200, GH200, NVL72를 포함한 NVIDIA의 Blackwell GPU와 SuperPod-576 및 해당 ConnectX-800G 네트워크 카드, Quantum-X800 IB 스위치 및 Spectrum에 대한 하드웨어 정보를 종합적으로 수집했습니다. -X800 이더넷 스위치를 이전 시리즈와 추가로 비교했습니다. 기사 내용 중 일부는 표 일부의 빨간색 부분 등 다양한 정보를 바탕으로 추론한 데이터이며, 최종 데이터는 아래의 규정에 따릅니다. official 백서(아직 본 적이 없음). 또한 소프트웨어 생태계와 관련된 콘텐츠는 포함되지 않습니다.

진화

NVIDIA는 19년 2024월 200일에 최신 Blackwell 아키텍처 GPU를 출시했으며, 주요 GPU로는 B100, B200, GB200 GPU와 해당 GB72-NVL200 및 GBXNUMX-SuperPod가 있습니다. 다양한 GPU 간의 관계는 아래 그림에 나와 있습니다.

진화

단일 GPU

아래 표는 Ampere, Hopper 및 최신 Blackwell 시리즈에서 가장 강력한 GPU를 보여줍니다. 메모리, 컴퓨팅 파워, NVLink 등이 모두 점차 강화되고 있는 것을 볼 수 있습니다. (참고: NVIDIA는 H100 NVL이라는 두 개의 H100 PCIe 버전이 NVBridge를 통해 연결되는 특수 솔루션도 출시했지만 여전히 두 개의 GPU이므로 자세한 내용은 여기서 논의하지 않습니다.)

A100 -> H100: FP16 고밀도 컴퓨팅 성능은 3배 이상 증가한 반면 전력 소비는 400W에서 700W로만 증가했습니다.

H200 -> B200: FP16 고밀도 컴퓨팅 성능이 2배 이상 증가한 반면, 전력 소비는 700W에서 1000W로 증가했습니다.

B200 FP16 고밀도 컴퓨팅 성능은 A7의 약 100배인 반면, 전력 소비는 2.5배에 불과합니다.

Blackwell GPU는 FP4의 두 배에 달하는 컴퓨팅 성능으로 FP8 정밀도를 지원합니다. NVIDIA 보고서의 일부 데이터는 FP4 컴퓨팅 성능을 Hopper 아키텍처 FP8 컴퓨팅 성능과 비교하므로 가속 비율은 더욱 과장됩니다.

다음 사항에 유의해야합니다.

GB200은 전체 B200 칩을 사용하는 반면 B100 및 B200은 이에 상응하는 간단한 버전입니다.

GB200은 전체 B200 칩을 사용합니다.

HGX 서버

HGX는 일반적으로 8개 또는 4개의 GPU를 포함하고 일반적으로 Intel 또는 AMD CPU와 쌍을 이루고 NVLink 및 NVSwitch를 사용하여 전체 상호 연결을 달성하는 NVIDIA의 고성능 서버입니다(NVL을 제외하면 일반적으로 8개의 GPU가 NVLink 전체 상호 연결의 상한입니다). 그리고 슈퍼팟).

HGX A100 -> HGX H100, HGX H200에서 FP16의 고집적 컴퓨팅 성능은 3.3배 증가한 반면, 전력 소모량은 2배 미만입니다.

HGX H100과 HGX H200 -> HGX B100과 HGX B200에서 FP16의 고집적 컴퓨팅 성능은 약 2배 증가한 반면, 전력 소모량은 많아야 50%를 넘지 않을 정도로 비슷합니다.

다음 사항에 유의해야합니다.

HGX B100 및 HGX B200의 네트워크는 업그레이드되지 않았으며 IB 네트워크 카드는 여전히 8x400Gb/s입니다.

HGX B100 및 HGX B200

NVL 및 슈퍼팟

NVIDIA는 HGX 시리즈 GPU 서버 외에도 최신 Grace CPU + GPU 솔루션을 사용하고 액체 냉각 시스템에 해당하는 전체 캐비닛 및 클러스터용 솔루션도 보유하고 있습니다. 아래 표는 Hopper 아키텍처 및 Blackwell 아키텍처에 해당하는 NVL 캐비닛과 SuperPod를 보여줍니다.

NVL32 -> NVL72: GPU 수는 32개에서 72개로 늘었고, FP16의 집약적 컴퓨팅 파워는 32P에서 180P로 거의 6배 늘었고, 소비전력도 40kW(구체적인 수치는 나오지 않음, 추정 데이터)에서 120kW로 늘어났다. , 거의 3 번.

GH200 SuperPod -> GB200 SuperPod: GPU 개수가 256개에서 576개로 늘어났고, FP16 밀도 컴퓨팅 성능은 256P에서 1440P로 거의 6배나 증가했는데, 이에 따른 전력 소모량은 확인되지 않았습니다.

8Gb/s 대역폭의 최신 ConnectX-800 IB 네트워크 카드는 NVL72 및 GB200 SuperPod에서 사용되는 반면, HGX B100 및 HGX B200은 여전히 ​​7Gb/s 대역폭의 ConnectX-400 IB 네트워크 카드를 사용합니다.

다음 사항에 유의해야합니다.

NVIDIA는 GB200 SuperPod가 8개의 NVL72로 구성되어 있는 반면, GH200 SuperPod는 8개의 NVL32로 구성되어 있지 않다고 소개했습니다.

GB1 SuperPod의 L2 NVSwitch 트레이 및 L200 NVSwitch 트레이 수는 확인되지 않았으며 추정 데이터입니다.

GB200 슈퍼팟

블랙웰 GPU

Blackwell GPU와 H100 GPU는 모두 TSMC의 4N 프로세스 기술을 사용합니다. H100에는 80억 개의 트랜지스터가 포함되어 있고 Blackwell GPU에는 208억 개의 트랜지스터가 포함되어 있습니다. 그러나 H100은 단일 다이(단일 완전한 반도체 장치) 패키지인 반면 Blackwell GPU는 다이 2개가 있는 멀티 다이 패키지입니다.

각 Blackwell GPU 다이는 H1.25의 컴퓨팅 성능의 약 100배를 가지며, 두 다이를 합치면 H2.5의 컴퓨팅 성능이 약 100배 더 높습니다. 이는 트랜지스터의 수에서도 알 수 있습니다.

두 다이 사이의 통신 대역폭은 10TB/s입니다.

메모리는 HBM3e를 사용하며 각 칩의 크기는 24GB이고 이론적 대역폭 제한은 1.2TB/s이며 실제 대역폭은 1TB/s입니다. 전체 Blackwell GPU에는 이러한 메모리 칩이 8개 있습니다.

요약하자면, 완전한 Blackwell GPU의 주요 사양은 다음과 같습니다.

희소 컴퓨팅 성능(고집적 컴퓨팅 성능 * 2):

FP16: 5P 플롭(2*2.5P)

FP8/FP6/INT8: 10P 플롭(2*5P)

FP4: 20P 플롭(2*10P)

메모리 :

크기: 192GB(8*24GB)

대역폭: 8TB/s(8*1TB/s)

블랙웰 GPU

GH200 & GB200

GH200

GH200은 엔비디아가 지난해 출시한 H200 GPU와 그레이스 CPU를 합친 제품이다. 각 Grace CPU는 하나의 H200 GPU와 쌍을 이루며, H200 GPU는 최대 96GB 또는 144GB의 메모리를 가질 수 있습니다. Grace CPU와 Hopper GPU는 NVLink-C2C를 통해 900GB/s의 대역폭으로 상호 연결됩니다. HBM3e 외에도 Grace CPU에는 480GB의 외부 LPDDR5X 메모리가 있지만 해당 대역폭은 500GB/s로 더 낮습니다.

GH200

GB200

GH200과 달리 각 GB200은 Grace CPU 1개와 Blackwell GPU 2개로 구성되어 GPU 컴퓨팅 성능과 메모리가 두 배로 늘어납니다. CPU와 GPU는 여전히 NVLink-C900C를 통해 2GB/s로 상호 연결되어 있습니다. 해당 전력 소비는 1200W입니다.

GB200에는 384GB의 HBM3e 메모리와 동일한 480GB의 LPDDR5X가 포함되어 총 864GB의 빠른 메모리를 제공합니다.

GB200
빠른 기억력

HGX H100/H200 및 HGX B100/B200

HGX H100 및 HGX H200

표시된 것처럼 H200은 H100과 동일한 컴퓨팅 성능을 갖지만 메모리는 더 큽니다. 8개 GPU의 최대 메모리가 640GB에서 1.1TB로 증가합니다. 16개의 GPU에 대한 희소 FP8 컴퓨팅 성능은 16P이고 희소 FP8은 32P입니다. GPU-GPU 통신 대역폭은 둘 다 900GB/s입니다.

HGX H100
HGX H200

HGX B100 및 HGX B200

B100과 B200은 각각 기존 H100과 H200에 해당하지만 Grace CPU가 없어 Intel이나 AMD CPU와 함께 사용할 수 있다.

B100 및 B200의 메모리는 H100 및 H200보다 큽니다. 8개 GPU의 최대 메모리는 1.5TB입니다(참고: NVIDIA 웹사이트는 처음에 1.4TB를 표시했는데 이는 192GB*8과 일치하지 않으며 나중에 1.5TB로 수정되었습니다. 반면 DGX B200 데이터시트에는 GPU당 1440GB 또는 180GB가 명시되어 있습니다).

B100의 컴퓨팅 성능은 B3의 약 4/200입니다. 16xB8의 희소 FP100 컴퓨팅 성능은 28P이고, 8xB200의 경우 36P이므로 8xB200은 2.25xH8/H100의 200배입니다. 이는 단일 B16의 희박한 FP200 컴퓨팅 성능이 4.5P임을 의미합니다. B200의 실제 컴퓨팅 성능은 전체 B90(GB200 기준)의 200%라는 점에 유의해야 합니다.

HGX B200
HGX B100

이미지는 DGX B200 데이터시트 데이터를 보여줍니다.

DGX B200 데이터시트

Blackwell의 Tensor Core는 FP6 및 FP4에 대한 지원을 추가했으며 FP4 컴퓨팅 성능은 FP2 성능의 8배, FP4 성능의 16배입니다. Blackwell의 CUDA 코어는 더 이상 INT8을 지원하지 않으며 Hopper부터 더 이상 INT4도 지원하지 않습니다.

Blackwell의 Tensor 코어는 FP8, FP6, FP4 및 INT8을 지원하는 방법인 Microscaling 데이터 형식에 대한 지원을 추가했습니다.

마이크로스케일링 데이터 형식
형식 이름

3세대 NVSwitch

64세대 NVSwitch에는 각각 2개의 레인이 있는 64개의 NVLink 포트가 있습니다. 대역폭 제한은 50*3.2GB/s=XNUMXTB/s입니다.

3세대 NVSwitch

4세대 NVSwitch

NVSwitch 칩에는 각각 72개의 레인이 있는 2개의 NVLink 포트가 있으며 양방향 대역폭은 2 x 2 x 200Gb/s = 100GB/s, 총 7.2TB/s입니다. 이미지의 1.8TB/s NVLink는 18개 포트에 해당합니다.

4세대 NVSwitch

B100과 B200은 100세대 NVLink와 200세대 NVSwitch를 사용합니다. B18 및 B50의 각 GPU에는 여전히 100개의 NVLink가 있지만 링크당 대역폭은 100세대 NVLink(H100)의 200GB/s에서 1.8GB/s로 업그레이드되었습니다. 따라서 BXNUMX 및 BXNUMX의 최대 GPU-GPU 대역폭은 XNUMXTB/s입니다.

B100 및 B200의 최대 대역폭은 1.8TB입니다.

1.8세대 NVSwitch는 또한 GPU 간 대역폭을 576TB/s로 두 배 늘립니다. 최대 576개의 GPU를 지원할 수 있으며 총 대역폭 제한은 1.8*1TB/s=XNUMXPB/s입니다.

총 대역폭 제한 1PB.8TB=1PB

네트워크 카드 및 네트워크 스위치

ConnectX-8 InfiniBand 네트워크 카드

NVIDIA는 또한 새로운 세대의 제품을 출시했습니다. 인피니밴드 네트워크 카드인 ConnectX-8(ConnectX-800G)은 해당 통신 대역폭이 800Gb/s입니다. 이전 H100과 H200은 통신 대역폭이 7Gb/s인 ConnectX-400 네트워크 카드를 사용했지만, A100은 대역폭이 6Gb/s인 ConnectX-200 네트워크 카드를 사용했습니다.

ConnectX-8 IB 네트워크 카드

그러나 NVIDIA는 이미지에서 볼 수 있듯이 HGX B800/B100에 새로운 ConnectX-200G 네트워크 카드를 사용하지 않고 대신 이전 세대 ConnectX-7을 계속 사용했습니다. 수조 매개변수 규모와 NVIDIA Blackwell 플랫폼이 등장하여 컴퓨팅의 새로운 시대를 열었습니다.

DGX B200 시스템
NVIDIA offHGX B200이군요

BlueField-3 DPU/SuperNIC

BlueField-3는 최대 400Gb/s의 속도로 이더넷 및 IB 연결을 지원하며 NVIDIA DOCA를 사용하여 프로그래밍된 네트워크 및 스토리지 하드웨어 가속기와 결합할 수 있습니다. BlueField-3에는 해당하는 BlueField-3 DPU 및 BlueField-3 SuperNIC가 있습니다. BlueField-3 SuperNIC는 단일 포트 400Gb/s 또는 듀얼 포트 400Gb/s를 지원하여 최대 200Gb/s의 속도로 GPU 서버 간에 이더넷 RoCE(원격 직접 메모리 액세스)를 제공할 수 있습니다. 이전 세대 BlueField-2 SuperNIC는 단일 포트 200Gb/s 또는 듀얼 포트 100Gb/s만 지원했습니다.

BlueField-3 DPU
BlueField-2 SuperNIC

Quantum-X800 IB 스위치

Quantum-X800은 차세대 NVIDIA Quantum IB 스위치입니다. 800Gb / s 주로 NVIDIA ConnectX-8 네트워크 카드를 지원하는 초저 대기 시간의 엔드투엔드 연결입니다. 해당 Quantum-X800 Q3400-RA 스위치(4U)는 이미지에 표시된 것처럼 공기 냉각을 사용하지만 액체 냉각도 지원하여 144개의 800Gb/s 포트를 제공할 수 있습니다.

Quantum-X800 IB 스위치

Spectrum-X800 이더넷 스위치

Spectrum-X800은 5600U 설계를 사용하는 SN5400 및 SN2의 두 가지 유형을 포함하는 차세대 NVIDIA Spectrum 이더넷 스위치입니다.

Spectrum-X800 이더넷 스위치

표에 표시된 것처럼 SN5600은 800개의 포트와 64Tb/s의 총 대역폭으로 포트당 최대 51.2Gb/s를 지원할 수 있는 반면, SN5400은 400개의 포트와 총 대역폭 64Tb/s로 포트당 최대 25.6Gb/s를 지원할 수 있습니다. XNUMXTb/s의 대역폭.

SN5600

GH200 NVL32 및 GH200-슈퍼팟

GH200 컴퓨팅 트레이

GH200 컴퓨팅 트레이는 NVIDIA MGX 디자인(1U 크기)을 기반으로 하며 컴퓨팅 트레이당 2개의 GH200 장치, 즉 2개의 Grace CPU와 2개의 H200 GPU를 포함합니다.

NV스위치 트레이

2세대 NVSwitch 트레이에는 128개의 6.4세대 NVSwitch 칩이 포함되어 있으며 총 XNUMX개의 NVLink 포트와 XNUMXTB/s의 최대 통신 대역폭을 제공합니다.

GH200 NVL32

각 캐비닛에는 16개의 GH200 컴퓨팅 트레이와 9개의 NVSwitch 트레이가 포함되어 있어 총 32개의 GH200 GPU와 18개의 NVSwitch가 있습니다. 32개의 GH200 GPU에는 32×18=576개의 NVLink가 있으며 이론적으로 완전한 상호 연결을 달성하려면 576/64=9개의 NVSwitch만 필요하지만 이 설계에는 18개의 NVSwitch가 포함됩니다.

GH200 NVL32

GH200 슈퍼팟

GH200 SuperPod는 완전히 상호 연결된 구성의 256개의 GH200 GPU로 구성되지만 8개의 NVL32 장치로 구성되지는 않습니다. 대신 32개의 8-Grace Hopper 슈퍼칩으로 구성됩니다.

그림 7에 표시된 것처럼 각 8-Grace Hopper 슈퍼칩에는 다음이 포함됩니다.

8*호퍼 컴퓨팅 트레이(8U), 각각 다음을 포함:

1*GH200 GPU

1*ConnectX-7 IB 네트워크 카드, 400Gb / s

1*200Gb/s 이더넷 카드

3*NVSwitch 트레이(3U), 총 6*NVSwitch 포함

8-그레이스 호퍼 슈퍼칩

NVLink 연결은 그림 6과 같으며 각 GH200과 각 NVSwitch에는 3개의 NVLink 연결이 있습니다. 이는 이 방향으로 NVSwitch당 24개의 포트를 사용합니다. 또한 각 NVSwitch에는 L24 NVSwitch에 연결된 2개의 포트가 있어 NVSwitch당 총 48개의 포트가 사용됩니다. (참고: 일부 NVSwitch 포트는 중복되어 있으며 이론적으로 4.5개의 NVSwitch만 필요하므로 3개의 NVSwitch 트레이가 선택되었습니다.)

NVLink 연결

그림 8에 표시된 것처럼 GH200 SuperPod는 32개의 8-Grace Hopper Superchip으로 구성됩니다. L1 레벨에는 32 x 3 = 96개의 NVSwitch 트레이(192개의 NVSwitch)가 포함되고 L2 레벨에는 36개의 NVSwitch 트레이(64개의 NVSwitch)가 포함됩니다. 각 L1 NVSwitch 트레이에는 L24 NVSwitch 트레이에 연결된 2 x 48 = 2개의 포트가 있으므로 36개의 L2 NVSwitch 트레이가 필요합니다.

nvlink 토폴로지

그림 12에서 볼 수 있듯이 256개의 GH200 GPU도 XNUMX계층 IB 스위치를 통해 상호 연결됩니다.

패브릭 관리 토폴로지

GH200 SuperPod의 전체 연결은 그림 5에 나와 있습니다.

GH200 SuperPod의 완벽한 연결성

GB200 NVL72 및 GB200 슈퍼팟

GB200 컴퓨팅 트레이

GB200 컴퓨팅 트레이는 NVIDIA MGX 디자인(1U 크기)을 기반으로 하며, 각 컴퓨팅 트레이에는 이미지에 표시된 대로 Grace CPU 2개와 Blackwell GPU 200개로 구성된 GB2 장치 4개가 포함되어 있습니다.

GB200 컴퓨팅 트레이

각 GB200 컴퓨팅 트레이는 1.7TB의 고속 메모리를 지원합니다(참고: 이미지의 "HBM3e"는 오타일 수 있습니다. "HMB3e"가 아니라 "Fast Memory"여야 합니다). Blackwell GPU당 메모리를 말하는 경우 192GB x 4 = 768GB가 되어야 합니다. 1.7TB에는 GB480당 추가 5GB의 LPDDR200X가 포함되어 총 768GB + 480GB x 2 = 1728GB가 됩니다.

블랙웰 컴퓨팅 노드
1.7TB 고속 메모리

NV스위치 트레이

이미지에 표시된 것처럼 차세대 NVSwitch 트레이에는 2개의 NVSwitch 칩(1U 크기)이 포함되어 있으며 총 144개의 NVLink 포트(NVSwitch 칩당 72개의 NVLink 포트)가 있습니다. 각 포트의 대역폭은 100GB/s로 총 14.4TB/s의 대역폭 제한을 지원합니다. 576세대 NVSwitch 시스템은 최대 576개의 GPU를 지원할 수 있으므로 총 대역폭 제한은 1.8 * 1TB/s = 8PB/s에 도달할 수 있습니다. (참고: 이미지의 18개 포트는 NVLink 포트가 아니며 각각 XNUMX개의 NVLink에 해당합니다.)

이미지의 8개 포트는 NVLink 포트가 아니며, 각각은 실제로 18개의 NVLink에 해당합니다.

NVL72에 사용되는 NVSwitch 시스템은 아래에 표시되어 있으며 9개의 NVSwitch 트레이가 포함되어 있습니다. 이미지의 72개 포트는 NVLink 포트가 아닌 이전 이미지의 포트에 해당하며 대역폭은 1.8TB/s(18 x 100GB/s NVLink)입니다.

NVL72에 사용되는 NVSwitch 시스템

GB200 NVL72

GB200 NVL72 18개에는 GB200 컴퓨팅 트레이 36개가 포함되어 있으므로 Grace CPU 72개와 GPU 72개가 있습니다. 총 GPU 메모리는 192 * 13.8GB = 5TB이고, CPU의 Fast Memory LPDDR480X는 36GB x 17 = 30TB이므로 총 Fast Memory는 9TB입니다. 또한 XNUMX개의 NVSwitch 트레이도 포함되어 있습니다.

NVIDIA도 offNVL36 구성에는 여전히 18개의 GB200 컴퓨팅 트레이가 있지만 각 컴퓨팅 트레이에는 200개의 GB18만 있으므로 총 36개의 Grace CPU와 200개의 B30 GPU가 있습니다. 해당 컴퓨팅 성능이 이미지에 표시되어 있습니다. 따라서 언급된 13.5TB는 3TB HBM17e + 5TB LPDDRXNUMXX일 가능성이 높습니다.

NVIDIA도 offNVL36 구성입니다.

해당 컴퓨팅 성능은 아래 그림에 나와 있습니다.

해당 컴퓨팅 성능

따라서 여기의 30TB HBM3e도 13.5TB HBM3e + 17TB LPDDR5X여야 합니다.

30TB HBM3e

GB200 슈퍼팟

GB200 SuperPod는 8개의 NVL72 유닛, 총 576개의 Blackwell GPU로 구성됩니다. 이전 256개의 GH200 GPU와 마찬가지로 완전한 상호 연결을 달성하려면 576계층 NVSwitch 트레이 시스템이 필요합니다(이론적 대역폭 제한은 1.8 * 1TB/s = XNUMXPB/s).

첫 번째 계층 NVSwitch 트레이에는 576 Blackwell GPU에 연결된 포트의 절반이 있으므로 576 * 18 / (144/2) = 144 NVSwitch 트레이가 필요합니다(나머지 144 * 72 포트).

두 번째 계층 NVSwitch 트레이에는 모든 포트가 나머지 첫 번째 계층 NVSwitch 포트에 연결되어 있으므로 144 * 72 / 144 = 72개의 NVSwitch 트레이가 필요합니다. 각 두 번째 계층 NVSwitch 트레이는 모든 첫 번째 계층 NVSwitch 트레이에 연결됩니다(연결당 포트 2개).

두 번째 계층 NVSwitch 트레이

성능 데이터 분석

DGX GB200 성능

엔비디아는 DGX B200(HGX B200에 해당)이 이전 세대 DGX H3(HGX H15) 대비 훈련 성능은 100배, 추론 성능은 100배 향상됐다고 주장한다. 그러나 여기에는 특정 전제 조건이 있습니다. HGX H16에서 HGX B8까지 FP100 또는 FP200 컴퓨팅 성능만 보면 컴퓨팅 성능이 2.25배 증가했습니다. 그러나 메모리 크기는 더 크고, 메모리 대역폭은 약 2.3배 더 높으며, NVLink 대역폭도 두 배로 늘어났습니다. 따라서 훈련 속도의 전반적인 3배 향상은 기대치와 일치합니다.

DGX GB200 성능

이미지에 표시된 대로 3x 훈련 속도는 4096 HGX B200 시스템과 4096 HGX H100 시스템에서 측정되어 GPT-MoE-1.8T 모델을 훈련했습니다.

3배속 훈련 속도는 4096 HGX B200 시스템에서 측정되었습니다.

이미지에 표시된 것처럼 15x 추론 속도는 추론을 위해 GPT-MoE-8T 모델을 사용하여 200개의 HGX B8 시스템과 100개의 HGX H1.8 시스템에서 측정되었습니다(GPT 모델 추론은 일반적으로 I/O 바인딩되므로 메모리 대역폭이 중요합니다). ; 더 높은 동시성을 지원하려면 큰 메모리 크기도 중요하며, 모델이 크기 때문에 Tensor Parallel과 같은 전략이 자주 사용되므로 NVLink 대역폭도 중요합니다.) 이들은 각각 초당 3.5개 토큰과 초당 58개 토큰을 달성했습니다. GPT 추론에 영향을 미치는 요소는 다양하며, 이 두 시스템의 개선 사항은 다음 사항에 따라 결정됩니다.

  • VRAM 대역폭(8×3.35TB/s -> 8x8TB/s)
  • VRAM 크기(8x141GB -> 8x192GB)
  • NVLink 대역폭(7.2TB/s -> 14.4TB/s)
  • 컴퓨팅 파워 16배 증가(36P -> XNUMXP)
  • FP8 -> FP4 (x2)
실시간 대규모 언어 모델 추론

마지막 이미지에서 볼 수 있듯이 Jensen Huang은 GTC 기조연설에서 보다 자세한 비교를 제공했으며, B3 FP200과 H8 FP200(Tensor Parallel, Expert Parallel을 나타내는 TP, EP, DP, PP 사용)을 비교할 때 개선이 약 8배에 불과하다는 것을 보여주었습니다. 데이터 병렬 및 파이프라인 병렬). FP200에서 GB4을 사용한 개선은 매우 중요합니다(NVL72의 전체 NVLink 상호 연결로 인해 발생했을 가능성이 높음).

B200 FP8과 H200 FP8 비교

GPT-MoE-1.8T 훈련 전력 소비

GTC 기조연설에서 Jensen Huang은 Hopper와 Blackwell GPU를 비교하여 GPT-MoE-1.8T 모델 훈련을 위한 전력 소비에 대해서도 논의했습니다.

  • 단일 NVL32 캐비닛은 40kW이므로 8000개의 GPU는 약 10MW가 되고 기타 전력 소비량은 약 15MW가 됩니다.
  • 단일 NVL72 캐비닛은 120kW이므로 2000개의 GPU는 약 3.3MW에 네트워크 스위치와 같은 기타 전력 소비량을 더하면 총 약 4MW가 됩니다.
GPU 8000 개
GPU 2000 개

코멘트 남김

위쪽으로 스크롤