NVIDIA, Blackwell B200 GPU, Quantum-X800 Q3400 InfiniBand 스위치, ConnectX-8 SuperNIC 공개

2024 년 3 월 18 일

브라이언

광 네트워크 엔지니어

5년 후, 세계적으로 유명한 AI 컴퓨팅 기술 이벤트인 연례 NVIDIA GTC 컨퍼런스는 대면 형식으로 크게 복귀했습니다. 오늘 NVIDIA의 창립자이자 CEO인 Jensen Huang은 최신 획기적인 AI 칩인 Blackwell GPU를 공개하는 2시간 동안의 기조 연설을 했습니다.

이번 컨퍼런스에서 NVIDIA는 최고의 AI 전문가와 업계 리더를 한자리에 모아 인상적인 업계 영향력을 선보였습니다. 이날 행사는 현장 참석자가 1만명이 넘는 등 유례없는 성황을 이뤘다.

18월 1일 오후 00시(베이징 시간 4월 00일 오전 19시), 가장 기대되는 GTC 기조연설이 공식적으로 시작되었습니다. AI를 주제로 한 단편 영화에 이어, 젠슨 황이 상징적인 검은색 가죽 재킷을 입고 메인 무대에 등장하여 청중과 소통했습니다.

그는 컴퓨팅 가속화를 위한 NVIDIA의 30년 여정을 되돌아보는 것으로 시작하여 혁신적인 CUDA 컴퓨팅 모델 개발, 최초의 AI 슈퍼컴퓨터 DGX를 OpenAI에 제공한 후 자연스럽게 생성 AI로 초점을 전환하는 등의 이정표를 강조했습니다.

그는 선도적인 EDA 회사와의 중요한 파트너십을 발표한 후 훈련 컴퓨팅 전력 수요의 급증을 주도하는 AI 모델의 급속한 발전에 대해 논의하고 더 큰 GPU의 필요성을 강조했습니다. 그는 “가속 컴퓨팅이 임계점에 도달했으며 범용 컴퓨팅이 그 추진력을 잃었다”고 말하면서 다양한 산업 전반에 걸쳐 가속 컴퓨팅이 크게 발전했음을 강조했습니다. 그 후, Jensen Huang이 완전히 새로운 플래그십 AI 칩인 Blackwell GPU가 도착했다는 주요 발표를 하기 전에 GPU와 슈퍼 칩부터 슈퍼컴퓨터와 클러스터 시스템에 이르기까지 일련의 주요 구성 요소가 큰 화면에서 빠르게 번쩍였습니다!

GPU 분야의 이 최신 혁신은 구성과 성능 모두에서 이전 Hopper GPU를 능가합니다. Jensen Huang은 Blackwell과 Hopper GPU를 비교하여 Blackwell의 훨씬 더 큰 크기를 보여주었습니다. 이 비교에 이어 그는 “괜찮아, 호퍼. 넌 정말 착해, 착한 아이야. 착한 여자 아이." Blackwell의 성능은 정말 탁월합니다! FP8이든 새로운 FP6 및 FP4 정밀도든, 수용할 수 있는 모델 규모 및 HBM 대역폭은 모두 이전 Hopper 세대를 능가합니다.

Pascal 아키텍처에서 Blackwell 아키텍처에 이르기까지 8년 동안 NVIDIA는 AI 컴퓨팅 성능을 1000배 향상시켰습니다!

NVIDIA has increased AI computing performance by 1000 times

Jensen Huang의 진정한 야망은 1조 매개변수 수준의 GPU 계산을 최적화할 수 있는 가장 강력한 AI 인프라를 만드는 것이기 때문에 이는 시작에 불과합니다. 전반적으로 NVIDIA는 올해 GTC 컨퍼런스에서 6가지 주요 발표를 발표했습니다.

Blackwell GPU 출시: 이전 FP2.5에 비해 훈련 성능이 4배 향상되고 FP5 정밀 추론 성능이 8배 향상되었습니다. Hopper 속도의 두 배에 달하는 상호 연결 속도로 576세대 NVLink를 업그레이드했습니다. 최대 XNUMX개 GPU까지 확장하여 XNUMX조 매개변수 혼합 전문가 모델의 통신 병목 현상을 해결합니다.
Blackwell 아키텍처 소개: 800조 매개변수 수준의 GPU 계산에 최적화되었습니다. 최대 처리량을 갖춘 새로운 XXNUMX 시리즈 네트워크 스위치 출시 800Gb / s; GB200 슈퍼칩, GB200 NVL72 시스템, DGX B200 시스템, 차세대 DGX SuperPOD AI 슈퍼컴퓨터를 선보였습니다.

GPU를 사용하여 맞춤형 AI 모델을 쉽게 배포할 수 있도록 소프트웨어를 패키지하고 제공하는 새로운 방법을 제공하는 수십 개의 엔터프라이즈 생성 AI 마이크로서비스 출시.
TSMC와 Synopsys의 획기적인 리소그래피 계산 플랫폼 cuLitho 발표: cuLitho는 향상된 생성 AI 알고리즘을 사용하여 리소그래피 계산을 40~60배 가속화하여 2nm 이상의 고급 프로세스 개발을 위한 상당한 지원을 제공합니다.
휴머노이드 로봇 기본 모델 Project GR00T 및 새로운 휴머노이드 로봇 컴퓨터 Jetson Thor 출시 구체화된 지능의 발전을 주도하는 Isaac 로봇 플랫폼의 대폭 업그레이드. Jensen Huang은 Disney Research의 소형 NVIDIA 로봇 한 쌍과도 상호 작용했습니다.
Apple과 협력하여 Omniverse 플랫폼을 Apple Vision Pro에 통합하고 산업용 디지털 트윈 소프트웨어 도구용 Omniverse Cloud API를 제공합니다.

차례

새로운 AI 칩 등장: 20.8억 개의 트랜지스터, 2.5배 훈련 성능, 5배 추론 성능

생성적 AI(Generative AI)의 새로운 시대를 맞이하면서 AI 컴퓨팅 수요의 폭발적인 증가로 인해 이전 Hopper GPU를 뛰어넘는 Blackwell GPU가 AI 경쟁의 초점으로 등장하게 되었습니다. NVIDIA GPU 아키텍처의 각 세대는 과학자의 이름을 따서 명명되었으며, 새로운 아키텍처인 Blackwell은 미국 국립과학원(National Academy of Sciences)의 최초 아프리카계 미국인 회원이자 저명한 통계학자이자 수학자인 David Blackwell에게 경의를 표하는 것입니다. Blackwell은 복잡한 문제를 단순화하는 것으로 유명했으며 "동적 프로그래밍" 및 "갱신 정리"와 같은 그의 독립적인 발명품은 다양한 과학 및 엔지니어링 분야에 걸쳐 폭넓게 적용되었습니다.

Huang은 생성 AI가 이 시대를 정의하는 기술이며 Blackwell이 이 새로운 산업 혁명을 이끄는 엔진이라고 말했습니다. Blackwell GPU는 6가지 핵심 기술을 자랑합니다.

generative AI is the defining technology

"세계에서 가장 강력한 칩"으로 불림: 통합 메모리 아키텍처 + 듀얼 코어 구성을 갖춘 "칩렛" 설계 개념에 따라 맞춤형 TSMC 20.8NP 프로세스를 사용하여 4억 개의 트랜지스터를 통합하고 10TB/s 칩 간 NVHyperfuse 인터페이스를 통해 리소그래피 템플릿으로 제한되는 192개의 GPU 다이를 연결하여 3GB HBM8e 메모리, 20TB/s 메모리 대역폭, 최대 XNUMXPFLOPS의 단일 카드 AI 훈련 성능을 갖춘 통합 GPU입니다.

이전 Hopper 세대에 비해 Blackwell은 두 개의 다이를 통합하여 Hopper GPU에 비해 12.8억 개의 트랜지스터가 추가되어 크기가 더 커졌습니다. 반면 이전 H100은 80GB HBM3 메모리와 3.35TB/s 대역폭만 탑재한 반면, H200은 141GB HBM3e 메모리와 4.8TB/s 대역폭을 탑재했다.

2세대 변압기 엔진: 새로운 마이크로 텐서 스케일링 지원과 고급 동적 범위 관리 알고리즘을 TensorRT-LLM 및 NeMo Megatron 프레임워크와 결합하여 Blackwell에 FP4 정밀도의 AI 추론 기능을 탑재하고, 혼합 전문가 모델의 높은 정확도를 유지하면서 이중 계산 및 모델 스케일을 지원합니다.

새로운 FP4 정밀도에서 Blackwell GPU의 AI 성능은 Hopper의 XNUMX배에 달합니다. NVIDIA는 CUDA 코어의 성능을 공개하지 않았습니다. 아키텍처에 대한 자세한 내용은 아직 공개되지 않았습니다.

5세대 NVLink: 1조 매개변수 및 전문가 혼합 모델의 성능을 가속화하기 위해 새로운 NVLink 각 GPU에 1.8TB/s의 양방향 대역폭을 제공하여 복잡한 대규모 언어 모델에 적합한 최대 576개의 GPU 간의 원활한 고속 통신을 지원합니다.

단일 NVLink 스위치 칩은 TSMC 50NP 프로세스를 사용하여 4억 개의 트랜지스터로 구성되며 1.8TB/s의 속도로 XNUMX개의 NVLink를 연결합니다.

A single NVLink Switch chip comprises 50 billion transistors

RAS 엔진: Blackwell GPU에는 신뢰성, 가용성 및 유지 관리 가능성을 보장하는 전용 엔진이 포함되어 있으며 AI 기반 예측 유지 관리를 활용하여 신뢰성 문제를 진단 및 예측하여 시스템 가동 시간을 극대화하고 몇 주 동안 지속적으로 실행되는 대규모 AI 배포의 확장성을 향상시키는 칩 수준 기능을 통합합니다. 몇 달 동안 중단 없이 운영 비용을 절감할 수 있습니다.
AI 확보: 고급 기밀 컴퓨팅 기능은 새로운 로컬 인터페이스 암호화 프로토콜을 지원하여 성능 저하 없이 AI 모델과 고객 데이터를 보호합니다.
감압 엔진: 최신 형식을 지원하여 데이터베이스 쿼리를 가속화하고 데이터 분석 및 데이터 과학 작업에 최고의 성능을 제공합니다. AWS, Dell, Google, Meta, Microsoft, OpenAI, Oracle, Tesla, xAI는 모두 Blackwell 제품을 채택할 준비가 되어 있습니다. Tesla와 xAI의 CEO인 Musk는 "현재 AI 분야에서는 NVIDIA 하드웨어보다 더 나은 것은 없습니다."라고 솔직하게 말했습니다.

이전 릴리스의 단일 칩 성능을 강조한 것과는 현저히 다른 Blackwell 시리즈는 대부분을 통칭하여 "Blackwell GPU"라고 부르는 GPU 코드 이름의 구분이 모호하여 전체 시스템 성능에 더 중점을 둡니다. 이번 출시 이전의 시장 소문에 따르면 B100의 가격은 약 $30,000, B200의 가격은 약 $35,000일 수 있습니다. 이전 세대에 비해 가격은 50% 미만으로 인상되었지만 훈련 성능은 2.5배 향상되어 비용 효율성이 상당히 높은 이 가격 책정 전략을 고려하면. 가격은 완만하게 인상되지만 훈련 성과는 크게 향상되어 가격이 상대적으로 안정적으로 유지되는 경우 Blackwell 시리즈 GPU의 시장 경쟁력은 엄청날 것입니다.

조 매개변수 수준의 GPU 컴퓨팅에 최적화된 새로운 네트워크 스위치 및 AI 슈퍼컴퓨터 출시

Blackwell 플랫폼에는 기본 HGX B100 외에도 NVLink 스위치, GB200 슈퍼칩 컴퓨팅 노드 및 X800 시리즈 네트워크 스위치가 포함됩니다.

이 중 X800 시리즈는 대규모 AI 운영에 맞춰 새롭게 설계된 네트워크 스위치로, 800조 매개변수 수준의 생성 AI 작업 지원을 목표로 하고 있다. NVIDIA의 Quantum-X800 InfiniBand 네트워크와 Spectrum-X800 이더넷은 최대 5Gb/s의 처리량 기능을 갖춘 세계 최초의 엔드투엔드 플랫폼 중 하나로, 이전 세대 제품보다 9배 향상된 교환 대역폭 용량을 자랑합니다. NVIDIA의 14.4세대 SHARP 기술을 통해 네트워크의 컴퓨팅 성능이 XNUMX배 향상되어 XNUMXTFLOPS의 네트워크 컴퓨팅 성능을 구현했습니다. 얼리 어답터로는 Microsoft Azure, Oracle Cloud Infrastructure, Coreweave 등이 있습니다.

the X800 series is a newly designed network switch

Spectrum-X800 플랫폼은 멀티 테넌트에 맞게 특별히 설계되어 각 테넌트의 AI 워크로드에 대한 성능 격리를 가능하게 하여 생성 AI 클라우드 서비스와 대규모 엔터프라이즈 사용자의 네트워크 성능을 최적화합니다. NVIDIA는 네트워크 가속 통신 라이브러리, 소프트웨어 개발 키트, 관리 소프트웨어를 포함한 포괄적인 소프트웨어 솔루션을 제공합니다. GB200 Grace Blackwell 슈퍼칩은 900조 개의 매개변수 규모의 생성 AI 작업을 위한 프로세서로 설계되었습니다. 이 칩은 2GB/s XNUMX세대 NVLink-CXNUMXC 상호 연결 기술을 사용하여 두 개의 Blackwell GPU를 하나의 NVIDIA Grace CPU에 연결합니다. 그러나 NVIDIA는 Blackwell GPU의 정확한 모델을 지정하지 않았습니다.

This chip connects two Blackwell GPUs to one NVIDIA Grace CPU

Huang은 GB200 슈퍼칩을 선보이며 이 슈퍼칩이 컴팩트한 공간에서 높은 계산 밀도를 수용할 수 있는 최초의 제품임을 강조하고 '행복한 가족'과 유사한 상호 연결된 메모리와 협업 애플리케이션 개발을 강조했습니다.

각 GB200 슈퍼칩 컴퓨팅 노드는 200개의 GB14.4 슈퍼칩을 수용할 수 있습니다. 단일 NVLink 스위치 노드는 XNUMX개의 NVLink 스위치를 지원하여 총 XNUMXTB/s의 대역폭을 달성할 수 있습니다.

Each GB200 superchip compute node can house two GB200 superchips

Blackwell 컴퓨팅 노드는 Grace CPU 80개와 Blackwell GPU XNUMX개로 구성되어 XNUMXPFLOPS의 AI 성능을 제공합니다.

A Blackwell compute node comprises two Grace CPUs and four Blackwell GPUs, delivering AI performance of 80PFLOPS.

향상된 GPU 및 네트워크 기능을 갖춘 Huang은 다중 노드 아키텍처, 액체 냉각 및 랙 수준 시스템을 갖춘 새로운 컴퓨팅 장치인 NVIDIA GB200 NVL72의 출시를 발표했습니다.

GB200 NVL72는 단일 카드 GPU와 유사하게 작동하지만 AI 훈련 성능이 720PFLOPS에 도달하고 AI 추론 성능이 최고 1.44EFLOPS에 달하는 "거대한 GPU"처럼 작동합니다. 30TB의 빠른 메모리를 자랑하며 최대 27조 개의 매개변수로 대규모 언어 모델을 처리할 수 있어 최신 DGX SuperPOD의 핵심 구성 요소 역할을 합니다.

GB200 NVL72는 36세대 NVLink 기술을 통해 상호 연결되고 BlueField-200 DPU를 포함하는 72*GB200 슈퍼칩(36*B3 GPU 및 XNUMX*Grace CPU로 구성)으로 구성될 수 있습니다.

The GB200 NVL72 can be configured with 36 GB200 superchips

Jensen Huang은 전 세계적으로 현재 사용 가능한 EFLOPS 수준 머신이 소수에 불과하다고 언급했습니다. 이 기계는 무게가 600,000파운드에 달하는 3000개의 부품으로 구성되어 있으며 "단일 랙 내의 EFLOPS AI 시스템"을 나타냅니다. 그는 이전에 H1.8으로 GPT-MoE-100T 모델을 훈련하는 데 90일이 필요했으며 8000MW의 전력을 소비하는 약 15개의 GPU가 필요하다고 공유했습니다. 반면 이제 GB200 NVL72를 사용하려면 2000개의 GPU와 4MW의 전력만 필요합니다.

200조 매개변수 모델 실행의 경우 GB30은 다차원 최적화를 거쳐 개별 GPU 토큰 처리 속도가 H200 FP8 정밀도의 최대 XNUMX배에 달합니다.

rates up to 30 times that of H200 FP8 precision

대규모 언어 모델 추론 작업 측면에서 GB200 NVL72는 동일한 수의 H30에 비해 100배 향상된 성능을 제공하며 이전 제품에 비해 비용과 전력 소비는 1/25입니다.

GB200 NVL72 delivers a 30x performance boost

AWS, Google Cloud, Microsoft Azure, Oracle Cloud Infrastructure 등 주요 클라우드 제공업체는 GB200 NVL72에 대한 액세스를 지원합니다. 또한 NVIDIA는 AI 모델 훈련, 미세 조정 및 추론 작업을 위한 통합 AI 슈퍼컴퓨팅 플랫폼인 DGX B200 시스템을 출시했습니다. DGX B200 시스템은 공기 냉각 기능을 갖춘 전통적인 랙 장착형 디자인을 특징으로 하는 DGX 시리즈의 200세대를 대표합니다. 여기에는 B144 GPU 4개와 FP1.4 정밀도에서 64PFLOPS AI 성능을 제공하는 7세대 Intel Xeon 프로세서 3개가 포함되어 있으며, XNUMXTB GPU 메모리 용량과 XNUMXTB/s 메모리 대역폭을 통해 XNUMX조 매개변수 모델에 대해 최대 XNUMX배의 실시간 추론 속도를 지원합니다. 전작보다 빠릅니다. 이 시스템은 XNUMX개의 ConnectX-XNUMX NIC와 XNUMX개의 BlueField-XNUMX DPU로 구성된 고급 네트워킹을 통합하여 각 연결에 최대 대역폭을 제공합니다. 400Gb / s Quantum-2 InfiniBand 및 Spectrum-X 이더넷 플랫폼을 통해 더 높은 AI 성능을 촉진합니다. NVIDIA는 또한 DGX GB200 시스템을 활용하여 200조 개의 매개변수 모델을 처리할 수 있는 차세대 데이터 센터급 AI 슈퍼컴퓨터인 DGX SuperPOD를 출시하여 대규모 생성 AI 교육 및 추론 워크로드에 대한 지속적인 작동을 보장합니다. 11.5개 이상의 DGX GB4 시스템으로 구성된 이 차세대 DGX SuperPOD는 효율적인 액체 냉각 랙 수준 확장 아키텍처를 특징으로 하며 FP240 정밀도에서 200EFLOPS의 AI 계산 능력과 랙 수준 향상을 통해 추가로 확장할 수 있는 200TB 고속 메모리 스토리지를 제공합니다. 각 DGX GB100 시스템에는 200개의 GBXNUMX 슈퍼칩이 들어 있습니다. 대규모 언어 모델 추론 작업을 실행하는 HXNUMX 장치에 비해 GBXNUMX 슈퍼칩은 최대 XNUMX배의 성능 향상을 제공합니다.

Huang은 데이터 센터를 미래의 "AI 공장"으로 상상하며 업계 전체가 Blackwell의 발전을 준비하고 있습니다.

Huang envisions data centers as future AI factories

부조종사 맞춤화 및 배포를 위한 수십 개의 엔터프라이즈급 생성 AI 마이크로서비스 출시

NVIDIA는 수십 개의 엔터프라이즈 수준 생성 AI 마이크로서비스를 도입하여 CUDA 및 생성 AI 생태계를 기반으로 구축된 이점을 지속적으로 확장하고 있습니다. 이러한 서비스를 통해 개발자는 NVIDIA CUDA GPU 설치에서 생성적 AI Copilot을 생성하고 배포할 수 있습니다.

Huang은 생성 AI가 소프트웨어 작성에서 AI 모델 조립, 작업 지정, 작업 제품 예제 제공, 계획 검토 및 중간 결과로 전환하여 애플리케이션 프로그래밍 방식을 변화시키고 있다고 말했습니다. NVIDIA NIM은 NVIDIA의 가속 컴퓨팅 라이브러리와 생성 AI 모델로 구성된 NVIDIA 추론 마이크로서비스에 대한 참조 역할을 합니다. 이러한 마이크로서비스는 업계 표준 API를 지원하고 NVIDIA의 대규모 CUDA 설치에서 작동하며 새로운 GPU에 최적화되어 있습니다.

Huang stated that generative AI is transforming the way applications are programmed

기업은 이러한 마이크로서비스를 활용하여 플랫폼에서 사용자 지정 애플리케이션을 만들고 배포하는 동시에 지적 재산에 대한 완전한 소유권과 제어권을 유지할 수 있습니다. NIM 마이크로서비스는 NVIDIA의 추론 소프트웨어가 지원하는 사전 구축된 프로덕션 AI 컨테이너를 제공하여 개발자가 배포 시간을 몇 주에서 몇 분으로 단축할 수 있습니다. NIM 마이크로서비스는 NVIDIA, AI21, Adept, Cohere, Getty Images, Shutterstock의 모델과 Google, Hugging Face, Meta, Microsoft, Mistral AI, Stability AI의 오픈 모델을 배포할 수 있습니다.

사용자는 Deepset, LangChain 및 LlamaIndex와 같은 널리 사용되는 AI 프레임워크와 통합된 Amazon SageMaker, Google Kubernetes Engine 및 Microsoft Azure AI의 NIM 마이크로서비스에 액세스할 수 있습니다. AI 애플리케이션을 가속화하기 위해 기업은 맞춤형 음성 및 번역 AI를 위한 NVIDIA Riva, 경로 최적화를 위한 NVIDIA cuOpt, 고해상도 기후 및 날씨 시뮬레이션을 위한 NVIDIA Earth-2를 포함한 CUDA-X 마이크로서비스를 활용할 수 있습니다. 맞춤형 모델 개발을 위한 일련의 NVIDIA NeMo 마이크로서비스가 곧 출시될 예정입니다.

개발자는 ai.nvidia.com에서 NVIDIA 마이크로서비스를 무료로 시험해 볼 수 있습니다. 기업은 NVIDIA의 AI Enterprise 5.0 플랫폼을 사용하여 프로덕션 등급 NIM 마이크로서비스를 배포할 수 있습니다.

제너레이티브 AI 알고리즘의 발전: 반도체 업계 최고의 기업과 협력하여 포토리소그래피 컴퓨팅의 새로운 혁명을 일으키다

작년 GTC 컨퍼런스에서 NVIDIA는 반도체 제조 산업을 겨냥한 40년간의 비밀 연구 끝에 획기적인 개발을 공개했습니다. 즉, 혁신적인 포토리소그래피 컴퓨팅 라이브러리 cuLitho를 활용하여 포토리소그래피 계산을 60~2배 가속화하고 XNUMXnm 이상 생산의 물리적 한계를 뛰어넘었습니다. 고급 칩. 이 프로젝트의 공동 작업자는 글로벌 AI 칩 거대 기업인 NVIDIA, 선도적인 반도체 파운드리 TSMC, 최고의 EDA 거대 기업인 Synopsys 등 반도체 산업의 핵심 플레이어입니다.

전산 리소그래피는 칩 제조의 기본입니다. 오늘날 cuLitho의 가속화된 프로세스를 기반으로 생성 AI 알고리즘을 통해 워크플로우 속도가 더욱 두 배로 향상되었습니다. 특히, 웨이퍼 제조 공정의 많은 변화에는 OPC(광학 근접 보정)가 필요하므로 계산 복잡성이 증가하고 개발 병목 현상이 발생합니다. cuLitho의 가속 컴퓨팅과 생성 AI는 이러한 문제를 완화할 수 있습니다. 생성 AI를 적용하면 기존의 물리적으로 엄격한 방법을 통해 최종 마스크를 도출하기 전에 빛 회절 문제를 해결하기 위한 거의 완벽한 마스크 솔루션 또는 접근 방식을 만들 수 있으므로 전체 OPC 프로세스 속도가 2배 향상됩니다. 칩 제조 공정에서 전산 리소그래피는 CPU에서 연간 수십억 시간을 소비하는 가장 집약적인 워크로드입니다. CPU 기반 방법에 비해 cuLitho의 GPU 가속 포토리소그래피 계산은 칩 제조 프로세스를 크게 향상시킵니다. 계산을 가속화함으로써 350개의 NVIDIA H100 시스템은 40,000개의 CPU 시스템을 대체할 수 있어 처리 속도를 크게 높이고 생산 속도를 높이는 동시에 비용, 공간 요구 사항 및 전력 소비를 줄입니다. TSMC 사장 Wei Zhejia는 "우리는 TSMC에 NVIDIA cuLitho를 배포하고 있습니다."라고 말하면서 GPU 가속 컴퓨팅을 TSMC의 워크플로우에 통합함으로써 달성된 상당한 성능 향상을 강조했습니다. 두 회사 간의 공유 워크플로우에서 cuLitho를 테스트했을 때 곡선 프로세스에서는 45배 가속을 달성했고 기존 맨해튼 프로세스에서는 거의 60배 향상된 성능을 달성했습니다.

새로운 휴머노이드 로봇 기본 모델 및 컴퓨터 소개: Isaac 로봇 플랫폼 주요 업데이트

NVIDIA는 생성 AI 외에도 체화된 지능에 대해서도 낙관하고 있으며 휴머노이드 로봇 범용 기본 모델 Project GR00T와 Thor SoC를 기반으로 하는 새로운 휴머노이드 로봇 컴퓨터 Jetson Thor를 공개했습니다. Jensen Huang은 “범용 휴머노이드 로봇 기본 모델을 개발하는 것은 오늘날 AI 분야에서 가장 흥미로운 주제 중 하나입니다.”라고 말했습니다. GR00T로 구동되는 로봇은 인간의 행동을 관찰하여 현실 세계에 적응하고 상호 작용함으로써 자연어를 이해하고 빠른 학습 조정, 유연성 및 기타 기술을 모방할 수 있습니다. Huang Renxun은 이러한 여러 로봇이 어떻게 다양한 작업을 완료할 수 있는지 보여주었습니다.

Jetson Thor는 성능, 전력 소비 및 크기에 최적화된 모듈식 아키텍처를 갖추고 있습니다. 이 SoC에는 GR00T와 같은 다중 모드 생성 AI 모델을 실행하기 위한 Transformer 엔진을 갖춘 차세대 Blackwell GPU가 포함되어 있습니다. NVIDIA는 1X, Agility Robotics, Apptronik, Boston Dynamics, Figure AI, Fourier Intelligence, Sanctuary AI, Unitree Robotics, XPENG Robotics 등 선도적인 휴머노이드 로봇 회사를 위한 포괄적인 AI 플랫폼을 개발하고 있습니다.

또한 NVIDIA는 생성적 AI 기반 모델, 시뮬레이션 도구, AI 워크플로 인프라를 포함하여 Isaac 로봇 플랫폼에 상당한 업그레이드를 했습니다. 이러한 새로운 기능은 다음 분기에 출시될 예정입니다. NVIDIA는 또한 유연성과 모듈식 AI 기능을 갖춘 로봇 팔용 Isaac Manipulator와 같은 사전 훈련된 로봇 모델, 라이브러리, 참조 하드웨어와 함께 다중 카메라 설정, 3D 재구성, 깊이 인식과 같은 고급 기능을 제공하는 Isaac Perceptor와 같은 일련의 기본 모델 및 GPU 가속 라이브러리를 출시했습니다.

Omniverse 플랫폼 최신 개발: Apple Vision Pro로 진출, Cloud API 도입

NVIDIA는 Omniverse 플랫폼과 Apple Vision Pro의 통합을 발표했습니다.

NVIDIA has announced the integration of the Omniverse platform with Apple Vision Pro.

산업용 디지털 트윈 애플리케이션을 타겟으로 하는 NVIDIA는 API 형태로 Omniverse Cloud를 제공할 예정입니다. 개발자는 이 API를 활용하여 대화형 산업용 디지털 트윈 콘텐츠를 VR 헤드셋으로 스트리밍할 수 있습니다.

API를 활용하여 개발자는 Omniverse의 핵심 기술을 기존 디지털 트윈 설계 및 자동화 소프트웨어 애플리케이션에 직접 통합하거나 로봇이나 자율 주행 자동차와 같은 자율 기계를 테스트하고 검증하기 위한 시뮬레이션 워크플로에 쉽게 통합할 수 있습니다. Jensen Huang은 제조된 모든 제품에 디지털 트윈이 있을 것이며 Omniverse는 물리적으로 현실적인 디지털 트윈을 구축하고 운영할 수 있는 운영 체제라고 믿습니다. 그는 “옴니버스와 생성 AI는 모두 최대 50조 달러 규모의 중공업 시장을 디지털화하는 데 필요한 기본 기술”이라고 믿습니다.

Omniverse and generative AI are both fundamental technologies

다섯 가지 새로운 Omniverse Cloud API는 개별적으로 또는 조합하여 사용할 수 있습니다. USD Render(OpenUSD 데이터의 완전한 광선 추적 RTX 렌더링 생성), USD Write(사용자가 OpenUSD 데이터를 수정하고 상호 작용할 수 있음), USD Query(장면 쿼리 지원 및 대화형 장면), USD Notify(USD 변경 사항 추적 및 업데이트 제공), Omniverse Channel(장면 간 협업을 위해 사용자, 도구 및 세계를 연결)입니다.

The five new Omniverse Cloud APIs can be used individually or in combination

Omniverse Cloud API는 올해 말 Microsoft Azure에서 NVIDIA A10 GPU의 자체 호스팅 API 또는 NVIDIA OVX에 배포된 호스팅 서비스로 제공될 예정입니다.

결론: 메인 이벤트는 끝났지만 쇼는 계속되어야 한다

위에서 언급한 중요한 발표 외에도 Huang은 연설에서 추가 개발 사항을 공유했습니다. NVIDIA는 통신 부문에서 무선 통신 기술 개발을 발전시키기 위해 생성 AI 및 Omniverse로 구동되는 6G 연구 클라우드 플랫폼을 출시했습니다. 이제 NVIDIA의 Earth-2 기후 디지털 트윈 클라우드 플랫폼을 대화형 고해상도 시뮬레이션에 사용하여 기후 및 일기 예보를 가속화할 수 있습니다. 그는 AI의 가장 큰 영향이 의료 분야에 있을 것이라고 믿습니다. NVIDIA는 이미 이미징 시스템 회사, 유전자 서열 분석기 제조업체, 선도적인 수술 로봇 회사와 협력하면서 새로운 유형의 생물학적 소프트웨어를 출시하고 있습니다.

He believes that the greatest impact of AI will be in the healthcare

자동차 업계에서는 세계 최대 자율주행 기업 BYD가 미래 전기차에 블랙웰 아키텍처 기반 엔비디아의 차세대 자율주행차(AV) 프로세서 드라이브 토르(DRIVE Thor)를 탑재할 예정이다. DRIVE Thor는 최대 1000 TFLOPS의 성능으로 이르면 내년부터 대량 생산을 시작할 것으로 예상됩니다.

DRIVE Thor is expected to begin mass production

황은 “NVIDIA의 본질은 컴퓨터 그래픽, 물리학, 인공 지능의 교차점에 있습니다.”라고 말했습니다. 연설을 마치면서 그는 New Industry, Blackwell Platform, NIM, NEMO 및 NVIDIA AI Foundry, Omniverse 및 Isaac Robotics라는 5가지 핵심 사항을 설명했습니다.

NVIDIA's essence lies at the intersection of computer graphics, physics, and artificial intelligence.

오늘은 NVIDIA가 AI 하드웨어와 소프트웨어의 경계를 넓히면서 AI, 대형 모델, 메타버스, 로봇, 자율 주행, 헬스케어, 양자 컴퓨팅과 같은 최첨단 기술에 대한 축제를 선보이는 또 다른 이정표입니다.

젠슨 황의 기조연설은 의심할 여지 없이 GTC 컨퍼런스의 하이라이트였지만, 현장과 원격 참석자 모두에게 설렘은 이제 막 시작일 뿐이었습니다!

NVIDIA의 최신 발전과 최첨단 기술 분야의 뜨거운 주제를 다루는 1000개 이상의 세션이 연설, 교육 세션 및 원탁 토론을 통해 펼쳐집니다. 많은 참석자들은 시간 제약으로 인해 모든 세션에 참석할 수 없다는 점에 대해 불만을 표시했지만 GTC 2024가 AI 산업의 기술 교류를 위해 제공하는 플랫폼을 인정했습니다. 이 기간 동안의 신제품 출시와 기술 공유는 학술 연구 및 관련 산업 체인에 긍정적인 영향을 미칠 것으로 예상됩니다. 새로운 Blackwell 아키텍처에 대한 보다 기술적인 세부 사항에 대한 추가 조사가 기다리고 있습니다.