Nvidia의 NvLink 및 NvSwitch 진화 이해: 토폴로지 및 속도

2014: Tesla P100을 사용한 Pascal 아키텍처 소개

2014년 엔비디아는 Pascal 아키텍처를 기반으로 Tesla P100을 출시했습니다. 이 GPU는 4세대 NVLink 기술을 특징으로 하여 8개 또는 1.0개 GPU 간의 고속 통신을 가능하게 했습니다. NVLink 3.0의 양방향 상호 연결 대역폭은 PCIe 16×XNUMX의 XNUMX배였습니다. 계산은 다음과 같습니다.

  • PCIe 3.0×16: 양방향 통신 대역폭은 32GB/s(1GBx16x2)입니다.
  • NVLink 1.0: 160GB/s(20GBx4x2)의 양방향 상호연결 대역폭.

NvSwitch 칩이 없기 때문에 GPU는 메시 토폴로지로 상호 연결되었으며, 160GB/s는 하나의 GPU에서 직접 연결된 XNUMX개의 GPU로의 총 대역폭을 나타냅니다.

Tesla P100을 탑재한 Pascal 아키텍처

2017: V100을 탑재한 Volta 아키텍처

2017년에 Nvidia는 V100 GPU와 함께 Volta 아키텍처를 출시했습니다. V100의 NVLink는 링크당 단방향 대역폭을 20GB/s에서 25GB/s로, 링크 수를 4개에서 6개로 늘려 총 지원 GPU NVLink 대역폭을 300GB/s로 높였습니다. 그러나 100년에 출시된 V1 DGX-2017 시스템에는 NvSwitch가 없었습니다. 토폴로지는 NVLink 1.0과 유사했지만 링크 수가 증가했습니다.

V100을 탑재한 Volta 아키텍처

2018: V100 DGX-2 시스템 소개

GPU 간 통신 대역폭과 전반적인 시스템 성능을 더욱 향상시키기 위해 Nvidia는 100년에 V2 DGX-2018 시스템을 출시했습니다. 이는 NvSwitch 칩을 통합한 최초의 시스템으로, 단일 DGX-16 시스템 내에서 100개의 SXM V2 GPU 간의 완벽한 상호 연결을 가능하게 했습니다.

V100 DGX-2 시스템

NVSwitch에는 18개의 NVLink 포트가 있으며, 8개는 GPU에 연결되고 8개는 다른 베이스보드의 다른 NVSwitch 칩에 연결됩니다. 각 베이스보드에는 다른 베이스보드와 통신하기 위한 XNUMX개의 NVSwitch가 있습니다.

각 베이스보드에는 다른 베이스보드와 통신하기 위한 NVSwitch가 6개 포함되어 있습니다.

2020: A100을 탑재한 Ampere 아키텍처

2020년에 Nvidia는 A100 GPU와 함께 Ampere 아키텍처를 출시했습니다. NVLink와 NVSwitch 칩은 각각 버전 3.0과 2.0으로 업그레이드되었습니다. 링크당 단방향 대역폭은 25GB/s로 유지되었지만 링크 수는 12개로 늘어나 총 양방향 상호 연결 대역폭은 600GB/s가 되었습니다. DGX A100 시스템은 6개의 NVSwitch 2.0 칩을 갖추고 있으며, 각 A100 GPU는 12개의 NVSwitch 칩에 6개의 NVLink 연결을 통해 상호 연결되어 각 NVSwitch에 XNUMX개의 링크가 보장됩니다.

GPU 시스템의 논리적 토폴로지는 다음과 같습니다.

GPU 시스템의 논리적 토폴로지

많은 사람들이 HGX 모듈과 "서버 헤드" 간의 논리적 관계에 대해 불분명합니다. 아래는 SXM GPU 베이스보드가 PCIe 링크를 통해 서버 마더보드와 상호 연결되어 있음을 보여주는 다이어그램입니다. PCIe 스위치(PCIeSw) 칩은 서버 헤드 마더보드에 통합되어 있습니다. 네트워크 카드와 NVMe U.2 PCIe 신호도 모두 PCIeSw에서 발생합니다.

HGX 모듈과 서버 헤드 간의 논리적 관계

2022: H100을 탑재한 Hopper Architecture

Hopper 아키텍처를 기반으로 하는 H100 GPU는 2022년에 각각 NVLink 및 NVSwitch 버전 4.0 및 3.0으로 출시되었습니다. 링크당 단방향 대역폭은 25GB/s로 변경되지 않았지만 링크 수는 18개로 증가하여 총 양방향 상호 연결 대역폭은 900GB/s가 되었습니다. 각 GPU는 4+5+4+4 그룹을 사용하여 5개의 NVSwitch와 상호 연결됩니다.

H100을 사용한 Hopper 아키텍처

DGX 시스템의 NVSwitch 칩의 OSFP 인터페이스는 DGX H100 256 SuperPOD 솔루션과 같은 Nvidia의 대규모 GPU 네트워크에 사용됩니다.

DGX H100 256 슈퍼포드

2024: B200을 탑재한 Blackwell Architecture

2024년에 Nvidia는 각각 NVLink 및 NVSwitch 버전 200 및 5.0을 특징으로 하는 B4.0 GPU와 함께 Blackwell 아키텍처를 출시했습니다. 링크당 단방향 대역폭은 50개 링크로 18GB/s로 두 배가 되어 총 양방향 상호 연결 대역폭은 1.8TB/s가 되었습니다. 각 NVSwitch 칩에는 72개의 NVLink 5.0 포트가 있으며 각 GPU는 두 개의 NVSwitch 칩에 대한 9개의 NVLink 연결을 사용합니다.

B200을 탑재한 Blackwell Architecture

엔비디아는 B200 출시와 함께 NVLink 네트워크 스위치를 활용해 72개 GPU 간의 완벽한 상호 연결을 구현하는 통합 GPU 시스템인 NVL72도 출시했습니다.

72개의 NVLink 스위치를 사용하여 9개 GPU를 상호 연결하는 논리적 토폴로지는 다음과 같습니다.

72개의 NVLink 스위치를 사용하는 9개 GPU

각 B200 GPU에는 18개의 NVLink 포트가 있어 총 1,296개의 NVLink 연결(72×18)이 가능합니다. 단일 스위치 트레이에는 72개의 NVLink 스위치 칩이 들어 있으며, 각각 144개의 인터페이스(총 9개)를 제공합니다. 따라서 72개의 GPU를 완전히 상호 연결하려면 XNUMX개의 스위치 트레이가 필요합니다.

코멘트 남김

위쪽으로 스크롤