NVLink의 진화

NVLink는 GPU 간 지점 간 고속 상호 연결을 위해 NVIDIA가 개발한 기술입니다. 이는 PCIe 상호 연결의 대역폭 제한을 극복하고 GPU 칩 간의 낮은 대기 시간, 고대역폭 데이터 통신을 가능하게 하여 더 효율적으로 함께 작업할 수 있도록 하는 것을 목표로 합니다. NVLink 기술이 도입되기 전(2014년 이전)에는 아래 그림과 같이 GPU를 PCIe 스위치를 통해 상호 연결해야 했습니다. GPU의 신호는 먼저 PCIe 스위치를 통과해야 했습니다. 여기서 데이터 처리에는 CPU 배포 및 스케줄링이 포함되어 네트워크 대기 시간이 추가되고 시스템 성능이 제한되었습니다. 당시 PCIe 프로토콜은 3개 채널에 대해 단일 채널 속도가 8Gb/s이고 총 대역폭이 16GB/s(128Gbps, 1바이트=8비트)인 Gen 16에 도달했습니다. GPU 칩 성능이 지속적으로 향상되면서 상호 연결 대역폭에 병목 현상이 발생했습니다.

PCle 스위치

출처: https://en.wikichip.org/wiki/nvidia/nvlink

2014년에는 다음 그림과 같이 NVLink 1.0이 출시되어 P100 칩에 적용되었습니다. 20개의 GPU 사이에는 160개의 NVlink가 있으며, 각 링크에는 3개의 레인이 포함되어 있으며 각각의 속도는 16Gb/s입니다. 따라서 전체 시스템의 양방향 대역폭은 XNUMXGB/s로 PCIeXNUMX xXNUMX의 XNUMX배입니다.

SysMem

출처: https://en.wikichip.org/wiki/nvidia/nvlink

각각의 NVLink 다음 그림과 같이 양방향 채널의 16개 레인에 해당하는 XNUMX쌍의 차동 라인으로 구성됩니다. 차동 쌍의 두 끝은 SerDes를 포함하는 PHY입니다.

각 NVLink는 16쌍의 차동 라인으로 구성됩니다.

출처: https://www.nextplatform.com/2016/05/04/nvlink-takes-gpu-acceleration-next-level/

NVLink 1.0을 기반으로 각 쌍 사이의 지점 간 연결을 통해 1개의 GPU로 구성된 평면 메시 구조를 형성할 수 있습니다. XNUMX개의 GPU가 큐브 메시에 해당하며 DGX-XNUMX 서버를 구성할 수 있습니다. 이는 또한 다음 그림에 표시된 대로 일반적인 XNUMX개 카드 구성에 해당합니다. 이때 XNUMX개의 GPU가 전체 연결을 형성하지 않는다는 점에 유의해야 합니다.

XNUMX개의 GPU

출처: https://developer.nvidia.com/blog/dgx-1-fastest-deep-learning-system/

2017년에 Nvidia는 100세대 NVLink 기술을 출시했습니다. 두 개의 GPU V25 칩을 각각 300개의 레인으로 구성된 1.0개의 NVLink와 연결합니다. 각 레인의 속도는 1.0Gb/s로 향상되었으며 시스템의 양방향 대역폭은 NVLink 18의 거의 두 배인 50GB/s에 도달합니다. 동시에, 엔비디아는 900개의 GPU 간의 올투올 상호 연결을 가능하게 하기 위해 NVSwitch 기술을 도입했습니다. NVSwitch 100에는 XNUMX개의 포트가 있으며 각 포트의 대역폭은 XNUMXGB/s이고 총 대역폭은 XNUMXGB/s입니다. 각 NVSwitch는 CPU 연결을 위해 두 개의 포트를 예약합니다. XNUMX개의 NVSwitch를 사용하면 아래 그림과 같이 XNUMX개의 GPU VXNUMX 칩의 전체 연결을 설정할 수 있습니다.

출처: https://en.wikichip.org/wiki/nvidia/nvswitch

DGX-2 시스템은 아래 그림과 같이 두 개의 보드로 구성되어 16개의 GPU 칩을 올투올 연결합니다.

출처: https://en.wikichip.org/wiki/nvidia/nvswitch

2020년에는 NVLink 3.0 기술이 등장했습니다. 두 개의 GPU A100 칩을 각각 12개의 레인을 포함하는 50개의 NVLink와 연결합니다. 각 레인의 속도는 600Gb/s이고, 시스템의 양방향 대역폭은 NVLink 2.0의 두 배인 36GB/s에 달합니다. NVLink 수가 증가함에 따라 NVSwitch의 포트 수도 각각 50GB/s의 속도로 100개로 늘어났습니다. DGX A100은 아래 그림과 같이 GPU AXNUMX 칩 XNUMX개와 NVSwitch XNUMX개로 구성됩니다.

NVLink 3.0 기술

출처 : http://www.eventdrive.co.kr/2020/azwell/DGX_A100_Azwellplus.pdf

2022년에 NVLink 기술은 100세대로 업그레이드되어 18개의 GPU H2 칩이 100개의 NVLink 링크를 통해 상호 연결될 수 있습니다. 각 링크에는 4개의 레인이 포함되어 있으며 각 레인은 900Gb/s PAM64의 속도를 지원하므로 양방향 총 대역폭이 50GB로 증가했습니다. /에스. NVSwitch는 또한 100세대로 업그레이드되었으며 각 NVSwitch는 8개의 포트를 지원하며 각 포트는 100GB/s의 속도를 제공합니다. DGX H4은 아래 그림과 같이 HXNUMX 칩 XNUMX개와 NVSwitch 칩 XNUMX개로 구성됩니다. 각 NVSwitch의 반대편에는 여러 800G OSFP 광학 모듈 연결되어있다. 왼쪽 첫 번째 NVSwitch를 예로 들면, GPU에 연결된 쪽의 단방향 총 대역폭은 4Tbps(20NVLink200Gbps)이고, 광 모듈에 연결된 쪽의 총 대역폭도 4Tbps(5800Gbps)입니다. 크기가 동일하여 비차단 네트워크를 형성합니다. 광 모듈의 대역폭은 단방향 대역폭인 반면 AI 칩에서는 일반적으로 양방향 대역폭이 사용된다는 점에 유의해야 합니다.

비차단 네트워크

출처: https://blog.apnic.net/2023/08/10/large-언어-models-the-hardware-connection/

800G OSFP SR8 광 트랜시버 모듈은 400nm 파장을 사용하는 다중 모드 광섬유를 통한 850G InfiniBand NDR 링크용으로 설계되었습니다. 모듈에는 각각 MTP/MPO-4 커넥터를 사용하는 100채널 4G-PAM12 광 변조 포트 800개가 있습니다. 아래 비디오에서는 브레이크아웃 광섬유 케이블을 사용하여 다른 장치에 연결하는 방법과 InfiniBand 또는 이더넷을 기반으로 스위치 프로토콜을 구성하는 방법을 보여줍니다. 또한 높은 대역폭, 낮은 전력 소비 및 핫 플러그 ​​기능과 같은 8G OSFP SRXNUMX 모듈의 주요 기능과 이점에 대해 알아봅니다.

다음 표에는 각 세대의 NVLink 성능 매개변수가 요약되어 있습니다.

각 세대의 NVLink 성능 매개변수

각 세대의 PCIe 매개변수는 다음 표에 나와 있습니다.

각 세대의 PCIe 매개변수

단일 레인 속도의 관점에서 볼 때 NVLink는 일반적으로 같은 기간의 PCIe보다 약 XNUMX배 높으며 총 대역폭의 이점은 훨씬 더 분명합니다. NVLink는 PCIe의 총 대역폭의 약 XNUMX배입니다. 그것은 능가했고 결코 멈추지 않았습니다.

NVLink는 약 XNUMX년의 개발 끝에 Nvidia GPU 칩의 핵심 기술이 되었으며, 이는 생태계의 중요한 부분이며, GPU 칩 간의 고대역폭 및 저지연 데이터 상호 연결 문제를 효과적으로 해결하고 기존 컴퓨팅 아키텍처를 변화시킵니다. 하지만 이 기술은 Nvidia만의 고유한 기술이기 때문에 다른 AI 칩 회사에서는 PCIe나 다른 상호 연결 프로토콜만 사용할 수 있습니다. 동시에 Nvidia는 아래 그림과 같이 실리콘 포토닉스 칩과 GPU가 함께 패키지되고 광섬유가 두 개의 GPU 칩을 연결하는 것처럼 GPU 간의 연결을 달성하기 위해 광학 상호 연결의 사용을 모색하고 있습니다.

광자 연결 GPU nvswitch

출처: https://www.nextplatform.com/2022/08/17/nvidia-shows-what-optically-linked-gpu-systems-might-look-like/

코멘트 남김

위쪽으로 스크롤