NVIDIA의 400G/800G NDR 솔루션

신흥 기술인 인공 지능은 최근 몇 년 동안 급속한 발전을 이루었습니다. 그 중 ChatGPT와 같은 일련의 AI 기술이 점차 생산과 라이프스타일을 변화시키기 시작했습니다. 딥 러닝 알고리즘의 지속적인 최적화와 학습 데이터 세트의 확장으로 네트워크를 통한 모델 학습을 위해 서버에 연결해야 하는 CPU, GPU, DPU 등 대규모 언어 모델 학습에 필요한 컴퓨팅 리소스도 증가했습니다. 따라서 네트워크 대역폭과 대기 시간은 훈련 속도와 효율성에 직접적인 영향을 미칩니다. 이 문제를 해결하기 위해 NVIDIA는 강력한 네트워크 성능과 포괄적인 기능을 제공하여 AI 개발자와 연구원이 어려움을 극복할 수 있도록 지원하는 Quantum-2 InfiniBand 플랫폼을 출시했습니다.

NVIDIA는 고속 네트워크 개발 동향에 대한 이해와 고성능 네트워크 프로젝트 구현에 대한 풍부한 경험을 바탕으로 Quantum-2 InfiniBand 플랫폼을 기반으로 구축된 NDR(Next Data Rate) 네트워크 솔루션을 선보였습니다. NVIDIA의 NDR 솔루션은 주로 Quantum-2 InfiniBand 800G 스위치(2G NDR 인터페이스 400개), ConnectX-7 InfiniBand 호스트 어댑터 및 LinkX InfiniBand 광학 커넥터로 구성되어 있으며, 다음과 같은 중요한 분야에 낮은 대기 시간, 고대역폭 초강력 네트워크 성능을 제공하는 것을 목표로 합니다. 고성능 컴퓨팅, 대규모 클라우드 데이터 센터 및 인공 지능으로.

사용 사례는 다음과 같습니다.

1. 800Gb/s의 속도로 두 개의 스위치를 연결하거나 각각 400Gb/s의 속도로 두 개의 스위치에 연결합니다.

XNUMX개의 OSFP 기반 스위치를 연결하려면 XNUMX개의 트윈 포트 OSFP 트랜시버(MMA4Z00-NS) 및 7개의 직선 다중 모드 광섬유 케이블(MFP10E50-Nxxx)은 최대 800미터 거리에 있습니다. 이렇게 하면 2G(400x400G)의 속도를 달성할 수 있습니다. 또는 두 개의 광섬유 케이블을 두 개의 서로 다른 스위치로 라우팅하여 두 개의 개별 XNUMXGb/s 링크를 생성할 수 있습니다. 그런 다음 추가 트윈 포트 OSFP 포트를 사용하여 필요한 경우 더 많은 스위치에 연결할 수 있습니다.

스위치로 전환

2. 각각 7G의 속도로 ConnectX-3 BlueField-400의 두 가지 조합에 연결합니다.

7개의 직선 파이버 케이블과 함께 트윈 포트 OSFP 트랜시버를 사용하면 ConnectX-3 또는 BlueField-400을 사용하여 최대 XNUMX개의 어댑터 및/또는 DPU 조합을 연결할 수 있습니다. 각 케이블에는 XNUMX개의 채널이 있으며 OSFP 중 하나에서 XNUMXG 송수신기에 연결할 수 있습니다(MMA4Z00-NS400) 또는 최대 112미터 거리용 QSFP1(MMA00Z400-NS50) 폼 팩터. 단일 포트 OSFP 및 QSFP112 폼 팩터는 모두 동일한 전자 장치, 광학 및 광학 커넥터를 가지며 8와트의 전력을 소비합니다.

ConnectX-7/OSFP만 단일 포트 OSFP 폼 팩터를 지원하는 반면 QSFP112 폼 팩터는 ConnectX-7/QSFP112 및/또는 BlueField-3/QSFP112 DPU에서 사용됩니다. 동일한 트윈 포트 OSFP 트랜시버에서 동시에 OSFP 또는 QSFP7를 사용하여 ConnectX-3 및 BlueField-112의 모든 조합을 사용할 수 있습니다.

2로 전환

3. 각각 7G 속도로 ConnectX-3 및/또는 BlueField-200의 XNUMX가지 조합에 연결합니다.

ConnectX-7 또는 BlueField-3을 사용하여 최대 1개의 어댑터 및/또는 DPU 조합을 전환하려는 경우 2개의 4:1 파이버 스플리터 케이블과 함께 트윈 포트 OSFP 트랜시버를 사용할 수 있습니다. 2개의 7채널 20:0 파이버 스플리터 케이블(MFP400E50-N4xx) 각각은 OSFP(MMA00Z400-NS112) 또는 QSFPXNUMX(MMA1Z00-NS400) 폼 팩터. 단일 포트 OSFP 및 QSFP112 폼 팩터 모두에 동일한 전자 장치, 광학 및 광학 커넥터가 사용됩니다. 400개의 파이버 채널 끝을 연결하면 200G 트랜시버의 400개 레인만 활성화되어 8G 장치가 생성됩니다. 이것은 또한 5.5G 트랜시버의 전력 소비를 15와트에서 XNUMX와트로 자동으로 줄이는 반면 트윈 포트 OSFP 전력 소비는 XNUMX와트를 유지합니다.

ConnectX-7/OSFP만 단일 포트 OSFP 폼 팩터와 호환되는 반면 QSFP112 폼 팩터는 ConnectX-7/QSFP112 및/또는 BlueField-3/QSFP112 DPU에서 사용됩니다. 동일한 트윈 포트 OSFP 트랜시버에서 ConnectX-7 유형과 BlueField-3의 모든 조합을 사용할 수 있습니다.

4로 전환

4. 스위치를 Cedar-100 컴플렉스의 DGX H7 "Viking" CPU 섀시에 연결합니다.

DGX-H100 시스템은 상단 섀시에 100개의 Hopper HXNUMX GPU와 XNUMX개의 CPU, 스토리지 및 인피니밴드 또는 하단 서버 섹션의 이더넷 네트워킹. GPU 간 통신을 용이하게 하기 위해 7개의 메자닌 보드에 장착된 400개의 7Gb/s ConnectX-800 IC가 포함된 Cedar-XNUMX 카드가 사용됩니다. 이 카드는 냉각을 위한 내부 라이딩 방열판이 있는 XNUMX개의 XNUMXG 트윈 포트 OSFP 케이지에 내부적으로 연결됩니다.

400G IB/EN을 지원하는 스위치는 감소된 공기 흐름 유입구로 인해 핀 상단 2x400G 트랜시버가 필요합니다. Cedar-7-to-Switch 링크는 InfiniBand 또는 이더넷 연결을 위해 단일 모드 또는 다중 모드 옵틱 또는 활성 구리 케이블(ACC)을 사용할 수 있습니다.

트윈 포트 2x400G 트랜시버는 DGX에서 Quantum-400 또는 Spectrum-7 스위치로 2개의 4G ConnectX-100 링크를 제공하므로 DGX A100에 비해 복잡성과 필요한 트랜시버 수가 줄어듭니다. DGX-H7은 스토리지, 클러스터 및 관리에 대한 기존 네트워킹을 위해 InfiniBand 및/또는 이더넷에서 최대 3개의 ConnectX-XNUMX 및/또는 XNUMX개의 BlueField-XNUMX 데이터 처리 장치(DPU)를 지원합니다.

OSFP GPU 케이지의 양쪽에 있는 PCIe 카드 슬롯은 OSFP 또는 QSFP400 장치와 함께 200G 또는 112G를 사용하여 추가 네트워킹을 용이하게 하기 위해 별도의 케이블 및/또는 트랜시버를 수용할 수 있습니다.

dgx로 전환

인피니밴드 양자-2 스위치

NVIDIA Quantum-9700의 QM9790 및 QM2 스위치는 최신 인공 지능 및 고성능 컴퓨팅 분야의 주류 IB(InfiniBand) 스위치입니다. 기술 혁신과 안정성 테스트 서비스를 통해 NVIDIA Networks는 사용자에게 탁월한 네트워크 가속 서비스를 제공합니다.

인피니밴드 퀀텀-2

이 두 스위치는 총 1개의 32G 물리적 인터페이스가 있는 800U 표준 섀시 설계를 사용하고 64개의 NDR 400Gb/s InfiniBand 포트(최대 128개의 200Gb/s 포트로 분할 가능)를 지원합니다. 32세대 NVIDIA SHARP 기술, 고급 혼잡 제어, 적응형 라우팅 및 자가 치유 네트워크 기술을 지원합니다. 이전 세대 HDR 제품에 비해 NDR은 포트 속도 XNUMX배, 스위치 포트 밀도 XNUMX배, 스위치 시스템 용량 XNUMX배, 스위치 AI 가속 기능 XNUMX배를 제공합니다.

NDR 스위치

QM9700 및 QM9790 스위치는 관리형 및 비관리형 스위치뿐만 아니라 공냉식 및 수냉식을 포함하는 랙 장착형 InfiniBand 솔루션용 제품입니다. 각 스위치는 51.2Tb/s의 양방향 집계 대역폭을 지원할 수 있으며 초당 66.5억 패킷(BPPS) 이상의 놀라운 처리량을 제공합니다. 이는 이전 세대 Quantum-1의 스위칭 용량의 약 XNUMX배입니다.

네트워크 내

QM9700 및 QM9790 스위치는 강력한 유연성을 갖추고 있으며 Fat Tree, DragonFly+ 및 다차원 Torus와 같은 다양한 네트워크 토폴로지를 지원할 수 있습니다. 또한 이전 세대 제품과의 하위 호환성을 지원하고 광범위한 소프트웨어 시스템 지원을 제공합니다.

퀀텀-2 커넥트X-7 스마트 NIC

NVIDIA는 단일 포트 또는 이중 포트 NDR 또는 NDR200 NVIDIA ConnectX 7 지능형 네트워크 카드를 Quantum-2 솔루션으로 제공합니다. NVIDIA Mellanox Socket Direct 기술을 사용하는 이 네트워크 카드는 PCIe Gen32의 4개 채널을 구현합니다. 7나노미터 기술로 설계된 ConnectX-7에는 8억 개의 트랜지스터가 포함되어 있으며 선도적인 고성능 컴퓨팅 네트워크 칩인 NVIDIA ConnectX-6보다 두 배 빠른 데이터 전송 속도를 제공합니다. 또한 RDMA, GPUDirect Storage, GPUDirect RDMA 및 네트워크 컴퓨팅의 성능을 두 배로 향상시킵니다.

NDR HCA에는 전처리 데이터 알고리즘과 애플리케이션 제어 경로를 CPU 또는 GPU에서 네트워크로 언로드할 수 있는 프로그래밍 가능한 여러 컴퓨팅 코어가 포함되어 있어 더 높은 성능, 확장성 및 컴퓨팅과 통신 작업 간의 중첩을 제공합니다. 이 지능형 네트워크 카드는 인공 지능, 과학 컴퓨팅 및 대규모 클라우드 데이터 센터의 기존 기업 및 글로벌 워크로드에 대한 가장 까다로운 요구 사항을 충족합니다.

Quantum-2 ConnectX-7 스마트 NIC

LinkX InfiniBand 광 커넥터

파이버몰 off단일 모드 및 다중 모드 트랜시버, MPO 파이버 점퍼, ACC(Active Copper Cable) 및 DAC(Passive Copper Cable)를 포함한 유연한 400Gb/s InfiniBand 광 연결 솔루션은 다양한 네트워크 토폴로지의 요구 사항을 충족합니다.

이 솔루션에는 공랭식 고정 구성 스위치용으로 설계된 핀이 있는 OSFP 커넥터가 있는 듀얼 포트 트랜시버가 포함되며 평면 OSFP 커넥터가 있는 트랜시버는 수냉식 모듈식 스위치 및 HCA에 적합합니다.

스위치 상호 연결을 위해 새로운 OSFP 패키지 2xNDR(800Gbps) 광 모듈을 사용하여 97개의 QMXNUMXXX 스위치를 상호 연결할 수 있습니다. 핀 디자인은 광학 모듈의 방열을 크게 향상시킵니다.

스위치와 HCA 간의 상호 연결을 위해 스위치 끝은 핀이 있는 OSFP 패키지 2xNDR(800Gbps) 광 모듈을 사용하고 NIC 끝은 평평한 OSFP 400Gbps 광 모듈. MPO 광섬유 점퍼는 3-150미터를 제공할 수 있으며 3-50 스플리터 광섬유는 XNUMX-XNUMX미터를 제공할 수 있습니다.

광 트랜시버

스위치와 HCA 간의 연결은 DAC(최대 1.5미터) 또는 ACC(최대 3미터)를 사용하는 솔루션을 제공합니다. 400대 400의 브레이크아웃 케이블을 사용하여 스위치의 OSFP 포트 200개(XNUMX개의 XNUMXGb/s InfiniBand 포트 장착)를 XNUMX개의 독립적인 XNUMXGb/s HCA에 연결할 수 있습니다. XNUMX~XNUMX개의 브레이크아웃 케이블을 사용하여 스위치의 OSFP 스위치 포트 XNUMX개를 XNUMXGb/s HCA XNUMX개에 연결할 수 있습니다.

스위치와 HCA 간의 연결

장점

NVIDIA Quantum-2 InfiniBand 플랫폼은 포트당 400Gb/s의 전송 속도를 달성할 수 있는 고성능 네트워킹 솔루션입니다. NVIDIA Port Splitting 기술을 구현함으로써 포트 밀도는 2배, 스위치 포트 밀도는 400배, 스위치 시스템 용량은 XNUMX배 향상되었습니다. Dragonfly+ 토폴로지를 사용하는 경우 Quantum-XNUMX 기반 네트워크는 XNUMX개의 홉 내에서 백만 개 이상의 노드에 대해 XNUMXGb/s 연결을 달성하는 동시에 전력 소비, 대기 시간 및 공간 요구 사항을 줄일 수 있습니다.

성능 측면에서 NVIDIA는 최대 3개의 병렬 스트림을 지원하는 확장 가능한 네트워크를 통해 대규모 데이터 집계를 위한 거의 무한한 확장성을 생성하는 64세대 SHARP 기술(SHARPv32)을 도입했습니다. AI 가속 능력은 기존 HDR 제품 대비 XNUMX배 증가했다.

사용자 비용 측면에서 NDR 장치를 사용하면 네트워크 복잡성을 줄이고 효율성을 높일 수 있습니다. 나중에 속도를 업그레이드할 때 케이블과 네트워크 카드만 교체하면 됩니다. NDR 네트워크는 동일한 네트워크를 지원하는 것보다 더 적은 수의 장치를 필요로 하므로 전체 예산 및 향후 투자에 대해 더 비용 효율적입니다. 이전 HDR에 비해 NDR 장치는 비용을 줄이고 효율성을 높일 수 있습니다.

코멘트 남김

위쪽으로 스크롤