IB 네트워크 및 Mellanox 제품

IB-InfiniBand란 무엇입니까?

IB는 InfiniBand의 약자입니다. 무한 대역폭 ” ), 고성능 컴퓨팅을 위한 컴퓨터 네트워크 통신 표준입니다. 매우 높은 처리량과 매우 낮은 지연 시간을 특징으로 하는 IB 기술은 컴퓨터 간의 데이터 상호 연결에 사용됩니다. InfiniBand는 또한 서버와 스토리지 시스템 간의 직접 또는 교환 상호 연결 및 스토리지 시스템 간의 상호 연결로 사용됩니다. AI의 부상으로 IB도 인기를 얻었으며 현재 하이엔드 GPU 서버 클러스터에 선호되는 네트워킹 방법입니다.

InfiniBand의 개발 역사는 다음과 같습니다.

  • 1999년: InfiniBand Trade Association(IBTA)는 원래 PCI 버스를 대체하기 위해 고안된 InfiniBand 아키텍처를 출시했습니다.
  • 2000년에 InfiniBand 아키텍처 사양의 버전 1.0이 공식적으로 출시되었습니다. 그런 다음 2001년에 첫 번째 InfiniBand 제품이 출시되었고, 서버, 스토리지 시스템, 네트워크 장비를 포함하여 많은 제조업체가 InfiniBand를 지원하는 제품을 출시하기 시작했습니다.
  • 2003년, InfiniBand는 높은 처리량과 낮은 지연 시간 덕분에 새로운 응용 분야인 HPC 컴퓨터 클러스터 상호 연결로 전환했고 당시 TOP500 슈퍼컴퓨터에 널리 사용되었습니다.
  • 2004년에는 또 다른 중요한 InfiniBand 비영리 기구인 Open Fabrics Alliance(OFA)가 탄생했습니다.
  • 2005년, InfiniBand는 저장 장치의 연결이라는 새로운 시나리오를 발견했고 그 이후로 지속적으로 업데이트되고 반복되었습니다.
  • 2015년 InfiniBand 기술은 처음으로 TOP50 슈퍼컴퓨터의 500% 이상을 차지하여 51.4%에 도달했습니다. 이는 InfiniBand 기술이 이더넷 기술을 제치고 슈퍼컴퓨터에서 가장 인기 있는 내부 연결 기술이 된 첫 번째 사례입니다.
  • 2023년 이후 AI 대규모 모델 훈련은 고성능 컴퓨팅 클러스터에 크게 의존하게 되었으며, InfiniBand 네트워크는 고성능 컴퓨팅 클러스터에 가장 적합한 파트너입니다.

Mellanox와 IB Network의 핵심 장점

Mellanox와 InfiniBand의 관계

현재 사람들이 IB를 언급할 때 가장 먼저 떠오르는 것은 Mellanox입니다. 2019년에 NVIDIA는 Mellanox를 하위 브랜드로 인수하기 위해 6.9억 달러를 지출했습니다. Jensen Huang은 공개적으로 이렇게 말했습니다. 이것은 세계를 선도하는 두 고성능 컴퓨팅 회사의 결합입니다. NVIDIA는 가속 컴퓨팅에 집중하고 Mellanox는 상호 연결 및 스토리지에 집중합니다.

업계 기관들의 예측에 따르면, 인피니밴드 98.37년에는 2029억 14.7천만 달러에 도달할 것으로 예상되며, 6.66년 2021억 XNUMX천만 달러에서 XNUMX배 증가할 것입니다. 고성능 컴퓨팅과 AI를 기반으로 InfiniBand는 밝은 미래를 가지고 있습니다.

 InfiniBand 네트워크 아키텍처 및 기능

InfiniBand 시스템은 다음 그림과 같이 채널 어댑터, 스위치, 라우터, 케이블 및 커넥터로 구성됩니다.

InfiniBand 시스템

InfiniBand 시스템

핵심 기능은 다음과 같이 요약됩니다.

  • 낮은 대기 시간: 매우 낮은 대기 시간과 RDMA에 대한 기본 지원
  • 높은 대역폭: 포트당 400Gb/s 데이터 전송 용량
  • 사용 편의성: 대규모 데이터 센터 클러스터 구축에 적합

IB 네트워크 및 RDMA

IB 네트워크에 대해 이야기할 때, 우리는 RDMA를 언급해야 합니다. RDMA(Remote Direct Memory Access)는 네트워크 전송에서 서버 측 데이터 처리의 지연을 해결하기 위해 만들어졌습니다. CPU를 사용하지 않고 한 호스트나 서버의 메모리에서 다른 호스트나 서버의 메모리에 직접 액세스할 수 있습니다. CPU가 작업을 수행할 수 있도록 해줍니다. Infiniband는 RDMA를 위해 특별히 설계된 네트워크 기술이며, IB 네트워크는 기본적으로 RDMA를 지원합니다.

RDMA 기술이 이렇게 강력한 이유는 커널 바이패스 메커니즘으로, 애플리케이션과 네트워크 카드 간에 직접 데이터를 읽고 쓸 수 있어 서버 내의 데이터 전송 지연 시간을 거의 1us로 줄일 수 있기 때문입니다. Roce는 RDMA를 이더넷으로 이식합니다.

두 가지 주류 RDMA 솔루션(IB 및 ROCEV2) 비교

  • 기존 데이터 센터에 비해 새로운 지능형 컴퓨팅 센터의 통신 네트워크에 대한 요구 사항은 낮은 지연 시간, 넓은 대역폭, 안정성 및 대규모 등 더 높습니다.
  • RDMA 기반 InfiniBand와 ROCEV2는 모두 지능형 컴퓨팅 센터 통신 네트워크의 요구 사항을 충족할 수 있습니다.
  • 현재 InfiniBand는 성능 면에서 ROCEV2보다 더 많은 이점을 가지고 있고, 반면 ROCEV2는 경제성과 다용성 면에서 InfiniBand보다 현재 더 많은 이점을 가지고 있습니다.

초기 SDR(단일 데이터 전송 속도) 사양을 예로 들면, 1X 링크의 원래 신호 대역폭은 2.5Gbps, 4X 링크는 10Gbps, 12X 링크는 30Gbps입니다. 1X 링크의 실제 데이터 대역폭은 2.0Gbps(8b/10b 인코딩으로 인해)입니다. 링크가 양방향이므로 버스에 대한 총 대역폭은 4Gbps입니다. 시간이 지남에 따라 InfiniBand의 네트워크 대역폭은 계속 업그레이드됩니다.

HDR과 NDR에서 DR은 무엇을 의미합니까? 각 DR은 각 세대의 IB 기술의 약어를 나타냅니다. DR은 데이터 전송 속도의 일반적인 용어이며 4채널이 주류입니다.

다음 그림은 SDR, DDR, QDR, FDR, EDR에서 HDR 및 NDR까지의 InfiniBand 네트워크 대역폭을 보여줍니다. 속도는 4배 링크 속도를 기준으로 합니다. 현재 EDR, HDR 및 NDR이 주류이며 PICE 3.0, 4.0 및 5.0 서버 플랫폼에 해당합니다.

NVIDIA InfiniBand 주류 제품 - 최신 NDR 네트워크 카드 상황

ConnectX-7 IB 카드(HCA)는 단일 및 이중 포트를 포함한 다양한 폼 팩터를 갖추고 있으며 OSFP 및 QSFP112 인터페이스를 지원하고 200Gbps 및 400Gbps 속도를 지원합니다. CX-7 네트워크 카드는 CEM 사양을 준수하는 x16 PCle5.0 또는 PCle 4.0을 지원합니다. 최대 16개의 레인을 연결할 수 있으며 NVIDIA Socket Direct® 기술을 사용하여 32개의 PCIe 4.0 레인을 지원하는 옵션 보조 카드를 지원합니다.

다른 폼 팩터로는 OSFP 커넥터가 있는 OCP(Open Compute Project) 3.0, QSFP3.0 커넥터가 있는 OCP 112, QSFP16 커넥터가 있는 CEM PCle x112이 있습니다.

Mellanox의 최신 NDR 스위치

Mellanox의 IB 스위치는 고정형 구성 스위치와 모듈형 스위치의 두 가지 유형으로 나뉩니다. 최신 NDR 시리즈 스위치는 더 이상 모듈형 구성 스위치를 판매하지 않는 것으로 알려져 있습니다(공식 웹사이트에는 판매 중이라고 나와 있지만 더 이상 판매되지 않습니다).

NDR의 고정 구성 스위치 MQM9700 시리즈는 32개의 물리적 OSFP 커넥터를 갖추고 있으며 64개의 400Gb/s 포트(최대 128개의 200Gb/s 포트로 분할 가능)를 지원합니다. 이 스위치 시리즈는 총 51.2Tb/s의 양방향 처리량(백플레인 대역폭)과 놀라운 66.5억 패킷/초(패킷 전달 속도)를 제공합니다.

하위 모델의 인터페이스 수와 속도는 동일하며, 차이점은 관리 기능 지원 여부, 전원 공급 방식, 방열 방식에 있습니다. 일반적으로 관리 기능이 있는 스위치 하나면 충분합니다.

Mellanox의 최신 상호 연결 케이블 및 모듈

Mellanox의 LinkX 케이블과 트랜시버는 일반적으로 ToR 스위치를 NVIDIA GPU 및 CPU 서버 네트워크 카드와 스토리지 장치에 아래로 연결하거나, 네트워크 인프라 전체의 스위치 간 상호 연결 애플리케이션에서 위로 연결하는 데 사용됩니다.

액티브 광 케이블(AOC), 직접 연결 구리 케이블(DAC) 및 케이블 끝에 신호 향상 집적 회로(IC)를 포함하는 새로운 액티브 DAC인 ACC가 있습니다.

Mellanox 최신 상호 연결 케이블 및 모듈

스위치 대 스위치 또는 스위치 대 네트워크 카드는 다양한 케이블을 통해 상호 연결될 수 있으며, 스위치 대 네트워크 카드는 1 대 2 또는 4 대 1 상호 연결을 구현할 수 있습니다.

H100의 Mellanox NIC 토폴로지

  • HGX 모듈은 H4 머신 내부에 있는 8개 또는 100개의 PCIE SW 칩을 통해 헤드에 논리적으로 연결됩니다.
  • 각 PCIE 소프트웨어는 두 개의 GPU 카드와 두 개의 네트워크 카드에 대응하며, 400개의 100G IB 카드는 XNUMX개의 HXNUMX 카드와 일대일로 대응하도록 설계되었습니다.
  • 400개의 XNUMXG IB 카드를 완전히 장착한 경우 다른 네트워크 카드를 추가하려면 CPU에서 다른 PCIE SW 연결이 필요합니다.

H100의 Mellanox NIC 토폴로지

위쪽으로 스크롤