InfiniBand와 RoCE의 차이점은 무엇입니까?

데이터 센터 네트워크 아키텍처

크로스바 아키텍처

  • 최초의 전화 교환 네트워크(크로스바 스위치)에서 파생된 아키텍처 유형
  • 다중 입력 포트, 다중 출력 포트 및 스위치 매트릭스로 구성됩니다.
  • 매우 유연하고 효율적이며 다양한 장치 간에 임의의 연결을 달성할 수 있습니다.
크로스바 아키텍처

클로 아키텍처

  • 1952년에 태어났으며 Charles Clos라는 사람이 제안했습니다.
  • Clos 아키텍처는 주로 다단계 회선 교환 네트워크의 구조를 설명합니다.
  • Clos 아키텍처는 크로스바 구조를 개선한 것으로 Non-Blocking 네트워크를 제공할 수 있습니다. Clos의 장점은 비용을 절감하고 효율성을 높이는 것입니다.
클로 아키텍처

팻트리 아키텍처

Fat-Tree는 CLOS 네트워크 아키텍처의 한 유형입니다.

전통적인 나무 구조에 비해 Fat-Tree는 뿌리 근처에 더 두꺼운 가지가 있어 실제 나무와 더 유사합니다. 나뭇잎에서 루트까지 네트워크 대역폭은 수렴되지 않습니다.

기본 아이디어: 다수의 저성능 스위치를 사용하여 대규모 비차단 네트워크를 구축합니다. 모든 통신 패턴에는 항상 네트워크 카드의 대역폭을 달성할 수 있는 경로가 있습니다.

팻트리 아키텍처

Fat-Tree 아키텍처가 데이터 센터에 도입된 후 데이터 센터는 전통적인 3계층 구조가 되었습니다.

액세스 레이어: 모든 컴퓨팅 노드를 연결하는 데 사용됩니다. 일반적으로 랙 스위치(TOR, Top of Rack) 형태입니다.

집계 레이어: 액세스 레이어의 상호 연결에 사용되며 집합 영역의 두 번째 및 세 번째 레이어의 경계로 사용됩니다. 방화벽, 로드 밸런싱 등 다양한 서비스도 여기에 배포됩니다.

코어 레이어: 집합 레이어의 상호 연결에 사용되며 전체 데이터 센터와 외부 네트워크 간의 세 번째 레이어 통신을 구현하는 데 사용됩니다.

3층 구조

Fat-Tree 아키텍처의 단점:

자원낭비: 전통적인 3레이어 구조에서는 하위 레이어 스위치가 2개의 링크를 통해 상위 레이어 스위치 2개와 연결됩니다. STP 프로토콜(Spanning Tree Protocol)이 사용되기 때문에 실제로 하나의 링크만 트래픽을 전달합니다. 다른 업링크는 차단됩니다(백업에만 사용됨). 이로 인해 대역폭 낭비가 발생합니다.

대규모 장애 도메인: STP 프로토콜은 자체 알고리즘으로 인해 네트워크 토폴로지가 변경되면 다시 수렴해야 하므로 쉽게 오류가 발생하고 전체 VLAN의 네트워크에 영향을 미칠 수 있습니다.

동서 교통에 적합하지 않음: 서버와 서버 간의 통신은 액세스 스위치, 집합 스위치, 코어 스위치를 거쳐야 합니다.

동서 교통에 적합하지 않음

스파인-리프 네트워크

Fat-Tree 구조와 마찬가지로 CLOS 네트워크 모델에 속합니다.

기존의 3계층 네트워크 아키텍처와 비교하여 Spine-Leaf 네트워크는 평면화되어 2계층 아키텍처로 전환되었습니다.

스파인-리프 네트워크

리프 스위치는 물리적 서버에 직접 연결된 TOR(Top Of Rack)으로서 기존 2계층 아키텍처의 액세스 스위치와 동일합니다. 리프 스위치 위에는 세 번째 계층 네트워크가 있으며, 각각은 독립적인 LXNUMX 브로드캐스트 도메인입니다. 두 개의 리프 스위치 아래에 있는 서버가 통신해야 하는 경우 스파인 스위치에 의해 전달되어야 합니다.

코어 스위치와 동일한 스파인 스위치. 리프 및 스파인 스위치는 ECMP(Equal Cost Multi Path)를 통해 여러 경로를 동적으로 선택합니다.

스파인 스위치의 다운링크 포트 수에 따라 리프 스위치 수가 결정됩니다. 리프 스위치의 업링크 포트 수에 따라 스파인 스위치 수가 결정됩니다. 그들은 Spine-Leaf 네트워크의 규모를 공동으로 결정합니다.

스파인-리프 토폴로지

Spine-Leaf 네트워크의 장점

높은 대역폭 활용도

각 리프 스위치의 업링크는 로드 밸런싱 방식으로 작동하여 대역폭을 최대한 활용합니다.

예측 가능한 네트워크 대기 시간

위 모델에서는 리프 스위치 간의 통신 경로 수를 결정할 수 있으며 각 경로에는 하나의 스파인 스위치만 필요합니다. 동서 네트워크 대기 시간은 예측 가능합니다.

우수한 확장 성

대역폭이 충분하지 않으면 스파인 스위치 수를 늘려 대역폭을 수평으로 확장할 수 있습니다. 서버 수가 증가하면 스파인 스위치 수도 증가하여 데이터 센터 규모를 확장할 수 있습니다. 계획과 확장이 매우 편리합니다.

스위치 요구 사항 감소

남북 트래픽은 리프 노드나 스파인 노드에서 나갈 수 있습니다. 동서 트래픽은 여러 경로에 분산됩니다. 값비싼 고성능 고대역폭 스위치가 필요하지 않습니다.

높은 보안 및 가용성

기존 네트워크는 STP 프로토콜을 사용하는데, 이는 장치에 장애가 발생하면 다시 수렴되어 네트워크 성능에 영향을 미치거나 심지어 오류를 일으킬 수도 있습니다. Spine-Leaf 아키텍처에서는 장치에 장애가 발생하면 다시 수렴할 필요가 없으며 트래픽은 계속해서 다른 일반 경로를 통과합니다. 네트워크 연결은 영향을 받지 않으며 대역폭은 한 경로의 대역폭만큼만 줄어듭니다. 성능에 미치는 영향은 미미합니다.

인피니밴드

RDMA(원격 직접 메모리 액세스) 프로토콜

전통적인 TCP/IP에서는 네트워크 카드의 데이터가 먼저 커널 메모리에 복사된 후 응용 프로그램 저장 공간에 복사되거나, 데이터가 응용 프로그램 공간에서 커널 메모리로 복사된 후 다음을 통해 인터넷으로 전송됩니다. 네트워크 카드. 이 I/O 작업 모드에는 커널 메모리 변환이 필요합니다. 이는 데이터 흐름 전송 경로의 길이를 늘리고, CPU 부하를 늘리며, 전송 대기 시간도 증가시킵니다.

RDMA의 커널 바이패스 메커니즘은 애플리케이션과 네트워크 카드 사이에서 직접 데이터 읽기 및 쓰기를 허용하여 서버 내 데이터 전송 대기 시간을 1us에 가깝게 줄입니다.

동시에 RDMA의 메모리 제로 복사 메커니즘을 사용하면 수신자가 커널 메모리의 참여를 우회하여 발신자의 메모리에서 데이터를 직접 읽을 수 있으므로 CPU 로드가 크게 줄어들고 CPU 효율성이 향상됩니다.

RDMA
인피니밴드 vs rdma

인피니밴드의 배경

InfiniBand(IB로 약칭)는 강력한 통신 기술 프로토콜입니다. 영어로 번역하면 "무한대역폭"입니다. PCI(Peripheral Component Interconnect) 버스를 대체하기 위해 1990년대에 탄생했습니다. PCI 버스는 인텔이 PC 아키텍처에 도입한 것으로 업그레이드 속도가 느려 I/O 성능을 크게 제한하고 전체 시스템의 병목 현상이 발생했습니다.

인피니밴드의 배경

인피니밴드의 개발 역사

1990년대에는 인텔, 마이크로소프트, SUN이 '차세대 I/O(NGIO)' 기술 표준 개발을 주도했고, IBM, 컴팩, HP는 '퓨처 I/O(FIO)' 개발을 주도했다.

1999년 FIO 개발자 포럼과 NGIO 포럼이 합병되어 설립되었습니다. 인피니밴드 무역협회(IBTA).

2000년에는 InfiniBand 아키텍처 사양 버전 1.0이 출시되었습니다. off정식으로 출시되었습니다.

1999년 XNUMX월, Intel과 Galileo Technology를 떠난 여러 직원이 이스라엘에 칩 회사를 설립하고 이름을 Mellanox로 지정했습니다.

Mellanox가 설립된 후 NGIO에 합류했습니다. 나중에 Mellanox는 InfiniBand 캠프에 합류했습니다. 2001년에 그들은 첫 번째 InfiniBand 제품을 출시했습니다. 에서 시작

2003년, InfiniBand는 컴퓨터 클러스터 상호 연결이라는 새로운 응용 분야로 전환했습니다.

2004년에는 또 다른 중요한 InfiniBand 비영리 조직인 OFA(Open Fabrics Alliance)가 탄생했습니다.

2005년에 InfiniBand는 또 다른 새로운 시나리오, 즉 저장 장치 연결을 발견했습니다.

이후 인피니밴드는 급속한 발전 단계에 들어섰다.

인피니밴드의 개발 역사

InfiniBand 네트워크 아키텍처

InfiniBand는 다음과 같은 네 가지 주요 구성 요소로 구성된 채널 기반 구조입니다.

  • 호스트를 InfiniBand 네트워크에 연결하는 HCA(호스트 채널 어댑터).
  • TCA(Target Channel Adapter)는 대상 장치(예: 스토리지)를 InfiniBand 네트워크에 연결합니다.
  • 케이블, 파이버 또는 온보드 링크일 수 있는 InfiniBand 링크는 채널 어댑터를 스위치 또는 라우터에 연결합니다.
  • InfiniBand 네트워크에 대한 네트워크 연결 및 라우팅을 제공하는 InfiniBand 스위치 및 라우터.
  • 채널 어댑터는 InfiniBand 채널을 설정하는 데 사용됩니다. 모든 전송은 보안을 보장하거나 특정 QoS(서비스 품질) 수준에서 작동하기 위해 채널 어댑터로 시작하거나 끝납니다.
InfiniBand 네트워크 아키텍처
서브넷
인피니밴드 레이어
인피니밴드 메시지
무한대 전송
인터페이스 표준
인터페이스 속도

2020년 Nvidia가 인수한 Mellanox. 이후 AI 대형 모델 훈련에 널리 사용되었습니다.

인피니밴드

로체

RoCE의 탄생

2010년 2014월, IBTA는 InfiniBand의 RDMA 기술을 이더넷으로 "포팅"하는 RoCE(RDMA over Converged Ethernet)를 출시했습니다. 2년에는 더욱 성숙한 RoCEv2를 제안했습니다. RoCEvXNUMX를 통해 이더넷은 InfiniBand와의 기술 성능 격차를 크게 줄이고 고유한 비용 및 호환성 이점과 결합하여 반격을 시작했습니다.

로체

RoCE V2

RoCE v1: 동일한 VLAN에 있는 두 호스트 간의 통신을 허용하는 이더넷 링크 계층(물리 계층에서 안정적인 전송을 보장하려면 스위치가 PFC와 같은 흐름 제어 기술을 지원해야 함)을 기반으로 하는 RDMA 프로토콜입니다. RoCE V2: 단일 VLAN에 바인딩되는 RoCE v1의 제한을 극복합니다. IP 및 UDP 헤더를 포함한 패킷 캡슐화를 변경함으로써 이제 RoCE 2를 L2 및 L3 네트워크에서 사용할 수 있습니다.

ROC 작동 원리
roce 메시지 구조
IB와 로즈

코멘트 남김

위쪽으로 스크롤