인터넷 데이터 센터 탐색: DCN의 진화

데이터센터 네트워크(DCN) 수요 진화

네트워크는 IT 인프라의 중요한 구성 요소로, 모든 IaaS 계층 리소스를 연결하여 서비스를 제공하는 기반 역할을 합니다. 데이터 시대의 클라우드 컴퓨팅, 빅데이터, 인공지능의 핵심은 데이터 그 자체이며, 네트워크는 데이터 흐름을 전달하는 고속 고속도로 역할을 합니다.

데이터센터 네트워크는 지난 10년 동안 금융산업의 엄격하고 표준화된 데이터센터에서 기술의 물결을 주도하는 현재의 인터넷 기업으로 진화하면서 눈에 띄는 변화를 겪었습니다.

데이터센터 네트워크(DCN) 수요 진화

오늘날 200개 이상의 프로젝트를 포함하는 클라우드 네이티브 기술의 급속한 발전으로 애플리케이션의 개발, 배포, 운영 및 유지 관리가 변화되었습니다. 민첩성, 일관성, 강력한 복제 및 확장 기능을 특징으로 하는 비즈니스 워크로드의 가장 작은 단위 역할을 하는 컨테이너와 함께 클라우드 네이티브 기술을 사용하여 다양한 애플리케이션 시스템이 구축되었습니다. 수많은 컨테이너로 구성된 클러스터는 VM의 수를 훨씬 초과합니다. 또한 더욱 세분화된 리소스 할당 메커니즘과 안정성 배포 전략으로 인해 노드 간 통신이 더 자주 발생하고 비즈니스 컨테이너와 다양한 분산 시스템 구성 요소 간의 상호 작용이 가능해졌습니다. 이는 외부 네트워크에 의존하여 안정적인 종단 간 전달을 제공하므로 트래픽 제어 및 시각화에 대한 수요가 높아집니다.

또한 빅데이터와 인공지능 기술이 널리 보급되면서 추천 엔진, 이미지 검색 및 인식, 음성 상호 작용, 기계 번역 등 이를 기반으로 한 시스템이 광범위하게 적용되고 있습니다. 빅데이터와 AI는 분석과 마이닝을 위해 막대한 양의 데이터가 저장되면서 비즈니스 관리와 시장 경쟁에 필수적인 도구가 되었습니다. 데이터 처리 및 모델 훈련(머신 러닝/딥 러닝)부터 온라인 서비스에 이르기까지 각 단계는 강력한 컴퓨팅과 방대한 데이터에 의존하므로 컴퓨팅 및 스토리지 리소스 소비가 증가합니다. 이로 인해 데이터센터 구축이 대규모, 초대형으로 진화하고 이에 따른 네트워크 규모도 커지면서 네트워크 자동화와 지능형 운영이 필수가 되었습니다.

마지막으로 지난 5년간 장단편 동영상, 라이브 스트리밍, VR/AR 등 동영상 스트리밍 미디어의 폭발적인 성장을 언급하는 것이 중요합니다. 이는 뉴스, 교육, 쇼핑, 사교 활동, 여행, 게임 엔터테인먼트 등 다양한 분야에 침투하여 광범위한 사용자 기반과 높은 사용 기간을 갖고 있습니다. XNUMXG 단말기의 급속한 확산과 함께 고품질 비디오와 짧은 지연 시간의 시청 경험에 대한 사용자의 기대가 계속 높아져 네트워크 대역폭 소비가 더욱 늘어나고 있습니다.

비즈니스 요구 사항의 변화하는 추세와 네트워크 기술의 급속한 발전에 대응하여 데이터 센터 네트워크 장비의 반복 속도도 가속화되었습니다. 현재, 데이터 센터 스위치 2년마다 새로운 세대의 제품으로 업데이트되며, 각각의 새로운 세대는 off네트워크에서 보다 타겟화된 역할 포지셔닝을 통해 거의 두 배에 달하는 성능, 더 높은 처리량, 더 큰 테이블 항목 및 더 많은 기능을 제공합니다.

새로운 세대
800G CPO 스위치
Tomahawk 시리즈 칩을 기반으로 한 H3C의 제품 진화

서버 측 네트워크 카드 및 광 모듈의 전반적인 산업 환경에 힘입어 데이터 센터 액세스 링크의 대역폭은 10G -> 25G -> 50G -> 100G -> 200G -> 400G로 발전했으며 상호 연결 링크 대역폭도 발전했습니다. 40G -> 100G -> 200G -> 400G -> 800G입니다. 주요 시나리오는 25G 액세스 + 100G 상호 연결 조합에서 현재 100G 액세스 + 400G 상호 연결 조합으로 전환되었습니다. GPU 시나리오에서는 액세스가 100G, 200G에서 400G로 발전합니다. 800G.

Trident 시리즈 칩을 기반으로 한 H3C의 제품 진화
Trident 시리즈 칩을 기반으로 한 H3C의 제품 진화

앞서 언급한 상황을 고려하고 네트워크 아키텍처를 살펴보면 DCN 네트워크 아키텍처의 선택은 비즈니스 요구 사항, 현재 기술 조건, 장비 비용, 관리 비용, 인적 자원 투자 등 많은 요소의 영향을 받습니다. 모든 고객 시나리오와 요구 사항을 충족할 수 있는 단일 아키텍처는 없습니다. 선택을 하기 전에 포괄적인 고려와 균형이 이루어져야 합니다.

2계층 Clos 아키텍처: 중소 규모 데이터센터에 적합

2계층 Clos 아키텍처는 가장 초기이자 가장 널리 적용되는 네트워크 구조 중 하나이며 오늘날까지도 많은 업계 고객이 선호하는 선택으로 남아 있습니다. 네트워크 장비는 두 가지 역할만 수행합니다. 짧은 데이터 전달 경로를 보장하고 단일 홉 내에서 리프 간 액세스가 가능하며 off경로와 대기 시간에 있어 강력한 일관성을 유지합니다. 통합 액세스 접근 방식은 BGP 프로토콜 배포, 정책 제어, 일상적인 유지 관리 및 문제 해결과 같은 배포 및 수평적 확장을 크게 촉진합니다. 특히 운영 인력이 적은 중소기업에 적합합니다.

2계층 Clos 아키텍처는 일반적으로 데이터 센터 섀시 기반 코어 스위치 제품을 사용하는 Spine 스위치의 성능과 안정성에 대한 요구가 높습니다. 가변 셀 전달 및 VoQ 스케줄링 메커니즘을 통해 Spine 장치 내에서 엄격한 비차단 전환을 보장하며 분산형 대규모 캐시 구성은 자연스럽게 트래픽 버스트 처리에 탁월합니다. 섀시 기반 코어 스위치에는 독립적인 제어 평면, 포워딩 평면 및 지원 시스템이 있으며 중복 설계를 사용하므로 전체 시스템이 박스형 스위치보다 훨씬 더 안정적입니다.

H3C AD-DC 애플리케이션 중심 데이터 센터 솔루션
H3C AD-DC 애플리케이션 중심 데이터 센터 솔루션

2계층 Clos 아키텍처는 상용 SDN 컨트롤러 솔루션과의 호환성 측면에서 더욱 성숙해졌습니다. SDN 컨트롤러와 결합하면 EVPN 기반 네트워크 오버레이 솔루션을 신속하게 구축하여 동서 및 남북 서비스 체인 배포의 복잡성을 줄이고 VM, 베어메탈과 같은 완전한 형태의 컴퓨팅 리소스 연결에 대한 네트워크 요구를 충족할 수 있습니다. , 및 컨테이너(클라우드 시나리오).

또한 이 아키텍처는 엣지 컴퓨팅 네트워크를 구축하기 위해 다양한 위치에 컨버전스 룸과 엣지 룸을 배포하여 백본 네트워크 압력을 완화하고 액세스 대기 시간을 줄이는 대기업에도 적합합니다.

2계층 Clos 듀얼 스파인의 예
2계층 Clos 듀얼 스파인의 예
2계층 Clos 쿼드 스파인의 예
2계층 Clos 쿼드 스파인의 예

스파인은 2개 또는 4개의 섀시 기반 코어 스위치를 사용하며 각 리프 스위치에는 4개의 업링크가 있습니다. 3:1 수렴 비율(10G 업링크의 440G 리프, 4810G 다운링크, 25G 업링크의 4100G 리프, 4825G 다운링크)을 보장하면 지원되는 서버 규모(이중 업링크)가 각각 5000과 10000 이상에 도달할 수 있습니다.

토폴로지에서 볼 수 있듯이 4계층 Clos 아키텍처의 네트워크 규모 또는 수평 확장 기능은 Spine 장치에서 제공하는 총 포트 수(장치 수 * 장치당 포트)에 의해 제한됩니다. 리프 스위치의 업링크 포트 수는 고정되어 있으므로(보통 8~XNUMX개) 스파인 레이어 스위치 수도 제한되어 지속적으로 늘릴 수 없습니다.

3계층 Clos 아키텍처: 대규모 및 초대형 데이터 센터에 적합

20,000계층 Clos 아키텍처가 지원하는 서버 규모는 일반적으로 XNUMX대를 초과하지 않습니다. XNUMX티어 Clos 아키텍처의 도입으로 XNUMX티어 아키텍처에서 나타나는 네트워크 규모의 병목 현상이 해결되었습니다. XNUMX계층 Clos 아키텍처는 기존 두 계층 사이에 집계 스위치 계층(Pod Spine)을 추가합니다. 연결된 모든 리프 스위치와 함께 Pod Spine 스위치 그룹이 Pod를 형성합니다. 여러 개의 Pod가 Spine 레이어 스위치를 통해 상호 연결되어 전체 네트워크를 구성합니다. Pod 수를 늘리면 네트워크의 수평 확장이 가능해 확장 기능이 크게 향상됩니다. 또한 Pod 단위로 서비스를 배포하는 것은 off다양한 비즈니스 요구 사항에 적응하고, 차별화된 서비스를 제공하고, 격리를 보장하는 데 더 큰 유연성을 제공합니다.

64계층 Clos의 예 A: 100G 포트 XNUMX개를 갖춘 SPIN
64계층 Clos의 예 A: 100G 포트 XNUMX개를 갖춘 SPIN
128계층 Clos의 예 B: 100G 포트 XNUMX개를 갖춘 SPIN
128계층 Clos의 예 B: 100G 포트 XNUMX개를 갖춘 SPIN

100계층 Clos 아키텍처의 각 포드 내에서 포드 스파인은 XNUMX개 또는 XNUMX개의 고밀도 XNUMXG 박스형 스위치를 사용합니다. Pod Spine 포트의 절반은 Spine에 위쪽으로 연결하는 데 사용되고 나머지 절반은 Leaf 스위치에 아래쪽으로 연결하는 데 사용됩니다. 각 리프 스위치에는 XNUMX개 또는 XNUMX개의 업링크가 있습니다. 일반적인 시나리오는 다음과 같습니다.

시나리오 A: Pod Spine은 64개의 100포트 9820G 박스형 스위치(S64-3H)를 사용합니다. 각 리프 스위치에는 1개의 업링크가 있습니다. 포드(25G 업링크, 4100G 다운링크가 있는 4825G 리프) 내에서 768:XNUMX 컨버전스를 사용하면 단일 포드가 듀얼 업링크를 통해 XNUMX개 장치 규모의 서버를 지원할 수 있습니다.

시나리오 B: Pod Spine은 128개의 100포트 9820G 박스형 스위치(S8-1.5C)를 사용합니다. 각 리프 스위치에는 1개의 업링크가 있습니다. Pod(25G 업링크가 있는 8100G 리프, 4825G 다운링크) 내에서 1536:1 수렴을 ​​통해 단일 Pod는 듀얼 업링크를 통해 1개 장치의 서버 규모를 지원할 수 있습니다. 25:8100 컨버전스(3225G 업링크가 있는 1024G 리프, XNUMXG 다운링크)를 사용하면 단일 포드가 듀얼 업링크를 통해 XNUMX개 단위의 서버 규모를 지원할 수 있습니다.

고밀도 집선 스위치 Pod Spine의 도입으로 Spine 레이어의 랙형 코어 스위치가 한계를 뛰어넘어 수십 개의 장치 배포가 가능해졌습니다. Spine 레이어의 랙형 코어 스위치가 제공하는 총 포트 수를 활용해 수십 개의 Pod를 연결할 수 있어 전체 네트워크에서 100,000대 이상의 서버 규모를 지원할 수 있습니다.

또한 Pod Spine 스위치 내의 업링크 및 다운링크 포트 비율을 조정하여 각 Pod의 수렴 비율을 유연하게 정의할 수 있습니다. 이는 다양한 비즈니스 요구 사항을 충족할 뿐만 아니라 비용을 절감하고 불필요한 낭비를 방지하는 데에도 도움이 됩니다.

다중 계층 Clos 아키텍처: 대규모 및 초대형 데이터 센터에 적합

박스형 장치를 기반으로 한 다중 평면 네트워킹 아키텍처는 대규모 및 초규모 데이터 센터 네트워크 구축을 위해 선도적인 인터넷 기업이 채택한 최신 아키텍처입니다. 이 아키텍처는 Facebook의 F4에서 유래되었습니다. 이 네트워크를 구축하는 데 사용된 6세대 스위치인 12팩과 백팩은 멀티칩(4칩) 설계를 기반으로 하여 관리 및 배포가 불편하고 비용이 많이 들었습니다. F16에서 F16으로 진화하면서 칩 성능이 향상되면서 FXNUMX을 구축하는 데 사용된 미니팩 스위치는 단일 칩 설계를 채택하여 전력 소비, 비용 및 기술 장벽을 크게 줄였습니다. 솔루션은 더욱 성숙해졌고, 이후 중국의 인터넷 기업들이 이 아키텍처를 도입했습니다.

네트워킹

"차세대 Facebook 데이터 센터 네트워크인 데이터 센터 패브릭 소개" 및 "Facebook의 데이터 센터 네트워크 재창조" 백서에서는 이 아키텍처에 대한 자세한 설명을 제공합니다. 8티어 Clos 아키텍처와 비교하여 박스형 장치 기반의 다중 평면 네트워킹 아키텍처는 Spine 계층의 랙형 스위치를 박스형 스위치로 대체하므로 네트워크의 모든 계층이 박스형 스위치로 구성됩니다. 장치 연결 측면에서 각 Pod Spine이 모든 Spine 계층 스위치와 완전히 결합되어야 하는 XNUMX계층 Clos 아키텍처와 달리 새로운 아키텍처는 Spine 계층 스위치를 여러 그룹으로 나눕니다(그룹 수는 Pod 수에 해당함). 각 포드의 스파인 스위치). Spine 스위치의 각 그룹은 평면을 형성하며(그림에 표시된 것처럼 Spine 레이어는 XNUMX개의 평면으로 나누어져 있으며 서로 다른 색상으로 구분됨) 각 Pod Spine 스위치는 해당 평면의 Spine 스위치와 완전히 메시되기만 하면 됩니다. 이를 통해 전체 Spine 계층이 더 많은 Pod를 연결하여 수십만 대의 서버를 지원하는 대규모 데이터 센터를 구축할 수 있습니다. 또한 박스형 스위치의 성능이 향상됨에 따라 이 아키텍처는 지속적으로 용량을 확장할 수 있습니다.

완벽한 기능을 갖춘 12516포트 48G 서비스 보드를 갖춘 코어 섀시 스위치 S100X-AF와 각각 9820G의 8개 포트가 있는 128개의 박스 스위치 S100-XNUMXC는 모두 동일한 수의 서비스를 제공할 수 있습니다. 100G 포트(총 768개). 그러나 박스 스위치 솔루션을 선택하면 off상당한 비용, 전력 소비 및 열 방출 이점이 있습니다. 또한 기존 코어 섀시 스위치에 필요한 캐비닛 공간 및 전력 분배에 대한 특별한 요구 사항도 제거됩니다.

Spine과 Pod Spine은 모두 일관된 기능과 전달 지연을 갖춘 동일한 장비를 사용하므로 전체 네트워크에서 새로운 기능의 개발과 애플리케이션의 원활한 배포를 촉진합니다. 또한 네트워크는 100G 네트워킹에서 200G 네트워킹으로 원활하게 전환될 수 있으며, 400G, 그리고 미래의 고속 네트워킹이 동기화됩니다. 또한 단일 칩 설계로 인해 박스 스위치로 구성된 전체 Spine 레이어는 섀시 장치를 사용할 때보다 전달 지연 시간이 훨씬 낮아 포드 전체의 액세스 지연 시간이 더욱 줄어듭니다.

그럼에도 불구하고 이 아키텍처는 새로운 과제를 야기합니다. 스파인 레이어 장치의 수는 섀시 스위치를 사용할 때보다 훨씬 많고, 박스 스위치의 개별 신뢰성은 코어 섀시 스위치의 신뢰성보다 낮아 네트워크 관리 및 일상적인 운영에 상당한 문제를 야기합니다. 지원 관리 플랫폼, 모니터링 시스템 등은 이러한 변화에 적응할 수 있어야 합니다. 이를 위해서는 장비 및 네트워크 장애가 비즈니스 운영에 미치는 영향을 완화하고 줄이기 위해 정교한 인력 분할, 광범위한 운영 경험, 강력한 기술 능력, 플랫폼 개발 역량, 전반적인 네트워크 제어를 포함하여 네트워크 운영 팀에 대한 요구 사항이 높아져야 합니다.

gRPC+INT

위에서는 가장 일반적인 세 ​​가지 DCN 네트워크 아키텍처를 소개했습니다. 이러한 네트워크를 효과적으로 관리하려면 네트워크 시각화 기술을 활용해야 합니다. 네트워크 시각화 기술은 엔드 투 엔드 트래픽 모니터링, 위험 경고 및 문제 해결을 지원할 뿐만 아니라 데이터 축적 및 분석을 통해 데이터 센터의 네트워크 아키텍처 설계(예: 모델, 수렴 비율, 및 POD 스케일)이 있어 중요한 기술 도구가 됩니다.

네트워크 시각화 기술은 점점 더 적극적이고 효율적이며 지능화되고 있습니다. 예를 들어, gRPC를 활용하면 기기에서 다양한 정보를 실시간으로 고정밀도로 수집할 수 있습니다. INT 또는 Telemetry Stream을 사용하여 네트워크에서 비즈니스 데이터 전송의 경로와 대기 시간을 얻을 수 있습니다. TCB를 사용하면 장치 MMU를 모니터링하여 대기열 패킷 손실 시간, 이유 및 폐기된 패킷을 캡처할 수 있습니다. MOD는 내부 장치 포워딩 과정에서 발생하는 패킷 손실을 감지하고, 패킷 손실의 원인과 폐기되는 패킷의 특성을 포착할 수 있습니다. 패킷 추적을 사용하면 전달 논리를 심층적으로 분석하고 칩 내에서 패킷 전달을 시뮬레이션하여 문제의 근본 원인을 식별할 수 있습니다.

앞으로는 지능형 NIC가 DCN 네트워크에서 중요한 역할을 하게 될 것입니다. 프로그래밍 가능 기능을 갖춘 지능형 NIC는 CPU 리소스를 확보하고 고성능 포워딩을 달성할 뿐만 아니라 off터널 캡슐화/캡슐화 해제, 가상 스위칭, 암호화/암호 해독, RDMA 등과 같은 더 많은 기능. 비즈니스 시나리오와 수요가 증가함에 따라 지능형 NIC가 더 많은 데이터 플레인 기능을 처리하여 서버 또는 스위치 기반 구현의 한계를 깨뜨릴 것입니다. 이러한 변화는 성능, 기능 및 유연성의 완벽한 균형을 달성하는 것을 목표로 합니다. 지능형 NIC는 DCN 네트워크의 가장 먼 끝에 있는 리프 스위치를 대체합니다. 결과적으로 지능형 NIC의 도입, 엔드투엔드 성능 최적화 및 서비스 보장, 엔드투엔드 감지 및 모니터링, 신기술 적용을 촉진하면서 네트워크 아키텍처, 프로토콜 배포, 시각화 기술 등이 변화할 것입니다. SRv6처럼. 미래의 DCN 네트워크는 점점 더 다양해지는 상위 계층 비즈니스에 보다 안정적이고 효율적이며 유연한 네트워크 서비스를 제공하도록 발전할 것입니다.

코멘트 남김

위쪽으로 스크롤