FiberMall, AIGC용 HPC 네트워킹 솔루션 제공

AIGC(AI-Generated Content)는 최근 급속도로 발전하고 있으며 반복률이 기하급수적으로 폭발하고 있습니다. 그 중 GPT-4와 ERNIE Bot의 출시는 비즈니스 가치와 응용 시나리오에 큰 관심을 끌었습니다. AIGC의 개발로 학습 모델 매개변수의 규모는 수천억에서 수조 수준으로 증가했으며 기본 GPU 지원 규모도 수조 카드 수준에 도달했습니다. 그 결과 네트워크 규모는 계속 증가하고 네트워크 노드 간의 통신은 점점 더 많은 문제에 직면해 있습니다. 이러한 맥락에서 AI 서버 컴퓨팅 파워와 네트워킹 통신 능력을 향상시키고 비용을 고려하는 방법은 현재 AI 분야에서 중요한 연구 방향 중 하나가 되었습니다.

FiberMall은 AIGC 컴퓨팅 성능, GPU 활용 및 네트워크 간의 관계뿐만 아니라 주류 HPC 네트워킹이 직면한 문제를 해결하여 AIGC 비즈니스 컴퓨팅을 지원하기 위해 업계의 고급 "스마트 속도" DDC(Distributed Disaggregated Chassis) 고성능 네트워크 솔루션을 출시했습니다. 힘이 솟아오른다.

FiberMall의 DDC 제품 연결도

FiberMall의 DDC 제품 연결도

AIGC 연산 능력, GPU 활용 및 네트워크 간의 관계

학습 시간과 ChatGPT의 GPU 활용도와의 관계

ChatGPT를 예로 들면, 산술 능력 측면에서 Microsoft Azure AI 슈퍼컴퓨팅 인프라(10,000V 100GPU의 고대역폭 클러스터)에서 교육을 위한 총 산술 전력 소비는 약 3,640PF-일(초당 3,640조 계산)입니다. , 10,000일 동안 실행), 다음은 100V XNUMX을 훈련하는 데 걸리는 시간을 변환하는 공식입니다.

ChatGPT 컴퓨팅 성능 및 교육 일정

ChatGPT 컴퓨팅 성능 및 교육 일정

참고: ChatGPT 컴퓨팅 성능 요구 사항은 온라인에서 확인할 수 있으며 여기에서는 참조용으로만 제공됩니다. "AI 및 컴퓨팅" 기사에서 OpenAI는 활용률을 33%로 가정하고 NVIDIA, Stanford 및 Microsoft의 연구원 그룹은 분산 시스템에서 대규모 언어 모델을 교육하기 위해 활용률을 44%에서 52%로 달성했습니다.

모델의 훈련 시간에 영향을 미치는 주요 요인은 GPU 활용도와 GPU 클러스터 처리 능력임을 알 수 있다. 이러한 주요 지표는 네트워크 효율성과 밀접한 관련이 있습니다. 네트워크 효율성은 AI 클러스터에서 GPU 활용에 영향을 미치는 중요한 요소입니다. AI 클러스터에서 GPU는 대규모 딥 러닝 작업을 효율적으로 처리할 수 있기 때문에 일반적으로 컴퓨팅 노드의 핵심 리소스입니다. 그러나 GPU 활용도는 여러 요인에 의해 영향을 받으며 그 중 네트워크 효율성이 핵심 요인입니다.

네트워크 효율성과 GPU 활용 간의 관계

네트워크는 AI 교육에서 중요한 역할을 하며 AI 클러스터는 일반적으로 데이터를 자주 통신하고 교환해야 하는 여러 컴퓨팅 및 스토리지 노드로 구성됩니다. 네트워크가 비효율적이면 이러한 노드 간의 통신이 느려져 AI 클러스터의 컴퓨팅 성능에 직접적인 영향을 미칩니다.

비효율적인 네트워크는 다음과 같은 문제를 일으킬 수 있으며, 이는 GPU 활용도를 감소시킬 수 있습니다.

데이터 전송 시간 증가: 비효율적인 네트워크에서는 데이터 전송 시간이 늘어납니다. GPU가 계산을 수행하기 전에 데이터 전송이 완료될 때까지 기다려야 하는 경우 GPU 활용도가 감소합니다.

네트워크 대역폭 병목 현상: AI 클러스터에서 GPU는 일반적으로 다른 컴퓨팅 노드와 데이터를 자주 교환해야 합니다. 네트워크 대역폭이 충분하지 않으면 GPU가 계산을 위한 충분한 데이터를 얻지 못하여 GPU 활용도가 낮아집니다.

불균형한 작업 스케줄링: 비효율적인 네트워크에서는 GPU와 다른 컴퓨팅 노드에 작업이 할당될 수 있습니다. 이로 인해 많은 양의 데이터 전송이 필요할 때 GPU가 유휴 상태가 되어 GPU 활용도가 감소할 수 있습니다.

GPU 활용도를 높이려면 네트워크 효율성을 최적화해야 합니다. 이것은 더 빠른 네트워크 기술을 사용하고, 네트워크 토폴로지를 최적화하고, 대역폭 할당을 합리화함으로써 달성할 수 있습니다. 학습 모델에서 분산 학습의 병렬성: 데이터 병렬성, 텐서 병렬성 및 흐름 병렬성은 GPU에서 처리되는 데이터 간의 통신 모델을 결정합니다. 모델 간 커뮤니케이션의 효율성은 다음과 같은 몇 가지 요인의 영향을 받습니다.

커뮤니케이션에 영향을 미치는 요인

커뮤니케이션에 영향을 미치는 요인

그 중 대역폭 및 장치 포워딩 대기 시간은 하드웨어에 의해 제한되며 최종 처리 대기 시간은 기술 선택(TCP 또는 RDMA)에 의해 영향을 받습니다. RDMA 더 낮을 것이며 대기 및 재전송은 네트워크 최적화 및 기술 선택의 영향을 받습니다.

정량적 모델을 기반으로 GPU 사용률 = GPU 내 반복 계산 시간 / (GPU 내 반복 계산 시간 + 전체 네트워크 통신 시간) 다음과 같은 결론을 내립니다.

대역폭 처리량 및 GPU 사용률 그래프

대역폭 처리량 및 GPU 사용률 그래프                        동적 대기 시간 및 GPU 사용률 그래프

네트워크 대역폭 처리량과 동적 대기 시간(혼잡/패킷 손실)이 GPU 활용에 상당한 영향을 미친다는 것을 알 수 있습니다.

총 통신 대기 시간의 구성에 따라:

총 통신 대기 시간의 구성

총 통신 대기 시간의 구성

정적 대기 시간은 영향이 적기 때문에 동적 대기 시간을 줄이는 방법에 중점을 두어 컴퓨팅 성능 향상이라는 목표를 달성하기 위해 GPU 활용을 효과적으로 개선할 수 있습니다.

주류 HPC 네트워킹의 과제

IB 네트워킹은 비싸고 폐쇄적입니다.

인피니 밴드 네트워킹은 초고대역폭과 신용 기반 메커니즘을 사용하여 혼잡과 초저 대기 시간을 보장하는 현재 고성능 네트워크에 가장 효과적인 솔루션이지만 가장 비싼 솔루션이기도 합니다. 가장 비싼 솔루션이기도 합니다. 동일한 대역폭을 사용하는 기존 이더넷 네트워킹보다 몇 배 더 비쌉니다. 동시에, 인피니 밴드 기술은 폐쇄되어 있고 업계에는 성숙한 공급업체가 하나뿐이므로 최종 사용자가 두 번째 공급원을 확보하는 것이 불가능합니다.

따라서 업계의 대부분의 사용자는 기존의 이더넷 네트워킹 솔루션을 선택할 것입니다.

PFC 및 ECN이 속도 저하를 유발할 수 있음

고성능 네트워크를 위한 현재 주류 네트워킹 솔루션은 RDMA 지원 네트워크를 구축하기 위한 RoCE v2를 기반으로 합니다. 두 가지 중요한 연결 기술은 PFC와 ECN이며 둘 다 링크의 혼잡을 피하기 위해 생성됩니다.

다단계 PFC 네트워킹에서 네트워크 정체를 완화하고 패킷 손실을 방지하기 위해 단계적으로 전송을 일시 중지하기 위해 소스 서버에 대한 스위치 수신 혼잡 및 배압을 대상으로 합니다. 그러나 이 솔루션은 RDMA 트래픽이 다단계 네트워킹에서 전달을 중지하도록 하는 PFC 교착 상태의 위험에 직면할 수 있습니다.

PFC 작동 메커니즘의 개략도

PFC 작동 메커니즘의 개략도

ECN은 RoCEv2 CNP 패킷을 직접 생성하여 스위치 출구의 정체에 대한 목적지 측 인식을 기반으로 속도 감소를 소스에 알리는 반면, 소스 서버는 CNP 메시지를 수신하고 해당 QP의 전송 속도를 정확하게 줄여 혼잡을 피하면서 정체를 완화합니다. 무차별 감속.

ECN 개략도

ECN 개략도

이 두 기술은 모두 혼잡을 해결하도록 설계되었지만 네트워크의 가능한 혼잡으로 인해 자주 트리거될 수 있습니다. 결국 소스 끝은 전송 속도를 일시 중지하거나 늦추고 통신 대역폭이 줄어듭니다. GPU 활용률이 크게 영향을 받아 전체 고성능 네트워크의 컴퓨팅 성능이 저하됩니다.

불균형 ECMP로 인해 혼잡이 발생할 수 있음

AI 훈련 계산에는 All-Reduce와 All-to-All의 두 가지 주요 모델이 있으며 둘 다 하나의 GPU에서 여러 GPU로의 빈번한 통신이 필요합니다.

AI 교육 계산 모델

AI 교육 계산 모델

기존 네트워킹에서 ToR 및 Leaf 장치는 라우팅 +ECMP 네트워킹 모드를 채택합니다. ECMP는 스트림을 기반으로 해시 로드 라우팅을 수행합니다. 극단적인 경우 하나의 엘리펀트 스트림으로 인해 하나의 ECMP 링크가 가득 찬 반면 다른 ECMP 링크는 상대적으로 유휴 상태이므로 로드가 고르지 않습니다.

기존 ECMP 배포 다이어그램

기존 ECMP 배포 다이어그램

내부적으로 시뮬레이션된 8개의 ECMP 링크가 있는 테스트 환경에서 테스트 결과는 다음과 같습니다.

ECMP 트래픽 테스트 결과

ECMP 트래픽 테스트 결과

볼 수 있듯이 흐름 기반 ECMP는 특정 링크(ECMP1-5 및 1-6) 및 유휴(ECMP1-0에서 1-3은 유휴)의 보다 분명한 점유를 유발합니다. All-Reduce 및 All-to-All 모델 모두에서 ECMP의 고르지 않은 로드로 인해 경로가 정체되기 쉽습니다. 정체로 인해 재전송이 발생하면 전체 통신 대기 시간이 증가하고 GPU 사용률이 감소합니다.

따라서 연구 커뮤니티는 phost, Homa, NDP, 1RMA 및 Aeolus와 같은 풍부한 솔루션을 제안했습니다. 인캐스트를 다양한 수준으로 처리하고 로드 밸런싱 및 짧은 대기 시간 요청/응답 트래픽도 처리합니다. 그러나 그들은 또한 새로운 도전을 가져옵니다. 종종 이러한 연구 솔루션에는 호스트, NIC 및 네트워크에 대한 대규모 변경과 함께 종단 간 문제 해결이 필요하며 일반 사용자에게는 비용이 많이 듭니다.

박스 스위치를 사용한 AI 클러스터링의 과제

일부 인터넷 회사는 부하 불균형으로 인한 낮은 대역폭 사용 문제를 해결하기 위해 VOQ 기술을 지원하는 DNX 칩이 있는 박스형 스위치를 기대하고 있지만 다음과 같은 몇 가지 문제에 직면해 있습니다.

평균적인 확장성. 프레임 크기는 최대 포트 수를 제한합니다. 더 큰 규모의 클러스터를 수행하려면 다중 프레임을 수평으로 확장해야 하며, 이는 다중 레벨 PFC 및 ECMP 링크도 생성합니다. 따라서 프레임은 소규모 배치에만 적합합니다.

장치의 큰 전력 소비. 프레임의 라인 카드 칩, 패브릭 칩, 팬 등의 수는 많고 단일 장치의 전력 소비는 크며 캐비닛에 대한 높은 전력 요구 사항으로 인해 20,000W 이상, 일부는 30,000W 이상입니다. .

단일 장치 포트의 수가 많고 장애 도메인이 큽니다.

따라서 위의 이유로 박스 장치는 AI 컴퓨팅 클러스터의 소규모 배포에만 적합합니다.

AIGC를 지원하기 위해 태어난 DDC 제품

DDC는 기존 프레임 스위치와 거의 동일한 칩 및 핵심 기술을 사용하는 분산 분리형 프레임 장치 솔루션이지만 DDC 아키텍처는 단순하여 탄력적 확장 및 기능의 빠른 반복을 지원하고 배포가 쉽고 시스템당 낮은 전력 소비를 지원합니다.

아래 그림과 같이 서비스 라인 카드는 프런트엔드인 NCP 역할이 되고 스위치 보드는 백엔드인 NCF 역할이 됩니다. 둘 사이의 원래 커넥터 구성 요소는 이제 광섬유 케이블로 대체되고 원래 프레임 장치의 관리 엔진은 DDC 아키텍처에서 NCC의 중앙 집중식/분산 관리 구성 요소가 됩니다.

DDC 제품 연결 다이어그램

DDC 제품 연결 다이어그램

DDC는 초대형 배포를 지원합니다.

Box 아키텍처에 비해 DDC 아키텍처의 장점은 유연한 확장성을 제공할 수 있고, AI 클러스터의 크기에 따라 네트워크 규모를 유연하게 선택할 수 있다는 점입니다.

단일 POD 네트워크에서 96개의 NCP가 액세스로 사용되며 그 중 NCP의 다운링크에 있는 36개의 200G 인터페이스는 AI 컴퓨팅 클러스터의 NIC 연결을 담당합니다. 업스트림 총 40 200G 인터페이스 40개의 NCF를 연결할 수 있고 NCF는 96개의 200G 인터페이스를 제공하며 이 스케일의 업스트림 및 다운스트림 대역폭은 1.1:1입니다. 전체 POD는 3456개의 200G 네트워크 인터페이스를 지원할 수 있으며 8개의 GPU가 있는 서버 한 대의 계산에 따르면 432개의 AI 컴퓨팅 서버를 지원할 수 있습니다.

단일 POD 네트워크 아키텍처 다이어그램

단일 POD 네트워크 아키텍처 다이어그램

다단계 POD 네트워킹에서는 POD 기반의 주문형 구축을 실현할 수 있습니다. 이 시나리오에서 POD 장비는 두 번째 수준의 NCF를 연결하기 위해 SerDes의 절반을 희생해야 하므로 이때 단일 POD는 48개의 NCP를 액세스로 사용하고 다운링크에서 총 36개의 200G 인터페이스를 사용하며 다음을 수행할 수 있습니다. 단일 POD에서 1728개의 200G 인터페이스를 지원합니다. POD를 수평으로 늘려 규모 확장을 실현함으로써 전체 최대는 10,368개 이상의 200G 네트워크 포트를 지원할 수 있습니다.

NCP 업링크 40개의 200G를 POD의 40개 NCF로, POD의 NCF는 다운스트림에서 48개의 200G 인터페이스를 사용하고, 48개의 200G 인터페이스를 16개의 그룹으로 나누어 두 번째 레벨의 NCF로 업링크합니다. 두 번째 수준의 NCF에는 40개의 평면이 사용되며 각 평면은 POD의 3개의 NCF에 해당하는 40개의 단위로 설계됩니다.

전체 네트워크는 POD 내에서 1:1:1의 오버드라이브 비율과 POD와 1단계 NCF 사이의 수렴 비율 1:XNUMX을 달성합니다.

오버 드라이브

200G 네트워크 포트는 다음과 호환됩니다. 100G NIC 액세스할 수 있으며 특수한 경우 25 in 50 또는 1 in 2 케이블을 사용하는 1/4G NIC와 호환됩니다.

VOQ+Cell 메커니즘을 기반으로 보다 균형 잡힌 로드, 낮은 패킷 손실률

동적 로드 밸런싱을 위해 분할 후 셀 포워딩 메커니즘에 의존하여 지연의 안정성을 실현하고 다른 링크의 대역폭 피크 차이를 줄입니다.

전달 프로세스는 그림에 나와 있습니다.

먼저 발신자는 네트워크에서 패킷을 수신하고 저장을 위해 VOQ로 정렬합니다. 패킷을 보내기 전에 수신자가 패킷을 처리할 수 있는 충분한 캐시 공간이 있는지 확인하기 위해 신용 메시지가 전송됩니다.

그렇다면 패킷은 셀로 분할되고 중간 Fabric 노드로 동적으로 로드 밸런싱됩니다. 이러한 셀은 수신 측에서 재조립 및 저장한 다음 네트워크로 전달됩니다.

전달 프로세스

셀은 일반적으로 크기가 64-256바이트인 패킷 기반 슬라이싱 기술입니다.

슬라이싱된 셀은 도달 가능성 테이블의 셀 대상 쿼리에 따라 전달되고 폴링 메커니즘을 사용하여 전송됩니다. 이것의 장점은 슬라이싱된 셀의 부하가 각 업링크에 대해 완전히 활용되고 모든 업링크에서 전송되는 데이터의 양이 흐름에 의해 해싱된 후 특정 경로를 선택하는 ECMP 모드와 비교하여 거의 동일하다는 것입니다.

셀 기반

수신자가 일시적으로 메시지를 처리할 수 없는 경우 메시지는 발신자 측의 VOQ에 임시로 저장되고 수신자 측으로 직접 전달되지 않아 패킷 손실이 발생합니다. 각 DNX 칩은 온칩 OCB 캐시와 off-칩 8GB HBM 캐시는 150G 포트에 대해 약 200ms의 데이터를 캐싱하는 것과 같습니다. 신용 메시지는 상대방이 명확하게 수락할 수 있는 경우에만 전송됩니다. 이러한 메커니즘을 통해 캐시를 최대한 활용하면 패킷 손실을 크게 줄이거나 패킷 손실이 발생하지 않을 수도 있습니다. 데이터 재전송이 줄어들면 전체 통신 대기 시간이 더 안정적이고 낮아지므로 대역폭 활용도가 향상되어 서비스 처리 효율이 향상될 수 있습니다.

신용 기반 패브릭

PFC 단일 홉 배포에서 교착 상태 없음

DDC의 논리에 따르면 모든 NCP와 NCF는 하나의 장치로 볼 수 있습니다. 따라서 이 네트워크에 RDMA 도메인을 배포한 후 서버를 대상으로 하는 인터페이스에는 PFC 수준이 1개만 있으며, 이는 기존 네트워크에서와 같이 다중 수준 PFC 억제 및 교착 상태를 생성하지 않습니다. 또한 DDC의 데이터 전달 메커니즘에 따라 ECN을 인터페이스에 배치할 수 있으며 내부 Credit 및 캐시 메커니즘이 버스트 트래픽을 지원할 수 없으면 CNP 메시지를 서버 측으로 전송하여 속도 감소를 요청할 수 있습니다(일반적으로 아래에서). AI, All-to-All, All-Reduce+Cell 슬라이싱의 통신 모델은 가능한 한 트래픽 균형을 맞출 수 있으며, 갖기가 어렵습니다(1개의 포트가 채워져 있으므로 대부분의 경우 ECN이 구성되지 않음).

PFC 단일 홉 배포에서 교착 상태 없음

신뢰성 향상을 위한 분산 OS를 갖춘 NCC 프리 설계

관리 및 제어 평면에서 관리 네트워크 장애 및 NCC의 단일 장애 지점의 영향을 해결하기 위해 NCC의 중앙 집중식 제어 평면을 제거하고 분산 OS를 구축하고 표준 인터페이스(Netconf, GRPC, 등) SDN 운영 및 유지 관리 컨트롤러에 의해 제어되며 각 NCP 및 NCF는 독립적인 제어 및 관리 평면으로 독립적으로 관리됩니다.

테스트 비교 결과

이론적인 관점에서 볼 때 DDC는 탄력적 확장 지원 및 기능의 빠른 반복, 더 쉬운 배포, 단일 시스템의 낮은 전력 소비와 같은 많은 이점을 가지고 있습니다. 그러나 실제적인 관점에서 볼 때 전통적인 네트워킹은 시장에서 더 많은 브랜드와 제품 라인을 사용할 수 있다는 이점도 가지고 있으며 더 큰 규모의 클러스터 및 성숙한 기술로 인한 기타 이점을 지원할 수 있습니다. 따라서 고객이 프로젝트 요구 사항에 직면했을 때 다음 비교 및 ​​테스트 결과를 참조하여 대규모 배포를 위해 고성능 DDC 또는 기존 네트워크를 선택할지 여부를 결정할 수 있습니다.

기존 네트워킹과 DDC 테스트 간의 비교 결과

기존 네트워킹과 DDC 테스트 간의 비교 결과

FiberMall 장비 소개

FiberMall은 고객 요구 사항에 대한 깊은 이해를 바탕으로 200G NCP 스위치와 200G NCF 스위치의 두 가지 배송 가능한 제품을 최초로 출시했습니다.

NCP: FM-S6930-36DC40F1 스위치

이 스위치는 2U 높이이며 36개의 200G 패널 포트, 40개의 200G 패브릭 인라인 포트, 4개의 팬 및 2개의 전원 공급 장치를 제공합니다.

NCP FM-S6930-36DC40F1 스위치

NCF: FM-X56-96F1 스위치

이 스위치는 4U 높이로 96개의 200G 인라인 포트, 8개의 팬 및 4개의 전원 공급 장치를 제공합니다.

NCF FM-X56-96F1 스위치

FiberMall은 앞으로도 400G 포트 폼 팩터 제품을 계속 개발하고 출시할 것입니다.

결론

업계 선두주자인 FiberMall은 스마트 컴퓨팅 센터에 대한 고객의 증가하는 요구를 충족시키기 위해 고품질, 고신뢰성 네트워크 장비 및 솔루션을 제공하기 위해 노력해 왔습니다. FiberMall은 "Smart Speed" DDC 솔루션을 출시하면서 기존 네트워킹에서 최종 네트워크 최적화 솔루션을 적극적으로 탐색하고 개발하고 있습니다. 서버 지능형 NIC 및 네트워크 장비 프로토콜 최적화를 최대한 활용함으로써 전체 네트워크 대역폭 활용도를 개선하여 고객이 AIGC 스마트 컴퓨팅 시대를 더 빠르게 안내할 수 있습니다.

코멘트 남김

위쪽으로 스크롤