수조 개의 매개변수를 가진 AI 모델 시대에 고성능 AI 클러스터 구축은 클라우드 제공업체와 AI 기업의 핵심 경쟁력으로 자리 잡았습니다. 본 논문에서는 AI 워크로드의 고유한 네트워크 요구 사항을 심층 분석하고, AI 클러스터와 기존 데이터 센터의 아키텍처 차이점을 비교하며, 아리스타(Arista)에서 제안한 두 가지 주요 네트워크 설계 패러다임을 소개합니다. 엔드포인트 예약(NSF) 및 스위치 스케줄링(DSF) — 토폴로지 선택에 대한 실질적인 지침을 제공하면서 800G 상호 연결 다양한 규모에 맞는 기술.
차례
전환AI 클러스터의 네트워크 요구 사항 및 트래픽 특성
핵심 요구 사항: 극도의 확장성, 효율성 및 유연성

AI 모델이 수조 개의 매개변수로 빠르게 확장됨에 따라, 학습 및 추론 클러스터는 기본 네트워크에 전례 없는 부담을 주고 있습니다.
- 초대형 규모 확장수십만에서 수백만 개의 XPU(GPU/NPU)를 활용한 협업 컴퓨팅을 지원해야 하며, 단일 랙 환경부터 여러 데이터 센터를 아우르는 모든 시나리오를 포괄해야 합니다.
- 고효율 및 초저지연XPU 간의 빈번한 집단 통신 작업(예: AllReduce, AllGather)에는 마이크로초 수준의 지연 시간과 90% 이상의 대역폭 활용률이 필요합니다.
- 이질적 적응서로 다른 벤더의 XPU, 다양한 랙 전력 예산, 혼합 워크로드(학습 + 추론)를 원활하게 지원해야 하며, "나무통 효과"(가장 느린 노드에 의해 전체 성능이 제한되는 현상)로 인한 성능 저하를 방지해야 합니다.
AI 트래픽의 네 가지 고유한 특징
기존 데이터센터 트래픽과 비교했을 때, AI 트래픽은 네트워크 설계 결정에 직접적인 영향을 미치는 뚜렷하게 다른 패턴을 보입니다.
- 높은 동기화훈련 작업은 고정된 주기로 기울기와 매개변수를 교환하므로 "장시간 집중되고 고도로 동기화된" 트래픽이 발생하여 Incast 혼잡을 쉽게 유발합니다.
- RDMA에 대한 높은 의존성무손실 네트워크가 필요합니다**: RoCEv2(RDMA over Converged Ethernet)는 사실상의 표준이며, 패킷 손실이 발생하면 재전송이 발생하여 지연 시간이 급격히 증가합니다.
- 안정적인 흐름 특성개별 흐름은 (작업 시작부터 완료까지) 수명이 길고, 처리 속도가 매우 높으며, 엔트로피가 낮아 (경로가 상대적으로 고정되어 있어) 기존 ECMP 로드 밸런싱이 비효율적입니다.
- 신뢰성이 네트워크로 옮겨갔습니다AI 애플리케이션은 안정성 책임을 전적으로 네트워크에 맡기기 때문에 패킷 손실 하나만으로도 전체 학습 과정이 손상될 수 있습니다.
AI 클러스터와 기존 데이터센터 클러스터의 아키텍처 차이점
기존 클러스터는 "CPU 서버 중심"으로, 네트워크는 주로 데이터 수집, 저장 및 컴퓨팅 간의 수평적 트래픽을 처리합니다. 이와 대조적으로, 최신 AI 클러스터는 "XPU 중심"이며 명확하게 분리되어 있습니다.
- 프런트엔드 네트워크 – CPU 간 트래픽 및 CPU-스토리지 간 트래픽(기존 데이터센터와 유사).
- 백엔드 네트워크(레일) - 고대역폭, 저지연 XPU 간 상호 연결은 성능 병목 현상이자 주요 설계 초점이 됩니다.
이중 네트워크 아키텍처는 전체적인 복잡성을 상당히 증가시킵니다.
AI 클러스터를 위한 두 가지 핵심 네트워크 설계 패러다임
Arista는 현재 AI 클러스터 백엔드 네트워크를 스케줄링 책임이 어디에 있는지에 따라 두 가지 주요 패러다임으로 분류합니다.
엔드포인트 스케줄링 아키텍처(NSF – 네트워크 스케줄링 패브릭)
핵심 개념
모든 스케줄링 관련 기능은 엔드포인트(NIC/DPU/IPU)에 있습니다. 네트워크 패브릭은 기본적인 패킷 포워딩만 수행하며, 이는 기존 이더넷의 최적화된 확장이라고 할 수 있습니다.
주요 기술적 특성
- 토폴로지: 기존의 평면형 스파인-리프 또는 슈퍼 스파인 클로즈, 스위치는 높은 라딕스와 800G 포트만 필요합니다.
- 엔드포인트 요구 사항: NIC는 동적 로드 밸런싱(DLB), 적응형 라우팅, 패킷 스프레이 및 종단 간 혼잡 제어(ECN/WRED)를 지원해야 합니다.
- 장점: 간단한 아키텍처, 유연한 케이블 구성, 기존 이더넷 생태계와의 완벽한 호환성, 소규모에서 중규모 클러스터(XPU 10만 개 이하)에 적합합니다.
- 제한 사항: NIC 계층에서 특정 벤더에 대한 의존성이 강하며, 대규모 환경에서 스케줄링 복잡성이 급증하여 부하 불균형 및 핫스팟 발생 가능성이 높습니다.
스위치 스케줄링 아키텍처(DSF – Direct Switch Fabric)
핵심 개념
스케줄링 책임은 네트워크 스위치에 완전히 위임됩니다. 엔드포인트는 일반적인 NIC를 사용하고, 패브릭은 셀 기반 스위칭과 크레딧 기반 흐름 제어를 통해 손실 없는 고성능 데이터 전송을 구현합니다.
주요 기술적 특성
- 토폴로지: 리프 스위치는 셀 분할, VOQ(가상 출력 큐잉), 스케줄링 및 크레딧 관리를 처리하고, 스파인/슈퍼 스파인 스위치는 간단한 저전력 포워더 역할을 합니다.
- 무손실 메커니즘: 크레딧 요청/승인 프로토콜 + PFC + ECN은 종단 간 버퍼 오버플로가 발생하지 않도록 보장합니다.
- 확장성: 단일 시스템은 4.6K × 800G 또는 9.2K × 400G XPU를 지원하며, 2단계 확장을 통해 32K 이상의 GPU까지 확장할 수 있습니다.
- 장점: NIC 제조사에 구애받지 않음, 초대규모 환경에서도 매우 안정적인 성능, 정밀한 혼잡 제어.
- 제한 사항: 스위치 하드웨어의 복잡성과 비용이 증가하고, 케이블링이 셀 스위칭 요구 사항을 충족해야 합니다.
토폴로지 및 800G 인터커넥트 기술 선정
다중 평면 토폴로지 — 수백만 개 규모의 XPU를 위한 기반
수십만 또는 수백만 개의 XPU로 선형 확장을 달성하려면 Arista는 다음을 강력히 권장합니다. 다중 평면 건축학:
- 각 평면은 독립적인 스파인-리프 패브릭(일반적으로 4K~10K XPU)입니다.
- 여러 평면이 병렬로 작동하며 집계 계층을 통해 서로 연결됩니다.
- 10개의 평면은 장애 격리 및 선형 대역폭 확장을 유지하면서 100만 XPU를 쉽게 초과할 수 있습니다.
시나리오별 800G 인터커넥트 기술 선택

| 시나리오 | 추천 기술 | 거리 | 전력 소비 | 비용 | 노트 |
| 랙 내부 (<2m) | DAC / ACC | ≤2m | 매우 낮음 | 최저 | 직접 연결 구리/활성 구리 케이블 |
| 로우 내/단거리 도달 | LPO / LRO | ≤50m | 매우 낮은 | 높음 | 선형 구동 플러그형 광학 소자 - DSP 대비 상당한 전력 절감 효과 |
| 중거리(≤500m) | DSP 코히런트 | ≤500m | 보통 | 중급 | 기존 DSP 광학 장치, 성숙한 생태계 |
| 장거리(2~100km) | DSP + DWDM | ≤100km+ | 더 높은 | 더 높은 | 여러 건물 또는 캠퍼스 규모의 클러스터에 필요합니다. |
결론 및 향후 동향
건축 설계 선정 시 핵심 사항
- XPUS 10개 이하 → 선호 엔드포인트 예약(NSF) 비용 및 배포 유연성을 위해서입니다.
- ≥32K XPU → 반드시 채택해야 함 스위치 스케줄링(DSF) 안정적인 성능을 보장하고 엔드포인트 병목 현상을 제거하기 위해서입니다.
- 수백만 규모 → 멀티플레인 + DSF 현재 생산 현장에서 사용 가능한 것으로 검증된 유일한 솔루션입니다.
미래 동향
- 네트워크 계층에서 집단 통신 기본 요소(AllReduce, AllGather 등)에 대한 심층적인 최적화.
- 실제 AI 네트워크를 기반으로 MPI/NCCL/RCCL에 대한 표준화된 벤치마킹.
- UEC(Ultra Ethernet Consortium) 및 UALink와 같은 새로운 표준을 통합하여 업계가 "맞춤형 사일로"에서 개방형 표준화된 초저지연 상호 연결로 나아가도록 유도합니다.
차세대 AI 슈퍼컴퓨터를 구축하는 것은 더 이상 단순히 GPU를 더 많이 구매하는 것만으로는 충분하지 않습니다. 이제 네트워크는 성능, 확장성 및 총 소유 비용을 결정짓는 핵심 요소가 되었습니다.
관련 상품:
-
NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈
$550.00
-
NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈
$700.00
-
NVIDIA MMA1Z00-NS400 호환 400G QSFP112 VR4 PAM4 850nm 50m MTP/MPO-12 OM4 FEC 광 트랜시버 모듈
$550.00
-
NVIDIA MMS1Z00-NS400 호환 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12(FEC 광 트랜시버 모듈 포함)
$850.00
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈
$650.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈
$650.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈
$900.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈
$1199.00
-
NVIDIA MMS4X50-NM 호환 OSFP 2x400G FR4 PAM4 1310nm 2km DOM 이중 이중 LC SMF 광 트랜시버 모듈
$1200.00
-
NVIDIA MMS4A00(980-9IAH1-00XM00) 호환 1.6T OSFP DR8D PAM4 1311nm 500m IHS/Finned Top Dual MPO-12 SMF 광 트랜시버 모듈
$2600.00
-
NVIDIA 호환 1.6T 2xFR4/FR8 OSFP224 PAM4 1310nm 2km IHS/Finned Top 듀얼 듀플렉스 LC SMF 광 트랜시버 모듈
$3100.00
-
NVIDIA MMS4A00(980-9IAH0-00XM00) 호환 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/플랫탑 듀얼 MPO-12/APC InfiniBand XDR SMF 광 트랜시버 모듈
$3600.00
