2025년 핫칩스(Hot Chips) 컨퍼런스를 앞두고 엔비디아는 Spectrum-XGS 이더넷 기술을 공식 발표했습니다. 네트워크 최적화 알고리즘을 기반으로 하는 이 혁신적인 솔루션은 "확장성(scale-across)" 기능을 도입하여 단일 데이터센터의 전력 및 공간 제약을 극복합니다. 여러 도시와 국가에 분산된 여러 데이터센터를 하나의 "AI 슈퍼 팩토리"로 연결하여 대규모 AI 워크로드, 특히 에이전트 AI를 위한 기반 인프라를 지원합니다.
차례
전환스케일업/아웃에서 스케일어크로스로: Spectrum-XGS의 불가피한 선택
현재 AI 데이터 센터는 확장에 있어 두 가지 핵심 병목 현상에 직면해 있으며, 기존의 확장 및 확장 모델은 기가급 AI 수요를 충족하는 데 어려움을 겪고 있습니다.
- 확장 제한 사항: 단일 시스템이나 랙을 업그레이드하여 달성할 수 있지만(예: GPU 수 증가 또는 단일 장치 성능 향상), 수냉식 냉각과 같은 인프라의 전력 상한에 의해 제약을 받습니다. 기존 데이터 센터는 전력 입력 및 방열에 대한 물리적 한계를 가지고 있어 랙 또는 데이터 센터당 컴퓨팅 밀도를 무한히 증가시킬 수 없습니다.
- 확장 제한 사항: 랙과 서버를 추가하여 클러스터를 확장했지만, 단일 장소의 물리적 공간에 제한을 받아 장비 용량에 엄격한 상한을 두었습니다.
이러한 딜레마를 극복하기 위해 엔비디아는 지리적으로 분산된 데이터 센터 간의 네트워크 통신을 최적화하여 분산된 AI 클러스터가 하나로 협업할 수 있도록 하는 새로운 차원의 "스케일-어크로스(scale-across)"를 제안합니다. 엔비디아 창립자 겸 CEO인 젠슨 황은 이 지역 간 AI 슈퍼 팩토리를 AI 산업 혁명의 핵심 인프라로 설명하며, Spectrum-XGS는 핵심 기술 구현 요소라고 말합니다.

Spectrum-XGS의 핵심 기술
Spectrum-XGS는 완전히 새로운 하드웨어 플랫폼이 아니라 NVIDIA의 기존 Spectrum-X 이더넷 생태계를 발전시킨 것입니다. 2024년 출시 이후 Spectrum-X는 Spectrum-1.6 아키텍처의 SN4 스위치와 BlueField-5600 DPU를 통해 기존 이더넷보다 3배 더 높은 생성적 AI 네트워크 성능을 제공하여 NVIDIA GPU를 사용하는 AI 데이터센터의 주요 선택지로 자리 잡았습니다. Spectrum-XGS의 획기적인 발전은 지역 간 GPU 클러스터에서 발생하는 통신 지연, 혼잡 및 동기화 문제를 해결하는 세 가지 알고리즘 혁신과 하드웨어 시너지 효과에 있습니다.
1. 핵심 알고리즘: 장거리 네트워크 특성에 대한 동적 적응
Spectrum-XGS의 핵심은 실시간으로 크로스 데이터 센터 통신의 주요 매개변수(거리, 트래픽 패턴, 혼잡 수준, 성능 측정항목)를 분석하고 네트워크 정책을 동적으로 조정하는 "거리 인식 네트워크 최적화 알고리즘" 세트입니다.
거리 적응형 혼잡 제어: 기존 이더넷이 모든 연결을 획일적으로 처리하는 것과 달리, Spectrum-XGS 알고리즘은 데이터 센터 간 실제 거리(현재 최대 수백 킬로미터까지의 배포 지원)에 따라 혼잡 임계값을 자동으로 조정하여 장거리 전송 시 패킷 손실이나 데이터 정체를 방지합니다.
정확한 지연 관리: 패킷별 미세 조정 적응형 라우팅을 통해 기존 네트워크에서 패킷 재전송 시 발생하는 지연 시간 지터를 제거합니다. 지터는 AI 클러스터에서 심각한 위험 요소입니다. 단일 GPU가 지연으로 인해 지연되면 모든 협력 GPU가 대기해야 하며, 이는 전체 성능에 직접적인 영향을 미칩니다.
엔드투엔드 원격 측정: GPU에서 스위치 및 크로스 데이터 센터 링크까지 전체 링크 성능 데이터를 실시간으로 수집하여 알고리즘 조정을 위한 밀리초 수준의 피드백을 제공하고, 네트워크 상태를 AI 워크로드 요구 사항에 동적으로 일치시킵니다.
2. 하드웨어 시너지: Spectrum-X 생태계의 고대역폭 기반 활용
Spectrum-XGS는 특정 NVIDIA 하드웨어와 결합하면 최적의 성능을 발휘합니다.
Spectrum-X 스위치: 기본 네트워크 백본으로서 높은 포트 밀도와 저지연 전달을 제공합니다.
ConnectX-8 슈퍼NIC: GPU와 스위치 간 고속 데이터 전송을 위한 800Gb/s AI 전용 네트워크 어댑터입니다.
블랙웰 아키텍처 하드웨어: B200 GPU 및 GB10 슈퍼칩과 같은 기술은 Spectrum-XGS와 긴밀하게 통합되어 엔드투엔드 지연 시간을 단축합니다. NVIDIA는 NCCL(Collective Communications Library) 벤치마크를 통해 Spectrum-XGS를 검증했습니다. Spectrum-XGS는 여러 데이터센터 GPU 간의 통신 성능을 1.9배 향상하는 동시에 엔드투엔드 지연 시간을 약 200밀리초로 제어합니다. 이는 사용자 상호작용에 대한 반응성과 지연 없는 성능을 제공하여 AI 추론에 대한 실시간 요구 사항을 충족합니다.
Spectrum-XGS를 통한 AI 학습 및 추론 효율성을 위한 풀스택 최적화
Spectrum-XGS는 단독 기술이 아니라 NVIDIA의 풀스택 AI 생태계에 핵심적인 추가 기능입니다. NVIDIA는 이번 릴리스에서 Spectrum-XGS와 시너지 효과를 발휘하여 하드웨어-알고리즘-소프트웨어 간 협업을 지원하는 소프트웨어 수준의 성능 향상 기능도 공개했습니다.
- Dynamo 소프트웨어 업그레이드: Blackwell 아키텍처(예: B200 시스템)에 최적화되어 AI 모델 추론 성능을 최대 4배까지 높이고 대규모 모델 추론에 대한 컴퓨팅 소비를 크게 줄입니다.
- 추측 디코딩 기술: 소규모 초안 모델을 사용하여 주요 AI 모델의 다음 출력 토큰을 미리 예측하여 주요 모델의 계산량을 줄이고 추론 성능을 35% 더 향상시킵니다. 특히 대규모 언어 모델(LLM)의 대화 추론 시나리오에 적합합니다.
NVIDIA 가속 컴퓨팅 부문 책임자인 데이브 살바토(Dave Salvator)는 이러한 최적화의 핵심 목표는 야심 찬 에이전트 AI 애플리케이션을 확장하는 것이라고 밝혔습니다. 1조 개의 매개변수를 가진 대규모 모델을 학습하든 수백만 명의 동시 사용자를 위한 AI 추론 서비스를 지원하든, Spectrum-XGS와 소프트웨어 생태계의 결합은 예측 가능한 성능을 제공합니다.
Spectrum-XGS의 초기 응용 프로그램 및 산업 영향
최초 사용자: CoreWeave, 크로스 도메인 AI 슈퍼 팩토리 개척 GPU 클라우드 서비스 제공업체인 CoreWeave는 Spectrum-XGS를 가장 먼저 도입한 기업 중 하나입니다. 이 회사의 공동 창립자이자 CTO인 피터 살란키는 이 기술을 통해 고객이 기가급 AI 기능에 접근하여 산업 전반의 혁신을 가속화할 수 있을 것이라고 언급했습니다. 예를 들어, Oracle, SoftBank, OpenAI의 Stargate 이니셔티브와 같은 초대형 AI 프로젝트를 지원하는 것이 그 예입니다.
산업 동향: AI 네트워크의 주류로 자리 잡은 이더넷, InfiniBand 대체 80년 AI 백엔드 네트워크 시장의 약 2023%는 InfiniBand가 차지했지만, 업계는 빠르게 이더넷으로 전환하고 있습니다. NVIDIA가 이더넷 기반 Spectrum-XGS를 개발하기로 한 것은 이러한 추세에 부합합니다.
호환성 및 비용적 이점: 이더넷은 글로벌 데이터 센터의 보편적인 표준으로, 네트워크 엔지니어에게 더 익숙하며 InfiniBand보다 구축 비용이 저렴합니다.
시장 규모 예측: Dell'Oro Group의 데이터에 따르면, 이더넷 데이터 센터 스위치 시장은 향후 80년 동안 약 XNUMX억 달러 규모에 이를 것으로 예상됩니다.
NVIDIA의 성장: 650 Group 보고서에 따르면 NVIDIA는 2024년 데이터 센터 스위치 시장에서 "가장 빠르게 성장하는 공급업체"로, 네트워킹 사업 수익이 5년 2분기(2024월 27일 종료)에 56억 달러에 도달해 전년 대비 XNUMX% 증가했습니다.
Spectrum-XGS의 출시는 AI 인프라에서 NVIDIA의 풀스택 독점 전략을 확장하는 동시에 새로운 경쟁 역학을 촉발합니다.
- NVIDIA의 풀스택 레이아웃: GPU(Blackwell), 상호 연결(NVLink/NVLink Switch), 네트워크(Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand)부터 소프트웨어(CUDA, TensorRT-LLM, NIM 마이크로서비스)에 이르기까지 NVIDIA는 AI 인프라를 위한 "컴퓨팅-연결-소프트웨어"를 아우르는 폐쇄 루프를 구축했습니다. Spectrum-XGS는 NVLink와 시너지 효과를 발휘하여 랙 내부(NVLink), 데이터 센터 내부(Spectrum-X), 데이터 센터 간(Spectrum-XGS)의 세 단계 확장을 지원합니다.
- 경쟁사의 대응: Broadcom의 초기 SUE 기술은 Spectrum-XGS와 유사한 목표를 공유하며, InfiniBand와의 격차를 줄이기 위해 이더넷 성능을 최적화하는 것을 목표로 합니다. 또한 Arista, Cisco, Marvell과 같은 공급업체들은 성능-비용-생태계 호환성에 초점을 맞춘 AI 전용 이더넷 스위치 개발을 가속화하고 있습니다.
Spectrum-XGS의 핵심 가치는 AI 데이터 센터 확장을 "단일 사이트 제약"에서 "지역 간 협업"으로 확장하는 데 있습니다. 전력과 토지가 단일 데이터 센터의 한계가 됨에 따라, 도시와 국가를 넘나드는 AI 슈퍼 팩토리가 차세대 AI 애플리케이션(예: 일반 인공지능, 대규모 에이전트 클러스터)을 지원하는 핵심 형태가 될 것입니다.
NVIDIA의 네트워킹 부문 수석 부사장인 Gilad Shainer가 Hot Chips 컨퍼런스에서 미리 보여준 바와 같이, "데이터 센터 간 광섬유 물리적 네트워크는 오래전부터 존재해 왔지만, Spectrum-XGS와 같은 소프트웨어 알고리즘은 이러한 물리적 인프라의 진정한 성능을 끌어내는 열쇠입니다."
관련 상품:
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈
$650.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈
$650.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈
$900.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈
$1199.00
-
NVIDIA MMS4X50-NM 호환 OSFP 2x400G FR4 PAM4 1310nm 2km DOM 이중 이중 LC SMF 광 트랜시버 모듈
$1200.00
-
NVIDIA MMS4A00(980-9IAH1-00XM00) 호환 1.6T OSFP DR8D PAM4 1311nm 500m IHS/Finned Top Dual MPO-12 SMF 광 트랜시버 모듈
$2600.00
-
NVIDIA 호환 1.6T 2xFR4/FR8 OSFP224 PAM4 1310nm 2km IHS/Finned Top 듀얼 듀플렉스 LC SMF 광 트랜시버 모듈
$3100.00
-
NVIDIA MMS4A00(980-9IAH0-00XM00) 호환 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/플랫탑 듀얼 MPO-12/APC InfiniBand XDR SMF 광 트랜시버 모듈
$3600.00
