차례
전환개요
디지털 경제와 인공지능(AI) 기술의 폭발적인 성장에 힘입어 전 세계 데이터센터 네트워크 인프라는 100G에서 400G/800G로의 전환이라는 역사적으로 중요한 시점에 서 있습니다. 대규모 언어 모델(LLM)의 파라미터가 수조 단위를 돌파하고 고성능 컴퓨팅(HPC) 및 분산 스토리지에 대한 수요가 급증함에 따라, 네트워크는 더 이상 단순한 데이터 전송 채널이 아니라 컴퓨팅 클러스터의 효율성을 좌우하는 핵심 병목 현상으로 진화했습니다. 차세대 데이터센터 네트워크의 초석이 되는 400G 이더넷 스위치의 기술적 핵심은 단순한 대역폭 업그레이드를 넘어, 다양한 칩 아키텍처, 지능적인 혼잡 제어 알고리즘, 그리고 혁신적인 광전자 상호 연결 방식까지 아우르는 심층적인 기술을 요구합니다.
본 보고서는 현재 400G 스위치 시장의 기술 생태계와 경쟁 환경을 종합적이고 심층적으로 분석하는 것을 목표로 합니다. 연구 결과에 따르면, 전 세계 이더넷 스위치 시장은 2024년에서 2025년 사이에 AI 백엔드 네트워크 수요 증가에 힘입어 두 자릿수 이상의 높은 성장률을 기록할 것으로 예상됩니다. 800G 포트의 출하량 증가 속도가 빠르지만, 400G는 안정적인 공급망, 우수한 가격 대비 성능, 그리고 폭넓은 레거시 호환성 덕분에 현재 및 향후 3년간 데이터 센터의 주요 통신 플랫폼으로 자리매김할 것으로 전망됩니다.
기술적인 측면에서 이더넷은 기존 방식에 대한 강력한 공세를 펼치고 있습니다. 인피니밴드 RoCEv2(RDMA over Converged Ethernet) 기술을 통해 이더넷의 본질적인 "최선의 노력(best-effort)" 특성과 AI 학습에 요구되는 "손실 없는 네트워크" 사이의 모순을 해결하기 위해 브로드컴, 엔비디아, 시스코와 같은 칩 제조사들은 심층적인 원격 측정 및 고급 흐름 제어 기능을 갖춘 ASIC 칩(예: Tomahawk 5, Spectrum-4, Silicon One G100)을 출시했습니다. 한편, 화웨이, H3C, 루이지에와 같은 시스템 공급업체들은 iLossless, SeerNetwork, RALB와 같은 소프트웨어-하드웨어 통합 알고리즘 혁신을 통해 차별화된 경쟁력을 구축했습니다. 본 보고서는 이러한 기술적 세부 사항을 시장 데이터와 결합하여 기업 사용자, 투자자 및 기술 의사 결정권자에게 미래 지향적인 전략적 참고 자료를 제공합니다.
거시적 배경 및 기술적 동인: 클라우드 컴퓨팅에서 AI 팩토리까지
교통 모델의 근본적인 변화
지난 10년간 데이터센터 네트워크 설계는 주로 클라우드 컴퓨팅과 웹 애플리케이션을 지원하도록 설계되었으며, 트래픽 특성은 가상화로 인한 "동서"(VM 간) 트래픽을 고려하면서 "남북"(클라이언트-서버) 흐름이 주를 이루었습니다. 그러나 생성형 AI의 등장으로 이러한 패러다임은 완전히 바뀌었습니다. AI 학습 클러스터에서는 수천 개의 GPU가 파라미터 동기화(All-Reduce)를 수행해야 하므로 네트워크 트래픽이 극도로 증가합니다. 폭발성 및 다대일(인캐스트) 형질.
이러한 트래픽 모델의 변화로 인해 기존의 과다 가입 네트워크 아키텍처는 더 이상 적용할 수 없게 되었습니다. AI 팩토리에서는 네트워크가 높은 처리량, 패킷 손실 제로, 그리고 예측 가능한 낮은 지연 시간을 제공해야 합니다. 연구에 따르면 네트워크 지연 시간이 조금만 증가해도(예: 10마이크로초에서 100마이크로초로) 고가의 GPU 컴퓨팅 리소스가 유휴 상태로 남아 모델 학습에 소요되는 시간과 전력 소비가 크게 증가할 수 있습니다. 따라서 400G 스위치 도입은 단순한 포트 업그레이드가 아니라 컴퓨팅 성능의 선형적 확장을 지원할 수 있는 고성능 네트워크 기반을 구축하기 위한 노력입니다.

400G 이더넷의 주요 기술적 도약
400G 이더넷 표준(IEEE 802.3bs)의 구현은 여러 혁신적인 기술을 도입하여 물리 계층 전송 효율성을 질적으로 향상시켰습니다.
PAM4 변조 기술 소개: 제한된 대역폭 내에서 더 많은 데이터를 전송하기 위해 400G 표준은 기존의 NRZ(Non-Return-to-Zero) 코딩 방식을 버리고 PAM4(Pulse Amplitude Modulation 4-level) 방식을 채택했습니다. PAM4는 클록 사이클당 2비트(4레벨)를 전송하여 NRZ에 비해 효율성을 두 배로 높였습니다. 그러나 PAM4는 신호 대 잡음비(SNR) 요구 사항이 더 엄격하여 물리 계층(PHY) 설계가 더 복잡해지고 디지털 신호 처리(DSP) 칩에 대한 의존도가 높아집니다.
FEC(순방향 오류 수정)의 필요성: PAM4 신호는 간섭에 더 취약하기 때문에 비트 오류율(BER)이 크게 증가합니다. 따라서 400G 링크에서는 FEC 기능(예: RS-FEC 544, 514)을 필수적으로 활성화해야 합니다. FEC는 전송 신뢰성을 보장하지만, 추가적인 처리 지연 시간(일반적으로 100ns~250ns)을 발생시키는데, 이는 초저지연을 추구하는 AI 네트워크에서 고려해야 할 요소입니다.
광학 모듈 형태의 진화: QSFP-DD(Double Density)와 OSFP(Octal Small Form-factor Pluggable)는 400G 시대의 주류 패키징 표준으로 자리 잡았습니다. QSFP-DD는 QSFP28과의 하위 호환성 덕분에 일반 데이터 센터에서 널리 사용되고 있으며, OSFP는 우수한 방열 성능(최대 15W~20W 이상의 전력 소비 지원)으로 고성능 컴퓨팅 및 향후 800G 시대에 선호됩니다.
에너지 효율 및 밀도에 대한 경제성 분석
하이퍼스케일 데이터 센터에서 전력 효율성은 핵심 고려 사항입니다. 400G 스위치는 100G 아키텍처에 비해 상당한 경제적 이점을 제공합니다. 업계 데이터 분석에 따르면, 400G 네트워크 아키텍처는 동일한 대역폭의 100G 네트워크 대비 Gbps당 전력 소비량을 약 43% (~1.2W/Gb에서 ~0.7W/Gb로) 줄이고 랙 공간 사용량을 48% 절감할 수 있습니다.
표 2.1: 에너지 효율 및 밀도에 대한 경제적 비교: 400G 아키텍처와 100G 아키텍처 비교
| 주요 측정 항목 | 100G 네트워크 아키텍처(기준선) | 400G 네트워크 아키텍처 | 개선/이점 |
| 포트 대역폭 | 100Gbps | 400Gbps | 4배 증가 |
| Gbps당 전력 | 약 35mW / 1.2W (시스템 레벨) | 약 20mW / 0.7W (시스템 레벨) | 약 43% 에너지 절약 |
| 랙 공간(Tbps당) | 2.5 RU | 1.3 RU | 48 % 절약 |
| 케이블 수 (동일 대역폭) | 100% (기준선) | 25의 % - 50의 % | 50~75% 비용 절감, 운영 간소화 |
| 스위치 칩 용량 | 3.2 Tbps – 6.4 Tbps | 12.8 Tbps – 25.6 Tbps | 4~8배 증가, 평면화된 네트워크 레이어 |
| 총소유비용(3년) | 기준 가격($X) | 0.65달러X | 35 % 감소 |
이러한 에너지 효율성 향상은 주로 스위치 칩 공정의 발전(16nm/12nm에서 7nm/5nm로)과 SerDes 속도의 증가(25G SerDes에서 56G/112G SerDes로) 덕분입니다. 이를 통해 데이터 센터는 물리적 공간을 늘리지 않고도 AI 컴퓨팅으로 인한 기하급수적인 대역폭 수요 증가를 지원할 수 있습니다.
핵심 칩(ASIC) 아키텍처 및 기술 학파에 대한 심층 분석
스위치 칩(ASIC)은 400G 스위치의 성능 한계를 결정하는 핵심 부품입니다. 현재 시장은 크게 세 가지 유형으로 나뉩니다. 브로드 컴 대규모 출하량과 표준화된 생태계를 통해 상업 시장을 장악하고 있습니다. NVIDIA HPC 분야의 풍부한 경험을 바탕으로 엔드투엔드 최적화에 집중합니다. 시스코 라우팅과 스위칭 간의 경계를 허물기 위해 통합 아키텍처를 시도하고 있습니다. 또한 Marvell과 같은 벤더들은 특정 틈새 시장에서 경쟁력을 유지하고 있습니다.
브로드컴 토마호크 시리즈: 처리량과 생태계의 제왕
브로드컴의 StrataXGS Tomahawk 시리즈는 전 세계 상용 데이터 센터 스위치 시장에서 사실상의 표준으로 자리 잡았습니다.
토마호크 4(TH4): 업계 최초로 널리 채택된 25.6Tbps 칩인 TH4는 7nm 공정을 사용하며, 단일 칩으로 64개의 400G 포트를 지원합니다. 이 칩의 아키텍처는 극도의 처리량과 전력 효율성에 중점을 두고 있으며, 7nm 공정을 활용합니다. 슬라이스드 메모리 아키텍처이러한 아키텍처는 극심한 불균형 트래픽(인캐스트) 처리에서 어려움을 겪을 수 있지만, 성숙도와 비용 효율성 덕분에 스파인-리프 네트워크를 구축하는 하이퍼스케일러에게 최고의 선택입니다.
토마호크 5(TH5): 5nm 공정을 채택하여 대역폭이 51.2Tbps로 두 배 증가했습니다. TH5는 단순한 대역폭 업그레이드가 아니라 하드웨어 기반 동적 부하 분산(DLB) 및 더욱 세밀한 원격 측정과 같은 AI 워크로드에 최적화된 기능을 제공합니다. 단일 TH5 칩은 64개의 800G 포트 또는 128개의 400G 포트를 지원하여 네트워크 토폴로지를 크게 단순화하고 홉 수를 줄입니다.
토마호크 울트라: AI 스케일업 네트워크를 위한 새로운 아키텍처가 출시되었습니다. 브랜드는 토마호크(Tomahawk) 라인을 유지하지만, 커널은 완전히 재구성되었습니다. 브로드컴은 이 아키텍처가 링크 계층 재전송(LLR) 및 크레딧 기반 흐름 제어(CBFC)를 구현하여, 주로 NVIDIA의 스펙트럼-X 솔루션을 겨냥해 이더넷에서 인피니밴드(InfiniBand)의 무손실 특성을 250ns 수준으로 낮춰 재현하는 것을 목표로 한다고 밝혔습니다.
NVIDIA 스펙트럼 플랫폼: AI를 위해 탄생한 엔드투엔드 아키텍처
NVIDIA(구 Mellanox)의 Spectrum 시리즈 스위치 칩은 처음부터 단순히 "데이터를 전환"하는 것뿐만 아니라 "컴퓨팅 속도를 향상"하도록 설계되었습니다.
완전 공유 버퍼: 브로드컴의 슬라이스 아키텍처와 달리, 스펙트럼 시리즈(예: 스펙트럼-3 및 스펙트럼-4)는 동적 공유 버퍼 아키텍처를 사용합니다. 즉, 모든 포트가 동일한 온칩 메모리를 공유합니다. 포트에 혼잡(예: 마이크로버스트)이 발생하면 칩의 유휴 캐시 리소스를 동적으로 활용할 수 있습니다. 이러한 설계는 패킷 손실 확률을 크게 줄이고 AI 학습에서 흔히 발생하는 "다대일" 트래픽 패턴에서 더욱 안정적인 성능을 제공합니다.
스펙트럼-4: TSMC 4N 프로세스를 사용하여 51.2Tbps의 대역폭을 제공합니다. 높은 대역폭 외에도 나노초 수준의 클록 동기화 정확도(5~6배 향상)와 "방금 발생한 상황"(WJH) 원격 측정 기능이 가장 주목할 만한 특징입니다. WJH는 단순한 집계 통계가 아닌 상세한 오류 컨텍스트(예: 특정 데이터 손실 원인, 영향을 받은 흐름 특성)를 캡처하고 스트리밍하므로 복잡한 분산 AI 학습 오류 문제 해결에 매우 중요합니다.
시스코 실리콘 원: 통합 아키텍처를 향한 야심
시스코의 실리콘 원(Silicon One) 아키텍처는 기존 네트워크에서 "라우팅 칩"(깊은 버퍼, 낮은 대역폭, 복잡한 기능)과 "스위칭 칩"(얕은 버퍼, 높은 대역폭, 단순한 기능) 사이의 이분법적 대립을 깨뜨리는 것을 목표로 합니다.
Q100/G100 아키텍처: G100은 7nm 공정을 기반으로 25.6Tbps의 대역폭을 제공하는 시스코의 웹 스케일 스위칭 시장용 플래그십 칩입니다. 핵심 혁신은 "실행 완료(Run-to-Completion)" 처리 파이프라인과 통합 온칩 공유 캐시에 있습니다. 시스코는 G100이 고대역폭 스위치 칩에서 완전 공유 패킷 버퍼링을 구현한 업계 최초의 제품이며, P4 프로그래밍 기능을 결합하여 고성능 ToR 스위치와 복잡한 라우팅 기능을 요구하는 스파인 노드 모두에 적합하다고 주장합니다.
다목적 기능: Silicon One은 마이크로코드 구성을 통해 "라우팅 모드"와 "스위칭 모드" 간 전환이 가능하므로 고객은 단일 하드웨어 아키텍처로 DCI 에지부터 데이터 센터 코어까지 모든 시나리오를 지원할 수 있어 예비 부품 관리 및 운영 복잡성을 크게 줄일 수 있습니다.
표 3.1: 주류 400G/800G 스위치 칩 아키텍처 비교
| 기능/측정항목 | 브로드컴 토마호크 4 | 엔비디아 스펙트럼-3 | 엔비디아 스펙트럼-4 | 시스코 실리콘 원 G100 | 브로드컴 토마호크 5 |
| 방법 | 7nm | 16nm | 4N (TSMC) | 7nm | 5nm |
| 최대 용량 | 25.6Tbps | 12.8Tbps | 51.2Tbps | 25.6Tbps | 51.2Tbps |
| 400G 밀도 | 64 포트 | 32 포트 | 128 포트 | 64 포트 | 128 포트 |
| 버퍼 아키텍처 | 분배/슬라이스 | 완전 공유 | 완전 공유 | 완전 공유 | 분배/슬라이스 |
| AI/HPC 옵션 | 기본 RoCE | RoCE 옵션, WJH | 스펙트럼-X, 나노 클록 | P4 프로그램, 고급 유량 제어 | 인지 라우팅, DLB |
| 일반적으로 지연 시간 | ~500ns | <400ns | ~500ns | ~600ns | ~500ns |
| 시나리오 | 구름 가시/잎 | HPC, AI 스토리지, 금융 | 대규모 AI 클러스터, 슈퍼컴퓨팅 | 클라우드 라우팅, 통합 아키텍처 | 차세대 AI 클러스터, 800G 백본 |

AI 시대의 네트워크 아키텍처 혁신: 최선형 전송에서 패킷 손실 제로로
400G 스위치의 확산은 단순한 하드웨어 업그레이드가 아니라 네트워크 프로토콜 스택과 토폴로지의 재구성을 의미합니다. 핵심 목표는 이더넷에서 InfiniBand 수준의 성능을 달성하는 것입니다. “손실 없는 네트워크.”
RoCEv2와 혼잡 제어 알고리즘의 게임
RoCEv2(RDMA over Converged Ethernet 버전 2)는 애플리케이션이 CPU 커널을 거치지 않고 원격 메모리에 직접 접근할 수 있도록 하여 초저지연 및 CPU 활용률 향상을 가능하게 합니다. 그러나 RoCEv2는 기본 네트워크에서 손실 없는 전송을 전제로 합니다. 패킷 손실이 발생할 경우, RDMA의 재전송 메커니즘(Go-back-N)으로 인해 처리량이 급격히 감소합니다.
기존의 PFC(우선순위 기반 흐름 제어)는 단순한 "일시 정지 프레임"을 통해 패킷 손실을 방지하지만, 이는 "헤드 오브 라인 블로킹" 및 "혼잡 확산"을 쉽게 유발하여 교착 상태로 이어질 수 있습니다. 따라서 ECN(명시적 혼잡 알림) 기반의 지능형 혼잡 제어 알고리즘이 주요 업체들 간의 경쟁에서 핵심 쟁점이 되었습니다.

4.1.1 DCQCN(데이터 센터 양자화 혼잡 알림): 현재 가장 기본적인 RoCEv2 혼잡 제어 알고리즘입니다. ECN과 PFC를 결합한 형태로, 스위치가 큐의 혼잡도가 임계값을 초과하면 ECN으로 표시합니다. 수신 NIC는 이를 수신하면 송신자에게 CNP(혼잡 알림 패킷)를 전송하고, 송신자는 전송 속도를 줄입니다. 한정: 기존 DCQCN 파라미터(Kmin, Kmax, Pmax)는 정적으로 구성됩니다. 트래픽 변동이 심한 AI 학습 시나리오에서는 정적 임계값이 너무 느리게 반응하여 패킷 손실을 발생시키거나, 반대로 과도하게 반응하여 처리량 감소를 초래할 수 있습니다.
4.1.2 화웨이 iLossless(지능형 무손실): 화웨이는 클라우드엔진 시리즈 스위치에 AI 칩을 도입하고 iLossless 알고리즘을 통해 동적 ECN 임계값 조정을 구현했습니다. 메커니즘 : 이 스위치는 실시간으로 트래픽 모델(대/소 흐름 식별, 인캐스트 정도)을 학습하고 ECN 트리거 워터라인을 동적으로 조정합니다. 화웨이는 이 알고리즘을 통해 패킷 손실 없이 처리량을 100%까지 높이고 롱테일 지연 시간을 크게 줄일 수 있다고 주장합니다.
4.1.3 Ruijie RALB(레일 인식 적응형 부하 분산) 및 NFIM: 루이지에는 AI 클러스터의 멀티레일 특성에 맞춰 RALB 기술을 특별히 개발했습니다. 메커니즘 : 기존의 ECMP(Equal-Cost Multi-Path 라우팅)는 해시 선택에 의존하기 때문에 해시 충돌(일부 링크는 혼잡한 반면 다른 링크는 유휴 상태)이 발생할 수 있습니다. RALB는 실시간 링크 품질(혼잡 수준)을 감지하고 동적 로드 밸런싱을 수행합니다. 패킷당 기본적으로 가장 유휴 상태인 링크에 패킷을 분산시켜 대역폭 활용률을 97.6% 이상으로 높입니다. NFIM(나노초 흐름 지능형 제어 모듈)과 결합하여 혼잡 발생 전에 예측 스케줄링을 수행할 수 있습니다.
4.1.4 H3C SeerNetwork 및 DDC 아키텍처: H3C는 DDC(분산형 섀시) 기반 솔루션을 출시하여 네트워크 혼잡 문제를 완벽하게 해결했습니다. 메커니즘 : DDC 아키텍처는 섀시 스위치의 라인 카드와 패브릭을 물리적으로 분리하고 광섬유를 통해 상호 연결합니다. 데이터 전송 시에는 다음과 같은 방식을 사용합니다. 스프레이 링크 패킷을 분할하여 모든 업링크에 고르게 분산시키는 기술로, 해시 충돌을 물리적으로 제거하고 이론적으로 100% 비차단 성능을 달성합니다.
네트워크 토폴로지: Clos 방식 vs. Multi-Rail 방식
전통적인 Clos(가시잎): 일반적인 컴퓨팅에 적합합니다. 서버는 단일 NIC를 통해 연결되며, 트래픽은 스파인 계층에서 집계됩니다.
AI 멀티레일: 최신 AI 서버(예: NVIDIA HGX H100)는 일반적으로 8개의 GPU와 8개의 NIC를 갖추고 있습니다. 멀티레일 아키텍처에서는 8개의 독립적인 물리적 네트워크 평면(레일)이 구성됩니다. 각 서버의 GPU 0은 레일 0 네트워크에 연결되고, GPU 1은 레일 1에 연결되는 식입니다. 이러한 설계 덕분에 GPU 간 통신(특히 All-Reduce)은 동일한 레일 내에서 단 하나의 ToR 스위치 계층만 거쳐 완료될 수 있으므로 지연 시간과 충돌 가능성을 획기적으로 줄일 수 있습니다. 이 아키텍처에서 400G 스위치는 일반적으로 고밀도 리프 노드 역할을 합니다.

글로벌 주류 400G 스위치 공급업체 경쟁력 분석
NVIDIA(Mellanox): AI 네트워크의 정의자
핵심 제품: SN4000(스펙트럼-3), SN5600(스펙트럼-4).
시장 위치 : AI 백엔드 네트워크 시장(인피니밴드와 이더넷 결합)에서 절대적인 지배력을 확보하고 있습니다.
경쟁 우위:
- 풀스택 생태계: GPU + DPU + NIC + 스위치 + NOS(Cumulus/SONiC) + 관리 소프트웨어(UFM/NetQ)를 모두 제공하는 유일한 공급업체입니다.
- 스펙트럼-X: BlueField-3 DPU를 "슈퍼 NIC"로 활용하고 Spectrum-4 스위치를 결합하여 정밀한 RTT(왕복 시간) 측정 및 직접 메모리 액세스를 통해 표준 이더넷을 훨씬 뛰어넘는 성능을 구현합니다.
- 원격측정: WJH(What Just Happened)는 칩 수준의 오류 가시성을 제공하여 대규모 AI 클러스터 운영에 매우 유용한 기능입니다.
- 단점 : 상대적으로 가격이 비싸고, 생태계가 비교적 폐쇄적입니다(이더넷 기반이지만 최적의 성능은 전체 스택에 따라 달라집니다).
아리스타 네트웍스: 클라우드 업계 거물들이 선택하는 최고의 솔루션
핵심 제품: 7060X5 (TH5 리프 스프링), 7800R3 (제리코 2 스파인/DCI).
시장 위치 : 프런트엔드 네트워크 및 하이퍼스케일러에서 매우 높은 점유율을 차지하고 있으며, AI 백엔드 네트워크 시장을 적극적으로 잠식하고 있습니다.
경쟁 우위:
- EOS 운영 체제: 업계에서 가장 안정적이고 개방적인 네트워크 운영 체제로 인정받고 있습니다. 단일 이미지로 모든 하드웨어에 적용 가능하여 운영 복잡성을 크게 줄여줍니다.
- 심층 버퍼 아키텍처: 7800R 시리즈는 GB급 VOQ(가상 출력 큐) 캐싱을 지원하는 Broadcom DNX 기반 딥 버퍼 칩을 사용하여 데이터 센터 상호 연결(DCI) 및 트래픽이 매우 불규칙한 시나리오에 이상적입니다.
- DLB와 이더링크: 아리스타는 7700R4 시리즈에 대규모 클러스터의 상호 연결 효율성을 최적화하기 위해 분산형 이더링크 기술을 도입했습니다.
시스코 시스템즈: 거대 기업의 변모
핵심 제품: Nexus 9300-GX2(리프), Nexus 9800(모듈형 스파인).
경쟁 우위:
자체 개발한 실리콘 원 칩: 브로드컴에 대한 의존에서 벗어나 아키텍처 차별화와 비용 절감을 달성했습니다. G100/G200 칩의 높은 대역폭과 프로그래밍 기능은 뛰어난 유연성을 제공합니다.
광학-전자공학의 시너지 효과: 시스코는 아카시아 인수를 통해 광 모듈 기술 분야에서 심도 있는 전문성을 축적했으며, 검증된 "스위치 + 광 모듈" 통합 솔루션을 제공하여 400G/800G 시대의 광 링크 안정성에 매우 중요한 역할을 할 수 있게 되었습니다.
광범위한 기업 고객 기반: 기존 엔터프라이즈 네트워크에서 AI로 전환하는 고객에게 원활한 마이그레이션 경로(ACI 아키텍처 또는 NX-OS 모드)를 제공합니다.
화웨이: 기술력의 통합자
핵심 제품: CloudEngine 16800 시리즈(모듈형), CE8800/9800(고정형).
경쟁 우위:
- iLossless AI 알고리즘: 스위치 제어 평면에 AI 컴퓨팅 성능을 도입하여 흐름 제어 매개변수를 동적으로 최적화하는 것이 화웨이가 무손실 이더넷 분야에서 보유한 핵심 경쟁력입니다.
- 하드웨어 엔지니어링: CE16800은 직교형 백플레인 설계, 효율적인 열 방출 및 고급 전원 공급 기술을 사용하여 뛰어난 시스템 에너지 효율로 초고밀도 400G/800G 포트 배포를 지원합니다.
- 자치: 자체 개발한 Solar 시리즈 칩과 완벽한 소프트웨어/하드웨어 스택을 보유하고 있어 (특정 시장에 한해) 높은 공급망 보안을 보장합니다.
H3C와 Ruijie: 비용 대비 성능 및 시나리오 맞춤화
H3C: SeerNetwork 아키텍처를 기반으로 지능형 운영을 강조하는 H3C의 S9825 시리즈 스위치는 밀도와 전력 효율성 측면에서 균형 잡힌 성능을 제공합니다. 또한 H3C는 CPO(코패키징 프로토타입) 기술을 적극적으로 연구하며 저전력 실리콘 포토닉스 프로토타입을 선보이고 있습니다.
루이지에: 바이트댄스, 알리바바 등 주요 인터넷 기업들과 긴밀한 관계를 유지하며 탁월한 민첩성을 제공하는 루이지에(Ruijie)의 RG-S6900 시리즈는 "지능형 속도" DCN에 초점을 맞춰 RALB 및 "원키 RoCE" 기능을 통해 대규모 네트워크 구축 및 튜닝의 어려움을 해결합니다. 루이지에는 화이트박스 및 맞춤형 ODCC 사양 제품 개발에 있어 신속하게 대응합니다.
시장 데이터 및 경제 분석
시장 규모 및 성장 추세
IDC와 델오로 그룹의 최신 추적 데이터에 따르면, 전 세계 이더넷 스위치 시장은 2024년에도 견조한 성장세를 유지할 것으로 예상됩니다.
- 전체 크기: 2024년 3분기 데이터센터 스위치 시장 매출은 전년 동기 대비 30% 이상 성장했으며, 이러한 증가분의 대부분은 AI 관련 백엔드 네트워크에서 비롯되었습니다.
- 항만 선적: 400G 포트는 데이터센터 전체 대역폭 용량의 절반을 차지하며 절대적인 주류로 자리 잡았습니다. 800G 포트의 기반은 아직 작지만 분기별 연속 성장률이 100%에 육박하고 있으며, AI 클러스터에의 도입은 2025년까지 400G를 넘어설 것으로 예상됩니다.
- 판매자 지분: 시스코는 전체 시장 매출에서 여전히 1위를 차지하고 있지만, 시장 점유율 압박에 직면해 있습니다. 아리스타는 데이터 센터 부문(특히 100G/400G)에서 시스코를 바짝 추격하고 있습니다. 엔비디아는 인피니밴드와 스펙트럼 이더넷 솔루션을 통해 특정 AI 틈새 시장을 장악하며 가장 빠른 성장세를 보이고 있습니다. 중국 시장에서는 화웨이, H3C, 루이지에가 1, 2위 자리를 굳건히 지키고 있습니다.

비용 및 전력 동향
비트당 비용: 400G 광 모듈 공급망이 성숙해짐에 따라, 400G 포트 하나의 비용이 100G 포트 네 개의 비용을 합친 것보다 훨씬 저렴해져 광섬유 케이블링 비용을 절감하고 유지 관리의 복잡성을 줄일 수 있습니다.
전력 관련 과제: 400G의 Gbps당 에너지 효율은 향상되었지만, 단일 스위치의 총 전력 소비량은 급격히 증가했습니다. 64개의 400G 포트로 완전히 구성된 2U 스위치는 일반적으로 광 모듈을 포함하여 1500W~2000W의 전력을 소비합니다. 이는 캐비닛 전원 공급 및 열 방출에 심각한 문제를 야기하며, 액체 냉각 스위치 연구 개발을 촉진하는 요인이 되었습니다.
표 6.1: 주류 400G 스위치의 전력 소비량 추정치(일반적인 최대 부하 시)
| 공급 업체 | 모델 | 포트 구성 | 일반적인 시스템 전력 소모량 (광학 장치 포함 추정치) | 열 설계 |
| H3C | 시즌 9825-64D | 64x 400G | 최대 전력 소비량 약 1850W / 일반 전력 소비량 약 613W (빈 상태) | 전면-후면 공기 흐름, 핫스왑 팬 |
| 루이지에 | RG-S6980-64QC | 64x 400G | 최대 소비 전력 약 2400W / 일반 소비 전력 약 1760W | 4+1 이중화 팬, 스마트 속도 조절 |
| NVIDIA | SN5600 | 64x 800G/400G | 약 670W (시스템만 해당, 광학 장치 제외) | 고효율 공기 흐름, AOC/DAC 옵션 |
| 화웨이 | CE16800 | 모듈형 (카드당 48개 x 400G) | 카드당 약 800W 이상 (설정에 따라 다름) | 직교 아치, 혼합 액체 냉각 |
미래 전망: 800G, UEC 및 광전자공학 통합
800G 및 1.6T로의 진화
NVIDIA 블랙웰 GPU와 차세대 AI 가속기가 출시됨에 따라 단일 카드 대역폭 수요는 800Gbps 이상으로 급증할 것입니다.
- 800G 시대: 2025년은 800G 이더넷의 도약의 해가 될 것입니다. Tomahawk 5 및 Spectrum-4 기반 스위치가 AI 클러스터의 코어 계층(스파인)에 대규모로 배포될 것입니다.
- 1.6T 전망: Tomahawk 6(102.4T)과 같은 차세대 칩이 상용화되는 2026~2027년경에는 1.6T 인터페이스가 하이퍼스케일 클러스터에 도입되기 시작할 것으로 예상됩니다.
UEC(울트라 이더넷 컨소시엄)의 부상
인피니밴드의 독점을 깨고 AI 시나리오에서 기존 이더넷의 문제점을 해결하기 위해 AMD, 아리스타, 브로드컴, 시스코, 메타, 마이크로소프트를 포함한 거대 기업들이 공동으로 UEC를 설립했습니다.
목표 : 차세대 "AI 기반" 이더넷 전송 계층 프로토콜을 정의하고, 다중 경로 패킷 스프레이, 유연한 재전송 메커니즘, 더욱 효율적인 혼잡 제어를 도입하여 RoCEv2를 개선합니다. 미래의 400G/800G 스위치는 UEC 표준을 보편적으로 지원하여 이더넷의 "손실" 위험을 완전히 제거할 것입니다.
CPO(공동 패키지 광학 소자) vs. LPO(선형 구동 플러그형 광학 소자)
전기적 상호 연결의 물리적 한계(SerDes 거리 제약)를 극복하고 전력 소비를 줄이기 위해 광전자 집적화가 궁극적인 방향입니다.
CPO: 스위치 칩 기판에 광 엔진을 직접 캡슐화하는 방식입니다. 에너지 효율은 탁월하지만 유지보수가 어렵다는 단점(광 모듈은 핫스왑이 불가능함) 때문에 현재는 특정 초고밀도 환경(예: 51.2T 이상)에서만 시범적으로 적용되고 있으며, 대량 도입에는 시간이 걸릴 것으로 예상됩니다.
LPO: CPO의 과도기적 해결책으로, LPO는 광 모듈에서 DSP 칩을 제거하고 스위치 ASIC의 강력한 SerDes를 사용하여 광 구성 요소를 직접 구동합니다. 이는 전력 소모와 지연 시간을 크게 줄이면서도 플러그형 특성을 유지하므로 현재 400G/800G 시장에서 주목받는 기술 트렌드입니다.

맺음말
400G 이더넷 스위치 시장은 기술 혁신과 규모의 경제 적용이라는 두 가지 중요한 요소가 만나는 황금 같은 시점에 있습니다. AI는 단순히 대역폭을 소비하는 존재일 뿐만 아니라 네트워크 아키텍처 재구축을 위한 촉매제 역할도 합니다.
- 기술적 측면: "무손실", "낮은 지연 시간", "가시성"은 스위치 성능을 측정하는 새로운 3차원 표준이 되었습니다. 공유 버퍼 아키텍처, 지능형 혼잡 제어 알고리즘(예: iLossless, RALB), 하드웨어 수준의 원격 측정 기능은 고급 AI 스위치를 일반 스위치와 구분하는 핵심 요소입니다.
- 시장 측면: NVIDIA가 AI 풀스택 솔루션 분야에서 선두를 달리고 있지만, Arista, Cisco, 그리고 중국 업체들(Huawei, H3C, Ruijie)은 개방형 생태계, 가격 대비 성능, 차별화된 소프트웨어 기능을 바탕으로 강력한 이더넷 진영을 구축하며 점차 InfiniBand의 시장 점유율을 잠식하고 있습니다.
400G 스위치를 선택하는 기업 및 기관은 포트 밀도와 가격뿐만 아니라 RoCEv2 환경에서의 실제 성능, 혼잡 제어 알고리즘의 완성도, 기존 AI 컴퓨팅 플랫폼과의 호환성 등을 심층적으로 평가해야 합니다. UEC 표준의 발전과 800G의 등장으로 더욱 개방적이고 효율적이며 지능적인 이더넷 생태계가 빠르게 구축되고 있습니다.
관련 상품:
-
Cumulus Linux, 4700개의 QSFP-DD 포트, 2개의 AC 전원 공급 장치, x3 CPU, 표준 깊이, P400C 공기 흐름, 레일 키트를 탑재한 NVIDIA MSN1-WS32FC Spectrum-2 기반 86GbE 2U 오픈 이더넷 스위치
$28900.00
-
Cumulus Linux 인증, QSFP5400-DD 포트 4개, SFP400 포트 2개, AC 전원 공급 장치 64개, x56 CPU, 보안 부팅, 표준 깊이, C2P 공기 흐름, 공구가 필요 없는 레일 키트를 갖춘 NVIDIA SN28 Spectrum-2 기반 86GbE 2U 오픈 이더넷 스위치
$39000.00
-
NVIDIA MQM9790-NS2F Quantum-2 NDR InfiniBand 스위치, 64 x 400Gb/s 포트, 32개 OSFP 케이지, 비관리형, P2C 공기 흐름(전방)
$24000.00
-
NVIDIA MQM9700-NS2R Quantum-2 NDR InfiniBand 스위치, 64포트 NDR 400Gb/s, 32개 OSFP 포트, 관리형, P2C 공기 흐름(역방향)
$34000.00
-
NVIDIA MQM9700-NS2F Quantum-2 NDR InfiniBand 스위치, 64 x 400Gb/s 포트, 32 OSFP 포트, 관리형, P2C 공기 흐름(전방)
$30000.00
-
NVIDIA MQM9790-NS2R Quantum-2 NDR InfiniBand 스위치, 64포트 NDR 400Gb/s, 32개 OSFP 포트, 비관리형, P2C 공기 흐름(역방향)
$24000.00
