화웨이는 최근 혁신적인 AI 가속기와 랙 레벨 아키텍처로 업계에 큰 영향을 미쳤습니다. 중국이 자체 개발한 최신 클라우드 슈퍼컴퓨팅 솔루션인 클라우드매트릭스 M8이 공식 출시되었습니다. Ascend 910C 프로세서를 기반으로 하는 이 솔루션은 엔비디아의 GB200 NVL72 시스템과 직접 경쟁할 수 있는 위치에 있으며, 엔비디아의 랙 레벨 솔루션과 비교했을 때 여러 핵심 지표에서 탁월한 기술적 우위를 보여줍니다. 이러한 엔지니어링 혁신은 단순히 칩 레벨에만 국한되지 않고 가속기 아키텍처, 네트워크 토폴로지, 광 상호 연결 기술, 소프트웨어 스택 등 시스템 레벨 전반에 걸쳐 포괄적으로 확장됩니다.

SemiAnalysis에 따르면, 화웨이의 Ascend 칩은 전혀 생소하지 않습니다. 마이크로아키텍처 설계 자체보다 시스템 전반의 중요성이 더 큰 시대에, 화웨이는 인공지능 시스템의 성능 한계를 끊임없이 넓혀가고 있습니다. 수출 통제 및 제한된 국내 생산 능력이라는 맥락에서 기술적 절충안이 존재하지만, 중국의 현재 수출 통제 체계에는 여전히 악용될 수 있는 허점이 있는 것으로 보입니다.
화웨이의 칩 기술은 경쟁사보다 한 세대 뒤처져 있지만, 확장 솔루션은 엔비디아와 AMD의 현재 시장 솔루션보다 한 세대 앞선 것으로 평가됩니다. 예를 들어, 클라우드매트릭스 384(CM384)는 완전 연결 토폴로지를 통해 상호 연결된 384개의 Ascend 910C 칩으로 구성되어 있습니다. 이 솔루션의 설계 철학은 명확합니다. XNUMX배 더 많은 Ascend 칩을 통합함으로써 단일 GPU 성능이 엔비디아 블랙웰 시리즈의 XNUMX분의 XNUMX에 불과하다는 사실을 효과적으로 보완합니다.

전체 CloudMatrix 시스템은 16페타플롭의 집중적인 BF300 컴퓨팅 성능을 제공할 수 있으며, 이는 GB200 NVL72의 거의 두 배에 달합니다. 총 메모리 용량이 3.6배 이상, 메모리 대역폭이 2.1배 증가함에 따라 Huawei, 그리고 나아가 중국은 이제 Nvidia가 제공하는 것보다 뛰어난 AI 시스템을 구축할 수 있는 역량을 갖추게 되었습니다.
더욱이 CM384는 국내 네트워크 생산 역량, 네트워크 장애 완화를 위해 설계된 인프라 소프트웨어, 그리고 제조 수율 향상을 통한 대규모 애플리케이션으로의 확장 가능성 등 중국이 뚜렷한 우위를 점하고 있는 분야와 특히 잘 부합합니다. 그러나 이 솔루션에도 단점이 없는 것은 아닙니다. 전력 소비량이 GB3.9 NVL200보다 72배 높고, FLOP당 효율은 2.3배, 메모리 대역폭 효율(TB/s당)은 1.8배, TB당 고대역폭 메모리(HBM) 용량 효율은 1.1배 감소했습니다.
이러한 에너지 효율의 부족에도 불구하고, 전력 소비 문제는 중국 경제의 중요한 제약 요인이 아닙니다. 서구는 인공지능 개발이 전력 공급에 의해 제한된다고 주장하는 반면, 중국의 상황은 정반대입니다. 지난 10년 동안 서구 국가들은 석탄 의존적인 전력 인프라를 친환경적인 천연가스 및 재생에너지원으로 전환하고 1인당 에너지 효율을 개선하기 위해 상당한 노력을 기울여 왔습니다. 하지만 중국은 생활 수준 향상과 대규모 투자 확대로 인해 전력 수요 급증에 직면해 있습니다.

중국의 에너지 시스템은 전통적으로 석탄에 크게 의존해 왔지만, 현재 태양광, 수력, 풍력 발전 설비 용량에서 세계 1970위를 달리고 있으며, 원자력 발전에서도 선두를 달리고 있습니다. 반면 미국의 원자력 발전 용량은 2011년대 수준을 유지하고 있습니다. 간단히 말해, 미국 전력망의 업그레이드 및 확장 역량은 현저히 감소한 반면, XNUMX년 이후 중국에 도입된 추가 전력망 용량은 미국 전력망 전체 규모와 맞먹는 수준입니다.
전기가 비교적 풍부하고 에너지 소비 제약이 덜 중요한 상황에서는, 특히 광 상호 연결 기술과 같은 첨단 기술을 설계에 통합할 때, 엄격한 전력 밀도 요건을 포기하고 광범위한 확장을 선택하는 것이 합리적인 엔지니어링 결정이 됩니다. 실제로 CM384의 설계는 랙을 넘어서는 시스템 수준의 제약까지 고려하고 있습니다. 중국의 AI 야망에 대한 제약은 전력 공급 문제만으로 결정되는 것이 아니라고 생각합니다. 화웨이 솔루션은 지속적이고 확장 가능한 확장을 위한 다양한 방안을 지속적으로 제시하고 있습니다.
화웨이 910C 칩이 전적으로 중국 내에서 생산된다는 것은 흔한 오해입니다. 설계 과정은 전적으로 중국 내에서 진행되지만, 실제 생산은 여전히 해외에 크게 의존하고 있습니다. 삼성의 고대역폭 메모리(HBM)든, 미국, 네덜란드, 일본 등에서 생산되는 장비든, 생산 과정은 여전히 글로벌 공급망에 크게 의존하고 있습니다.
화웨이'HBM 조달 경로
중국의 최첨단 기술 분야에서 외부 자원에 대한 의존도는 문제의 일부에 불과합니다. 고대역폭 메모리(HBM)에 대한 의존도는 훨씬 더 심각합니다. 현재 중국은 HBM의 안정적인 국내 양산을 달성하지 못하고 있으며, 창신 스토리지(CXMT)는 양산에 최소 13년 더 소요될 것으로 예상됩니다. 다행히 삼성이 중국 HBM의 핵심 공급업체로 부상하면서 화웨이는 1.6만 개의 HBM 스택을 선제적으로 비축했습니다. 이는 Ascend 910C 칩 XNUMX만 개를 패키징하기에 충분한 양입니다. 특히 이러한 비축은 HBM 수출 금지 조치 시행 이전에 이루어졌습니다.
금지된 HBM 부품이 회색 채널을 통해 중국으로 계속 유입되고 있다는 점도 주목할 만합니다. 현재의 HBM 수출 제한은 원래 HBM 패키징 제품에만 적용됩니다. HBM을 탑재한 칩은 규정된 부동 소수점 연산(FLOPS) 제한을 초과하지 않는 한 여전히 합법적으로 운송될 수 있습니다. 이와 관련하여, 삼성의 중화권 독점 유통업체인 코아시아 일렉트로닉스(CoAsia Electronics)는 ASIC 설계 서비스 회사인 패러데이(Faraday)에 HBM2E를 지속적으로 공급해 왔습니다. 패러데이는 SPIL(Siliconware Precision)을 활용하여 이러한 메모리 부품을 비용 효율적인 16nm 로직 칩과 함께 패키징합니다.
이후 패러데이는 완제품을 시스템 레벨 패키지에 담아 중국으로 배송합니다. 이러한 방식은 기술 규정을 준수하지만, HBM을 패키지에서 쉽게 분리할 수 있도록 극히 낮은 강도와 저온 솔더 범프를 설계에 적용합니다. 본질적으로 이 경우 소위 "패키징"은 느슨하게 통합되고 거의 정형화된 조립에 해당합니다.

2025년 수출 통제가 발효된 이후, CoAsia Electronics의 매출은 급격히 증가했습니다. 이는 결코 우연이 아닌 듯합니다.
중국 국내 파운드리, 성장 잠재력 유지
중국 반도체 산업은 여전히 해외 생산에 의존하고 있지만, 국내 공급망 역량은 빠르게 향상되어 오랫동안 과소평가되어 왔습니다. 당사는 SMIC(Semiconductor Manufacturing International Corporation)와 CXMT(ChangXin Memory Technologies)의 제조 역량을 지속적으로 면밀히 모니터링하고 있습니다. 수율 및 생산 능력과 관련된 지속적인 어려움에도 불구하고, 중국 GPU의 확장 가능한 생산을 향한 장기적인 발전 방향은 여전히 주목할 만합니다.

제재의 압력에도 불구하고 SMIC와 CXMT는 수백억 달러 상당의 제조 장비를 확보하는 동시에, 독점적으로 조달되는 화학 물질과 재료를 상당량 해외에서 수입하고 있습니다. 예를 들어 SMIC는 상하이, 선전, 베이징에서 첨단 공정 용량을 확장하고 있습니다. 올해 월 웨이퍼 생산량은 50,000만 개에 육박할 것으로 예상되며, 지속적인 해외 장비 도입과 제재의 완화된 집행이 이러한 지속적인 확장을 더욱 가속화하고 있습니다. 수율이 개선된다면 Ascend 910C 칩의 패키징 용량은 상당한 수준에 도달할 수 있습니다.
TSMC는 이미 2.9~2024년 생산을 위해 2025만 장의 웨이퍼를 할당했습니다. 이는 약 800,000만 개의 Ascend 910B 칩과 1.05만 개의 Ascend 910C 칩을 생산할 수 있는 용량입니다. 하지만 고대역폭 메모리(HBM), 웨이퍼 제조 장비, 장비 유지 관리 리소스, 필수 화학 물질(예: 포토레지스트)이 효과적으로 규제되지 않는다면 SMIC가 폭발적인 용량 증가를 경험할 가능성이 있습니다.
CloudMatrix 384 시스템 아키텍처
다음 분석에서는 CloudMatrix 384 시스템의 아키텍처 설계를 심층적으로 살펴보고, 수직 및 수평 확장 네트워크, 전력 소비 예산, 전반적인 비용 구조를 살펴봅니다.
전체 CloudMatrix 시스템은 16개의 랙에 분산되어 있습니다. 이 중 12개의 컴퓨팅 랙에는 각각 32개의 GPU가 장착되어 있으며, 중앙에 위치한 XNUMX개의 추가 랙은 수직 확장 스위치 랙 역할을 합니다. 하이퍼스케일 클러스터를 구축하기 위해 Huawei는 광통신 기술을 통합하는 크로스 랙 수직 확장 방식을 채택했습니다. 이 전략은 수백 개의 GPU를 완벽하게 상호 연결할 수 있지만, 상당한 기술적 과제를 안고 있습니다.

DGX H100 NVL256 "Ranger"와의 유사성
엔비디아는 2022년 초 DGX H100 NVL256 "레인저" 플랫폼을 출시했지만, 이 시스템은 양산되지 못했습니다. 과도한 비용, 과도한 전력 소비, 그리고 과도한 광 트랜시버 요구 사항과 이중 계층 네트워크 아키텍처로 인한 내재적인 안정성 문제 때문이었습니다. 이와 대조적으로, 화웨이 클라우드매트릭스 팟(Huawei CloudMatrix Pod)은 더욱 극단적인 접근 방식을 취합니다. 네트워크 설계에는 6,912개의 400G 선형 플러그형 광(LPO) 모듈이 필요하며, 이 중 대부분은 수직 확장 네트워크 상호연결을 용이하게 합니다.

CloudMatrix 384 수직 확장 토폴로지 평가
이 섹션에서는 384개 칩에 걸쳐 구축된 Huawei의 수직 확장 랙 아키텍처에 대한 심층적인 평가를 제공합니다. 이 아키텍처는 NVLink와 경쟁할 수 있는 설계입니다. 분석에서는 수직 및 수평 확장 네트워크, 시스템 전력 소비에 대한 포괄적인 분석, 그리고 광 모듈의 대규모 적용(및 이에 따른 구리 케이블 부재)이 전반적인 성능과 비용에 미치는 영향을 다룹니다. 특히, Huawei의 광범위한 LPO 모듈 구축과 관련된 비용 문제도 다룹니다.
핵심 매개 변수
각 Huawei Ascend 910C GPU는 2,800Gbit/s의 단방향 수직 확장 대역폭을 제공하는데, 이는 GPU당 Nvidia의 GB7,200 NVL200가 제공하는 72Gb/s 수직 확장 대역폭과 비슷한 수준입니다. Nvidia NVL72가 고밀도 직접 구리 케이블을 통해 수직 네트워크 상호 연결을 구현하는 반면, Huawei는 XNUMX개의 400G 광 트랜시버 GPU당 스택 구성으로 2,800Gbit/s 수치에 도달합니다.
그러나 이 전략은 전력 소비가 크게 증가하여 비용이 더 많이 들고, 공기 흐름 관리 및 설치 및 유지 보수의 용이성과 관련된 과제를 안고 있습니다. 이러한 어려움에도 불구하고, 이 접근 방식은 시스템의 기능적 목표를 성공적으로 달성합니다. 수직 확장 네트워크 자체는 단일 계층 아키텍처를 사용하여 평평한 단일 계층 토폴로지로 배치된 16,800개의 모듈형 스위치를 통해 모든 GPU를 상호 연결합니다. 이 스위치는 Huawei의 독점 라인 카드와 스위칭 매트릭스 플레인을 활용하며, Arista 모듈형 스위치에 탑재된 Ramon3 스위칭 매트릭스 카드와 결합된 Broadcom의 Jericho3 라인 카드와 유사한 셀 분사 메커니즘을 사용합니다.

수직 광 상호 연결 확장 및 구리 없는 설계
수직 확장을 위해 5,000개의 광 모듈을 배치하면 신뢰성 문제가 발생할 수 있습니다. 이를 완화하려면 이처럼 대규모 광 모듈 배치로 인해 발생할 수 있는 잠재적 장애를 해결할 수 있는 고품질 내결함성 교육 소프트웨어가 필요합니다.
각 CloudMatrix 384 Pod에는 총 6,912개의 400G 광 모듈/트랜시버가 장착되어 있습니다. 이 중 5,376개는 수직 확장 네트워크에, 나머지 1,536개는 수평 확장 네트워크에 할당됩니다.
단일 Pod에는 384개의 Ascend 910C 칩이 포함되어 있으며, 각 칩은 수직 확장 통신을 위해 2.8Tbps의 상호 연결 대역폭을 제공합니다. 따라서 각 칩에는 400개의 384G 트랜시버가 필요하며, 이는 Pod당 7개의 GPU × 2,688 = 2,688개의 트랜시버가 필요하다는 것을 의미합니다. 단일 계층 플랫 토폴로지를 고려할 때, 스위치 측은 이 구성을 5,376개의 트랜시버로 미러링해야 하며, 결과적으로 수직 확장 네트워크에서 총 400개의 XNUMXG 트랜시버를 사용하게 됩니다.
개당 400달러 미만이고 모듈당 약 200W를 소모하는 6.5G 선형 플러그형 광(LPO) 트랜시버를 사용할 경우, 슈퍼노드 수직 확장 네트워크의 총소유비용(TCO)은 NVL72 랙의 약 72배, 전력 소비량은 NVL72의 30배를 초과합니다. GPU 기준으로도 전력 소비량은 NVL72의 두 배이고 비용도 비교적 유사하지만, 연산 성능은 NVLXNUMX의 XNUMX%에 불과합니다.

CloudMatrix 384 수평 확장 토폴로지 평가
CloudMatrix 384는 듀얼 레이어 8트랙 최적화 토폴로지를 채택합니다. 수평 확장을 위한 각 CloudEngine 모듈형 스위치에는 768개의 400G 포트가 장착되어 있으며, 이 중 384개는 384개의 GPU에 하향 연결되고 나머지 384개 포트는 상향 연결용으로 예약되어 있습니다. 각 Pod에는 384개의 GPU(각각 400G 네트워크 인터페이스 카드 장착)가 포함되어 있으므로, 0.5개의 스파인 스위치 외에 추가 리프 스위치가 필요합니다.

이 네트워크의 트랜시버 계산은 간단합니다.
- GPU 측: 384개의 400G 트랜시버가 필요합니다(GPU당 XNUMX개).
- 리프 계층: 포트의 절반은 상향 연결(GPU를 스파인 계층과 연결)에 사용되므로 필요한 트랜시버 수는 두 배가 되어야 합니다.
- 총계: 따라서 수평 확장 네트워크에는 384 × 4 = 1,536개의 400G 트랜시버가 필요합니다.
LPO 트랜시버
화웨이가 제안한 전체 클러스터 전력 소비 절감 방안 중 하나는 광 전송용 선형 플러그 가능 광(LPO) 모듈 채택입니다. LPO 모듈은 내부 디지털 신호 프로세서(DSP) 없이 광 신호를 통해 직접 데이터를 전송하도록 설계되었습니다. 아날로그 신호를 디지털로 변환한 후 타이밍 교정/복구 과정을 거친 후 다시 아날로그로 변환하는 기존 트랜시버와 달리, LPO 모듈은 호스트에서 광 장치로 전기 신호를 직접 선형 전송합니다. 이러한 설계는 모듈의 내부 아키텍처를 단순화하여 전력 소비와 비용을 30% 이상 절감합니다. 그러나 여전히 많은 수의 트랜시버가 필요하기 때문에 CM384 클러스터의 전체 전력 소비는 NVL72에 비해 상당히 높습니다.
칩 레벨
화웨이의 Ascend 910B와 910C 가속기는 중국산 GPU의 정점을 보여줍니다. 특정 기술적 제약에도 불구하고 뛰어난 성능을 유지합니다. 그러나 칩 수준에서는 아직 동급 엔비디아 제품에 미치지 못합니다.

Ascend 910C는 910B의 후속작으로, 두 개의 910B 칩의 인터포저 레이어를 단일 기판에 통합했습니다. 이러한 통합을 통해 단일 칩 컴퓨팅 성능과 메모리 대역폭이 두 배로 향상되었습니다.

시스템 수준 전력 소비량 추정
수직 및 수평 확장 네트워크 모두에 광 트랜시버가 광범위하게 배치되어 있기 때문에 384개의 GPU를 포함하는 클러스터의 전력 소비량은 매우 높습니다. 단일 CM384 슈퍼노드는 약 500kW의 전력을 소비하는 것으로 추산되며, 이는 NVIDIA GB145 NVL200 랙의 약 72kW보다 XNUMX배 이상 높습니다.

단일 GPU 에너지 효율 비교
개별 GPU 기준으로 Huawei GPU의 전체 전력 소비량은 NVIDIA NVL70 B80 GPU의 약 72~200%입니다. 전반적인 슈퍼노드 성능 측면에서 Huawei 솔루션은 NVL70 대비 72% 더 높은 초당 부동 소수점 연산(FLOPS)을 제공합니다. 그러나 이러한 아키텍처 설계는 다음과 같은 에너지 효율 측면에서 단점을 야기합니다.
- FLOP당 전력 소모량: 2.3배 더 높음
- 메모리 대역폭 TB/s당 전력 소비: 1.8배 더 높음
- HBM 메모리 용량 1.1TB당 전력 소비량: XNUMX배 더 높음.

이러한 추가 지출과 높은 전력 소비는 중국이 서구의 컴퓨팅 성능 수준에 대응하기 위해 감수해야 하는 비용입니다. 중국의 풍부한 에너지 매장량과 이러한 프로젝트에서 국가 안보의 중요성을 고려할 때, 이러한 비용은 비교적 감당할 수 있는 수준으로 간주됩니다. 중국의 에너지 우위는 데이터 센터의 규모와 속도 확장을 가능하게 하는 중요한 자산으로 작용할 가능성이 높습니다.
관련 상품:
-
OSFP-400G-SR8 400G SR8 OSFP PAM4 850nm MTP/MPO-16 100m OM3 MMF FEC 광 트랜시버 모듈 $225.00
-
OSFP-400G-DR4 400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
-
OSFP-400G-PSM8 400G PSM8 OSFP PAM4 1550nm MTP/MPO-16 300m SMF FEC 광 트랜시버 모듈 $1000.00
-
OSFP-400G-SR4-FLT 400G OSFP SR4 플랫 탑 PAM4 850nm OM30 MTP/MPO-3 다중 모드 FEC 광 트랜시버 모듈의 OM50/4m에서 12m $550.00
-
OSFP-400G-DR4-FLT 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $700.00
-
QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 광 트랜시버 모듈 $450.00
-
QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310nm 500m MTP/MPO-12(KP4 FEC 광 트랜시버 모듈 포함) $650.00
-
QSFP112-400G-FR1 4x100G QSFP112 FR1 PAM4 1310nm 2km MTP/MPO-12 SMF FEC 광 트랜시버 모듈 $1200.00
-
NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $550.00
-
NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $700.00
-
NVIDIA MMA1Z00-NS400 호환 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 광 트랜시버 모듈 $550.00
-
NVIDIA MMS1Z00-NS400 호환 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12(FEC 광 트랜시버 모듈 포함) $700.00