살펴보기
작년에는 기존 클라우드 컴퓨팅과 AI 주문을 NVIDIA가 흡수하면서 범용 컴퓨팅 지출이 감소함에 따라 AEC는 고속 상호연결 수요의 혜택을 충분히 누리지 못해 시장이 상대적으로 침체되었습니다.
올해 하반기부터 클라우드 서비스 제공업체가 AI 네트워크 구축을 자체적으로 제어하기 시작하고 자체 개발한 칩 컴퓨팅 성능의 구축이 늘어나면서 AEC의 장점(중거리~고거리 전송, 제어 가능한 오류율, 비용 효율성)이 더 많은 고객에게 인정을 받아 상당한 성장으로 이어졌습니다.
AWS와 X.AI와 같은 주요 수요자들은 이제 캐비닛 내부와 캐비닛 간의 고속 상호 연결을 위해 대규모로 AEC를 구축하고 있습니다. Microsoft, Google, 중국 기업(Alibaba, ByteDance 등)과 같은 회사도 AEC를 채택하기 시작했습니다.
향후 1~2년 동안 AEC 시장은 양과 가격 간의 균형을 경험할 것으로 예상됩니다. 즉, 양이 빠르게 두 배로 늘어나고 가격은 점진적으로 하락할 것입니다. 전체 시장 공간은 꾸준히 확대될 것이며 경쟁 환경은 더욱 다양해질 것입니다.
지난 1년 반 동안 AEC 시장 변화
작년 200월과 XNUMX월경, NVIDIA가 GBXNUMX을 출시했을 때 FiberMall과 같은 회사를 포함하여 AEC(Active Electrical Cable) 연결을 사용하는 것에 대한 논의가 있었습니다. 그 당시 Microsoft는 FiberMall의 첫 번째 AEC 배치에 크게 만족하지 않았기 때문에 대량 주문이 이루어지지 않았습니다. 업계에서는 일반적으로 AEC가 거리와 오류율 측면에서 데이터 센터 요구 사항을 충족하는 데 어려움이 있다고 생각했습니다. 그렇다면 왜 이 기술이 XNUMX년 반 후에 갑자기 인기를 얻었고 Amazon과 같은 대기업이 이제 주문을 하고 있을까요?
AEC가 다시 인기를 얻은 이유
이전에 NVIDIA의 솔루션은 구리 케이블을 사용했습니다. GH200 시스템에서 첫 번째 계층은 "카트리지"라고 하는 것을 사용하여 첫 번째 계층 스위치와 상호 연결된 XNUMX개의 카드로 구성되며, 이는 본질적으로 구리 케이블 묶음입니다. 과거에 NVIDIA는 AEC를 사용하지 않고 수동 구리 케이블(DAC)을 사용했습니다.
그러나 기존 클라우드 컴퓨팅 네트워크는 이전에 FiberMall의 AEC를 사용했습니다. 작년 2월과 3월경, 기존 클라우드 컴퓨팅 사업이 AI 투자로 인해 압박을 받아 많은 주문이 취소되거나 연기되면서 Microsoft에서 많은 AEC 주문을 줄였습니다.
당시 AEC는 주로 범용 컴퓨팅 데이터 센터에서 중저속 속도에 사용되었습니다. 기존 클라우드 컴퓨팅은 재고와 자본 지출을 줄여 자금을 AI 관련 프로젝트로 전환했습니다. 작년은 AEC에 유리하지 않았습니다. AI의 성장이 NVIDIA(GPU+상호 연결 솔루션)에 의해 통합되고 패키징되어 AEC를 위한 자리 없이 클라우드 컴퓨팅 공급업체에 판매되었기 때문입니다. NVIDIA는 멀티모드 광 모듈과 함께 DAC(Direct Attach Copper) 및 AOC(Active Optical Cables)를 사용했습니다.
올해 하반기부터 더 많은 고객(클라우드 제공업체)이 NVIDIA의 패키지 솔루션에 전적으로 의존하지 않고 자체적으로 AI 네트워크를 구축하기 시작했습니다. 그 결과 AEC는 수요가 급증했으며, 특히 AWS의 눈에 띄는 주문이 있었습니다.
NVIDIA가 상호 연결을 위해 AEC를 선택하지 않고 ACC를 고집하는 이유는 무엇입니까?
NVIDIA는 AEC보다 Active Copper Cables(ACC)를 선호하는 듯합니다. 하지만 왜 그럴까요?
지연 시간 고려 사항
AEC는 신호 리타이밍을 위해 Retimer 칩이 필요한 반면, ACC는 더 간단한 Redriver 증폭을 활용하여 지연 시간을 줄입니다. NVIDIA는 지연 시간을 우선시하므로 ACC가 더 매력적인 옵션입니다.
고밀도 배포
NVIDIA의 GPU는 랙 내의 카드 간 거리가 짧고 계산 밀도가 높습니다. 지연 시간이 짧은 ACC는 이 환경에 적합합니다. AEC의 장점은 더 긴 거리(5~7m)를 지원하는 데 있으며, NVIDIA보다 계산 밀도가 낮은 칩 클러스터에 적합합니다. 예를 들어, 더 긴 거리에 걸쳐 많은 카드를 상호 연결하기 위해 AEC가 필요한 AWS의 Trainium2가 있습니다.
비용 차이
NVIDIA는 ACC와 AEC의 비용 차이가 최소라고 생각합니다. ACC가 약간 더 저렴할 수 있지만, 더 낮은 지연 시간은 NVIDIA의 제품 포지셔닝과 더 잘 맞습니다. 클라우드 서비스 제공자의 관점에서 볼 때, AEC는 더 긴 거리와 더 낮은 밀도의 구조에 선택될 것입니다.
다양한 제조업체의 AEC 수요 증가
AWS(트레이니엄2)
AWS는 매년 약 1.5만 개의 카드를 조달하는데, 대부분은 AEC를 사용하여 상호 연결됩니다. NVIDIA의 H2보다 연산 능력이 낮은 Trainium100는 400G AEC(800G 대신)로 작동할 수 있습니다. 올해 말까지 Trainium3이 출시될 가능성이 있으므로 800G AEC에 대한 수요가 증가할 수 있습니다. 현재 FiberMall만으로는 AWS의 수요를 충족할 수 없으며 AEC 생산 용량을 적극적으로 확장하고 있습니다.
Microsoft
역사적으로 Microsoft의 AEC 조달은 주로 범용 데이터 센터에서 사용하기 위해 안정적이었습니다. AEC에 대한 AI 관련 수요는 아직 극적으로 급증하지 않았습니다. Microsoft는 이제 AEC를 사용하여 AI 네트워크를 구축하기 시작했지만 성장률은 AWS보다 느립니다.
기타 제조사
X.AI는 최근 AEC에 대한 상당한 수요를 보였으며, 내년에 Microsoft의 성장률을 앞지를 가능성이 있습니다. 그들은 NVIDIA 카드를 많이 구매하지만 1차 계층 상호 연결에는 AEC와 같은 비용 효율적인 솔루션을 선호합니다. Google의 TPU 상호 연결(ICI)은 현재 수동 구리 케이블(DAC)을 사용하지만 속도가 증가함에 따라 AEC로 전환할 수 있습니다. 중국에서는 Alibaba와 ByteDance와 같은 회사도 AEC를 고려하거나 채택을 시작했습니다.
AEC와 광 모듈의 관계: 대체적이거나 보완적?
계층 구조
AI 네트워크에서 상호 연결은 다음과 같이 계층화될 수 있습니다.
GPU/가속기 카드 ↔ 랙 상단(ToR) 스위치
ToR ↔ 상위 레벨 스위치
첫 번째 계층(랙 내부)의 경우 거리가 짧으므로 구리 케이블, AEC, ACC, DAC, AOC와 같은 다양한 케이블링 옵션이 실행 가능합니다. 광 모듈은 일반적으로 더 긴 크로스 랙 거리에 사용됩니다.
제한된 대체 효과
수동 구리 케이블(DAC)에서 AEC로 전환해도 광 모듈에는 영향이 없습니다. 그러나 AEC는 AOC(단거리 액티브 광 케이블) 또는 멀티모드 광 모듈을 부분적으로 대체할 수 있지만 NVIDIA와 같은 제조업체는 광 솔루션을 완전히 포기할 가능성이 낮습니다.
전반적으로 AEC가 AOC 또는 멀티모드 광 모듈에서 일부 시장 점유율을 차지할 수 있지만, 그 정도는 케이블 요구 사항, 지연 시간, 비용 및 유지 관리 고려 사항과 같은 요인에 따라 달라집니다. 다양한 제조업체의 구체적인 설계 세부 정보 없이는 정확한 예측이 어렵습니다. 현재 주문 정보에 따르면 AEC는 광 모듈 점유율에 큰 영향을 미치지 않을 것으로 보입니다.
AEC 시장 규모 및 전망
성장률
올해의 AEC 시장은 300억 달러 미만으로 평가되고 있으며, 내년에는 약 600억 달러로 두 배로 증가할 것으로 예상됩니다. 출하량은 올해의 1~2만 대에서 내년에는 5만 대로 증가할 수 있으며, 가격 하락도 동반될 것입니다.
가격 동향
현재 400G AEC는 약 150달러이고, 800G AEC는 약 250달러입니다. 더 많은 제조업체가 시장에 진입함에 따라 경쟁으로 인해 가격이 연간 약 20% 하락할 것입니다. 중국 제조업체의 진입은 이익 마진에 더 큰 압박을 가하여 전반적인 가격 인하로 이어질 것입니다.
고객 분석
- AWS: 올해 말과 내년에 2만 대 이상을 판매하여 성장에 가장 크게 기여할 것으로 예상됩니다.
- Microsoft: 주로 클라우드 컴퓨팅과 일부 AI 네트워크 분야에서 점진적인 성장이 꾸준히 유지되고 있습니다.
- X.AI: 급속한 성장을 경험하고 있으며, 연간 800,000만~900,000만 대가 필요할 것으로 예상됨.
- Google/NVIDIA: 사소한 업그레이드만 계획되어 있습니다.
- 중국의 알리바바, 바이트댄스 등: 도입이 점진적으로 늘어나며 전반적인 상승 추세에 기여하고 있습니다.
사례 연구: X.AI와 GB200/B300의 상호 연결
X.AI는 NVIDIA에서 수많은 GB200 또는 B300 칩을 구매했습니다. 그러나 NVIDIA는 내부 72카드 상호 연결에 AEC가 아닌 수동 구리 케이블 또는 ACC를 사용합니다. 그렇다면 X.AI는 어디에서 AEC를 사용할까요?
GPU 랙(72개 카드) 내에서 카드와 ToR(Top-of-Rack) 스위치 간의 연결에는 수 미터에서 5미터가 넘는 케이블 길이가 필요합니다. AEC는 5-7미터 길이를 지원할 수 있습니다. 구리 케이블을 구부리고 감아야 하는 고밀도 대형 캐비닛의 경우 3-5미터 이상의 길이가 필요한 경우가 많습니다. ACC 또는 DAC가 요구 사항을 충족하지 못하거나 오류율이 높아지면 AEC가 필요합니다. 캐비닛 상단에서 다른 스위치로의 링크에는 광 모듈을 사용할 수 있습니다. 따라서 AEC는 캐비닛 내부에서 ToR 스위치로의 연결에 사용됩니다.
Google TPU 상호 연결
Google의 TPU 클러스터에서는 64개의 칩이 "큐브"(캐비닛과 유사)를 형성하고, 내부 상호 연결은 ICI를 사용합니다. 현재는 수동 구리 케이블이 주로 사용됩니다.
DAC의 현재 사용
Google TPU v6의 경우, 64개 칩으로 구성된 단일 캐비닛 내에서 ICI 상호 연결은 대부분 DAC입니다.
AEC에 대한 잠재적 업그레이드
속도가 더욱 빨라질수록 DAC의 거리와 오류율이 떨어질 수 있으며, 이로 인해 전송 품질을 보장하기 위해 AEC와 같은 능동적 솔루션이 필요하게 됩니다.
광 모듈에 미치는 영향은 제한적
캐비닛 내부의 연결은 장거리가 아니므로 이는 광 모듈의 주요 전장이 아닙니다. 캐비닛 간 연결에는 일반적으로 광 모듈이나 OCS가 필요합니다.
광모듈에 대한 AEC 대체율
AEC가 널리 사용되면 광 모듈 주문이 크게 줄어들까요?
전반적으로 영향은 제한적입니다. 광 모듈은 주로 크로스 캐비닛, 장거리 시나리오에 사용됩니다. 첫 번째 계층 또는 일부 단거리 상호 연결의 경우 DAC, AOC 또는 AEC 중에서 선택할 수 있습니다. 동일한 데이터 센터 내에서도 고객은 다양한 솔루션을 혼합하여 사용할 수 있습니다. AEC는 AOC 또는 광 모듈을 완전히 대체하지 않습니다. 특정 대체 비율은 고객 토폴로지 설계, 가격, 유지 관리 비용 및 지연 요구 사항과 같은 요인에 따라 달라집니다.
중국 제조업체의 AEC 채택
ByteDance와 Alibaba가 AEC를 채택하기 시작할까요? 그리고 어떤 칩에 사용될까요?
ByteDance
ByteDance는 Cambricon과 NVIDIA를 포함한 여러 공급업체로부터 칩을 구매하고 있으며, 여러 카드가 병렬로 배열되어 있습니다. 여러 공급업체는 또한 구리 케이블 솔루션을 제공합니다. Cambricon의 경우 Broadex Technologies와 같은 회사가 AEC와 AOC를 제공하고 있습니다.
알리바바
알리바바는 400G AEC를 도입하기 시작했으며, 공급망이 수요를 충족시킬 수 있는 용량에 따라 수만 대 이상에 도달할 가능성이 있습니다.
가격 추정 및 전망
내년에 AEC 물량이 2~3배 증가할 것으로 예상됨에 따라 가격이 하락할 가능성이 있습니다.
전반적인 볼륨이 빠르게 증가하는 반면, 단위 가격은 어느 정도 하락할 가능성이 높습니다. 올해 시장은 약 200억~300억 달러이며, 내년에는 600억 달러에 도달할 가능성이 있고, 그 이후 몇 년 동안도 높은 성장이 지속될 것입니다. 더 많은 제조업체가 경쟁에 참여함에 따라 가격은 계속 하락하고 시장 구조는 재편될 것입니다.