LightCounting은 최근 세미나에서 광 트랜시버 모듈과 광 회로 스위치(OCS)의 출하량이 향후 100년 동안 폭발적으로 증가할 것으로 전망했습니다. 이 성장은 가끔 둔화될 수 있지만 그 후 빠르게 회복될 것으로 예상됩니다. 현재 AI 클러스터 광 모듈의 연간 출하량은 수천만 대에 달하며 2029년까지 약 10,000억 대로 증가할 것으로 예상됩니다. 2023년에 50,000대에 도달한 OCS 출하량은 2029년까지 XNUMX대를 넘어설 것으로 예상됩니다.

10년 전, Google은 컴퓨팅 노드와 AI 클러스터에서 OCS를 사용하기 시작했습니다. 이 회사는 최근 여러 보고서에서 OCS를 지원하는 아키텍처의 이점을 강조했습니다. Nvidia와 Microsoft를 포함한 다른 주요 AI 클러스터 공급업체도 OCS를 사용하기 시작했으며, 많은 추가 운영자가 이를 따르는 이점을 심각하게 고려하고 있습니다.
OCS에 대한 수요는 의심할 여지 없이 강할 것이며, 미래에는 더 복잡한 광 스위칭 애플리케이션이 예상됩니다. 패킷 스위칭은 광 버퍼링에 대한 실용적인 솔루션이 부족하여 과제를 제시하지만, 대량의 데이터 흐름은 광으로 라우팅할 수 있습니다.
2007년 구글은 데이터 센터에서 광 트랜시버를 사용한 최초의 회사였습니다. 2008-2009년 금융 위기로 인해 잠시 중단되었지만, 회사는 2010년에 이 기술을 완전히 다시 도입했습니다. 지난 400년 동안 많은 다른 클라우드 컴퓨팅 회사가 구글의 리드를 따랐습니다. 엔비디아(멜라녹스)는 800년 전까지 액티브 광 케이블(AOC)을 선호했지만 2023년에는 XNUMXG/XNUMXG 트랜시버의 가장 큰 소비자가 되었습니다.
Nvidia는 이제 서버와 스위치 간의 이더넷 및 InfiniBand 연결에 광 트랜시버를 사용합니다. 이 회사는 2년 전에 NVLink 연결에 광 장치를 사용할 계획을 발표했으며 이를 내부적으로 구축한 클러스터 중 하나에서 시연했습니다. NVLink 연결에 필요한 대역폭은 InfiniBand의 9배이므로 이 새로운 애플리케이션에 필수적인 광 장치의 비용 및 전력 소비 감소를 가능하게 합니다.
아래 그림에서 보듯이 Google과 Nvidia의 AI 클러스터 아키텍처를 비교합니다. Google의 TPU 클러스터는 이더넷이나 InfiniBand 스위치가 필요하지 않지만 OCS를 사용합니다. 각 TPU는 가장 가까운 6개의 이웃과 직접 통신할 수 있으며 OCS는 이러한 긴밀하게 연결된 네트워크를 확장하고 재구성할 수 있습니다. 반면 Nvidia의 디자인은 InfiniBand, 이더넷 및 NVLink 스위치에 크게 의존하여 Google의 디자인보다 더 많은 광 연결이 필요합니다.

그림에서 보듯이 Google과 Nvidia의 AI 클러스터 아키텍처의 차이로 인해 광 상호 연결에 대한 우선순위가 다양합니다. Google은 광 회로 스위치(OCS)를 활용하고 더 높은 링크 예산을 우선시하여 OCS의 1.5dB 광 손실을 상쇄합니다. 반면, 다중 파장 FR4/FR8 트랜시버는 DR4/DR8 모듈에 비해 OCS 처리량을 XNUMX~XNUMX배 증가시킵니다.

반면, 엔비디아는 클러스터에 필요한 많은 수의 트랜시버를 수용하기 위해 비용과 전력 절감을 우선시합니다. 이 회사는 선형 드라이브 플러그형 광학(LPO)과 공동 패키지형 광학(CPO)을 강력히 지지합니다. 구글은 LPO나 CPO에 덜 관심이 있는데, TPU당 평균 1.5개의 트랜시버만 사용하는 디자인을 계속 사용하고 있기 때문입니다. 앞으로 엔비디아는 NVLink over fiber를 지원하기 위해 GPU당 최대 10개의 트랜시버가 필요할 수 있습니다.
LightCounting은 Nvidia가 향후 2~3년 내에 LPO 및/또는 CPO를 배포하여 전력 소비를 10~15pJ/비트에서 4~7pJ/비트로 줄여 그림에서와 같이 파이버를 통한 NVLink를 달성할 것으로 예측합니다. Google은 이미 TPU 간의 코어 간 상호 연결(ICI)에 광학 장치를 사용했습니다.

성능 확장 과제
AI 클러스터 내의 모든 구성 요소의 안정성은 이러한 시스템을 확장하는 데 중요합니다. 단일 GPU 또는 네트워크 링크 장애는 전체 클러스터의 효율성을 40%까지 낮출 수 있으며, 이러한 장애를 완화하는 데(소프트웨어를 통해) 최대 10분이 걸릴 수 있습니다. 이러한 장애는 평균 30~45분마다 발생하며, 더 복잡한 GPU와 광학 장치가 있는 대규모 클러스터에서 악화됩니다.

그림(출처: Meta)은 200G FR4 및 400G FR4 모듈에 대한 트랜시버 고장 분석 데이터를 보여줍니다. 직접 변조된 레이저 열화는 200G 모듈 고장의 주요 원인입니다. 외부 변조 레이저를 사용하는 문제점 400G 트랜시버 PCB 조립 및 와이어 본딩과 관련된 일반적인 제조 문제보다 적습니다. 더욱 통합된 웨이퍼 레벨 설계 및 제조는 광학 장치 신뢰성을 개선하는 데 필수적입니다.
202년 말까지 GPU 성능은 CMOS, 기판 및 패키징 방법, 칩 아키텍처, 더 나은 냉각 기술의 조합을 통해 크게 향상될 것으로 예상됩니다. 이러한 초대형 칩 구성 요소의 열 발산을 관리하는 것은 많은 과제 중 하나이며, AI 클러스터에 사용되는 모든 기술에 에너지 효율성이 중요합니다. CMOS는 향후 5년 내에 3nm에서 2nm, XNUMXnm로 이동하는 배포를 위해 설정되었지만, 광 상호 연결은 여전히 에너지 효율성을 향상시킬 방법을 모색하고 있습니다.
LightCounting은 향후 5년 내에 플러그형 트랜시버(LPO) 또는 CPO로 선형 구동 광학 장치가 대규모로 배치될 것으로 예상합니다. 이 산업은 전력 효율성을 더욱 개선하기 위해 새로운 소재와 장비가 필요할 것입니다. 일부 신기술은 출시되기까지 최대 10년이 걸릴 수 있지만 일부는 향후 5년 내에 채택될 것입니다. 이는 고객이 더 큰 위험을 감수할 의향이 있는 군비 경쟁입니다.