구글의 TPU 클러스터가 AI 슈퍼컴퓨팅 경쟁에서 두각을 나타내는 이유는 무엇일까요? 3D 토러스 토폴로지와 OCS(광 회로 스위칭) 기술의 조합이 어떻게 낮은 지연 시간과 최적의 총소유비용(TCO)을 유지하면서 대규모 확장을 가능하게 했을까요?
이 심층 블로그 게시물에서는 Google의 TPU 지능형 컴퓨팅 클러스터의 진화를 자세히 살펴보고, 3D 토러스 토폴로지와 OCS 기술의 시너지 효과에 초점을 맞춥니다. 가장 작은 토폴로지 단위인 4x4x4 큐브부터 시작하여 TPUv4 4096 Pod의 표준 3D 토러스와 TPUv7 9216 Pod의 트위스티드 3D 토러스를 재구성합니다. 이를 TPUv5e/v6e의 비용 효율적인 2D 토러스 메시와 비교하고, Google이 수만 개의 칩 규모에서 어떻게 결정론적인 저지연을 달성하는지 살펴봅니다. AWS와 NVIDIA의 접근 방식과 비교하고, "칩 수준의 광 방출 및 완전 광학 직접 연결"을 가능하게 하는 CPO(Co-Packaged Optics)와 같은 미래 트렌드를 전망합니다.
차례
전환01 서론: TPU 슈퍼노드 진화 과정 요약
이전에는 알파고에 사용된 TPUv1부터 NVIDIA의 GB200/GB300에 필적하는 OCS + ICI + 3D 토러스 기반의 TPUv7(9216칩 아이언우드 슈퍼 노드)까지의 여정을 살펴보았습니다. 또한 알리바바와 NVIDIA를 비교하며, AI 시대에 누가 진정으로 이득을 보는지, 즉 도구를 판매하는 주체와 금을 채굴하는 주체가 누구인지에 대해 논의했습니다.
이제, 48개의 OCS 유닛이 4096칩 TPUv4 Pod를 지원하는 방식에 대한 Google의 발표 논문을 바탕으로, 4096칩 TPUv4 클러스터부터 최신 9216칩 TPUv7 클러스터까지 단계별로 살펴보면서 2D/3D 토러스 + OCS 광 스위칭 + ICI 네트워크의 진화와 성숙한 상류/하류 공급망이 이를 완벽하게 보완하는 방식을 강조해 보겠습니다.
02 재단: TPUv4 및 3D 토러스/OCS 구현
4096칩 TPUv4 Pod는 구글의 OCS 광 스위칭 네트워크가 성숙 단계에 접어들어 적용된 몇 안 되는 대표적인 사례 중 하나입니다. 가장 작은 모듈부터 전체 클러스터 아키텍처까지 살펴보겠습니다.
2.1 가장 작은 위상 단위: 4×4×4 정육면체
Google TPUv4 Pod 네트워킹의 최소 토폴로지 단위는 TPU 큐브(또는 4×4×4 큐브)입니다. 물리적으로는 서버 캐비닛인 경우가 많지만, 논리적으로는 긴밀하게 통합된 전체입니다.
- 구성: 4(X) × 4(Y) × 4(Z) = 64개의 TPU 칩으로 이루어져 있으며, 마치 4차 루빅 큐브처럼 단단하게 배열되어 있습니다.
- 링크: 각 TPU 칩은 ±X, ±Y, ±Z 방향으로 6개의 ICI(칩 간 상호 연결) 고속 링크를 가지고 있어 3D 토러스 그리드 기반을 형성합니다.
2.2 단일 큐브 내 링크 레이어링 및 광-전기 경계
표준 4×4×4 큐브에서 ICI 링크는 위치와 매체를 기준으로 두 가지 범주로 나뉘어 TPU 고유의 하이브리드 광-전기 네트워크를 구성합니다.
- 내부 상호 연결(큐브 코어): 내부 링크(코어 및 노출되지 않은 면)는 짧은 PCB 백플레인과 구리 케이블을 사용하여 모든 전기 신호를 전송합니다. OCS나 광 변환은 필요하지 않습니다.
- 외부 상호 연결(큐브 표면): 6개의 외부 표면에 있는 링크만 노출되며, 동적 라우팅 및 대규모 확장을 위해 OCS에 연결된 큐브당 총 96개의 광 링크가 있습니다.


2.3 TPUv4 Pod 클러스터에서 48개의 OCS 유닛 생성
위에서 설명한 대로 각 큐브에는 64개의 칩이 있습니다. 4096개의 칩이 있는 포드의 경우: 4096 / 64 = 64개의 큐브가 필요합니다.
총 광 링크 수: 64개 큐브 × 96개 링크/큐브 = 6144개 링크.
구글의 팔로마 OCS는 일반적으로 136×136 포트이지만, 128개의 유효 포트(바이너리 정렬 + 8개의 이중화)로 설계되었습니다. 따라서 6144개의 링크 ÷ 128개의 포트/OCS = 48개의 OCS 장치가 필요합니다.
3D 토러스 구조에 엄격하게 맞추기 위해 48개의 OCS는 X/Y/Z 트래픽을 위한 세 개의 직교 그룹으로 구성됩니다. 예를 들어, X축 그룹에는 16개의 OCS가 있으며, 각 OCS는 "동일 크기 상호 연결" 원칙에 따라 모든 큐브에서 ±X 면 링크만 처리합니다. 이는 직교 격리를 보장하고 라우팅 알고리즘을 단순화하며 교착 상태를 방지합니다.
3D 토러스에서 OCS는 거대한 동적 패치 패널 역할을 하여 토러스 형상을 물리적으로 구현합니다. 노드의 X+ 인터페이스를 떠나는 데이터는 인접한 노드의 X- 인터페이스로 들어갑니다(표준 TPUv4에서는 단계 크기가 1이고, 트위스트 TPUv7에서는 가변 N입니다). 에지 노드는 OCS를 통해 서로 연결됩니다.

2.4 TPUv4 포드의 핵심: Palomar OCS 미세구조
무손실 패킷 스위치와 달리 Palomar OCS는 헤더를 읽거나 O/E 변환을 수행하지 않습니다. 순전히 물리 계층에서 "빛 반사"만 수행합니다.
내부 경로는 삽입 손실을 최소화하고 모든 유형의 연결을 가능하게 하기 위해 고전적인 "W"자 형태를 띕니다.

W 경로: 콜리메이터 > 이색성 거울 > 2D MEMS 어레이 I > 이색성 거울 > 2D MEMS 어레이 II > 이색성 거울 > 수신기 콜리메이터.
주요 구성 요소: 3D 빔 조향을 위한 이중 2D MEMS, 1310nm 파장의 신호는 통과시키고 850nm 파장의 모니터링 광은 반사하는 이색성 거울. 실시간 대역 내 유지보수 및 마이크로초 단위의 MEMS 조정을 위한 주입 + 카메라 모듈과 결합된 이러한 폐쇄 루프 정렬은 Palomar OCS 상용화의 핵심 관문입니다.
03 건축의 진화: 뒤틀린 3D 토러스와 2D 토러스
단일 칩 TDP가 600W까지 상승하고 클러스터가 9,216개 이상의 칩으로 구성됨에 따라 TPUv7(Ironwood)은 냉각 및 지연 시간 측면에서 더욱 어려운 문제에 직면하게 되었습니다. Google은 트위스트 토폴로지와 익스트림 스케일 확장이라는 두 가지 주요 개선 사항을 도입했습니다.
3.1 TPUv7 트위스티드 3D 토러스 토폴로지 및 9216칩 유도
TPUv7 Pod는 TPUv4의 4096칩에 비해 9216칩까지 확장 가능합니다. 최소 단위는 4x4x4 큐브(64칩)이며, 9216 / 64 = 144개의 큐브로 구성됩니다.
총 링크 수: 144개 큐브 × 96개 링크/큐브 = 13,824개 포트.
구글은 여전히 48개의 OCS 장치를 사용하고 있는 것으로 알려져 있습니다. (그림 4는 큐브 A가 96개의 링크를 48개의 OCS로 확장하는 것을 보여줍니다.)

이를 해결하기 위해 OCS는 144×144 포트(144개의 큐브와 일치, 실제로는 320×320일 가능성 높음)로 업그레이드되었으며, 논블로킹 통신을 위해 800G/1.6T 속도의 트위스티드 3D 토러스 링크를 사용했습니다.
토폴로지 업그레이드: 트위스티드 3D 토러스에 가변 스텝 크기 N을 도입하여 홉 수를 줄입니다. 최적의 N ≈ 차원 크기 / 2.
- 왼쪽: 표준 2D 토러스(단계=1, 순차적 홉).
- 오른쪽: 뒤틀린 2D 토러스(단계=N, OCS를 통한 "웜홀" 점프).

3D로 확장: (그림 6은 128개의 TPU 슬라이스(4x4x8) 연결을 보여줍니다. 예를 들어, 큐브 A에서 큐브 B로의 Z축 점프가 있습니다.)

3.2 TPUv5e/v6e 및 2D 토러스 메쉬
지연 시간에 민감한 추론 및 중간 규모 학습을 위해 TPUv5e/v6e(Trillium)는 비용 최적화 설계를 채택했습니다. 즉, 비용이 많이 드는 OCS를 제거하고 정적 2D 토러스 메시를 사용합니다.
Pod max 256 TPU (16×16 토폴로지에 4개의 액체 냉각 캐비닛). Y축은 PCB/백플레인을 통해 수직으로 연결되고, X축은 QSFP-DD DAC 구리 케이블을 통해 수평으로 연결되며, 긴 케이블로 루프를 형성합니다.

04 산업 환경 심층 비교 및 공급망 검증
4.1 구글(ICI) vs. AWS(트레이니엄) vs. 엔비디아

4.2 산업 장벽: 구글의 모델을 모방하기 어려운 이유는 무엇일까요?
TPUv7 Pod의 경쟁 우위는 원자에서 생태계에 이르는 수직적 통합에 있습니다.
- 고정밀 MEMS와 폐루프 제어는 광학, 기계, 반도체 분야를 아우르는 기술로, 일반 공급업체에게는 어려운 과제입니다.
- 3D 토러스의 효율성은 정확한 배치/라우팅을 위한 Orion SDN과 XLA 컴파일러의 시너지 효과에 달려 있습니다.
- 풀스택: Chip + PyTorch XLA/JAX + TF/JAX + Gemini + 수십억 사용자 앱 - 복제 불가능한 데이터 선순환 구조.
4.3 공급망: OCS 생태계의 완전한 산업화
최근 보고서에 따르면 구글은 교차 검증된 공급망을 통해 OCS를 배포한 것으로 확인되었습니다.
- MEMS: Silex Microsystems는 고수율 2D MEMS 기술을 완성했습니다.
- 통합: Accelink(192×192), Dekoli가 Lumentum과 협력하여 320×320을 지원합니다.
- 광학: 이색성 거울은 Tengjing에서 제작했습니다.
- 모듈: 800G/1.6T용 Coherent/Zhongji.
이러한 생태계는 "서비스형 하드웨어(HaaS)"를 가능하게 합니다. 즉, 인프라로서 수명이 긴 OCS를 제공하여 총소유비용(TCO)을 절감합니다.
05 미래의 진화: 무어 시대 이후 CPO 및 전광 인터커넥트를 향하여
TPUv8이 224Gbps 이상의 SerDes를 지원하며 발전함에 따라 기존의 플러그형 광학 모듈은 한계에 도달하고 있습니다. CPO는 I/O의 한계를 뛰어넘을 것입니다.
향후 구글 TPU는 "칩 수준의 광 방출, 완전 광학 직접 출력" 방식으로 전환될 수 있습니다. 즉, TPU 기판에 광 엔진이 함께 패키징되고, 고밀도 백플레인 OCS(320×320+)로 직접 광 출력이 이루어질 수 있습니다.
무어 이후의 인공 일반 지능(AGI) 시대에서, 범용 이더넷/인피니밴드가 승리할 것인가, 아니면 구글의 수직 통합형 포토닉스 "폐쇄형 생태계"가 승리할 것인가?
구글의 TPU 네트워크 진화에서 어떤 점이 가장 흥미롭습니까? 지연 시간을 줄이는 트위스트 토러스, OCS 공급망의 성숙도, 아니면 CPO로의 전환 가능성 중 어떤 것이 더 매력적으로 느껴지시나요? 엔비디아의 NVLink 광케이블과 같은 경쟁사의 미래와 비교했을 때 구글의 TPU 네트워크는 어떻게 발전할 것이라고 생각하시나요? 여러분의 생각을 공유해 주세요!
관련 상품:
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈
$650.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈
$650.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈
$900.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈
$1199.00
-
NVIDIA MMS4X50-NM 호환 OSFP 2x400G FR4 PAM4 1310nm 2km DOM 이중 이중 LC SMF 광 트랜시버 모듈
$1200.00
-
NVIDIA MMS4A20-XM800 호환 800G DR4 OSFP224 4x200G-PAM4 1311nm 500m RHS/플랫탑 DOM MTP/MPO-12 APC InfiniBand XDR 트랜시버 모듈
$1996.00
-
NVIDIA MMS4A00(980-9IAH1-00XM00) 호환 1.6T OSFP DR8D PAM4 1311nm 500m IHS/Finned Top Dual MPO-12 SMF 광 트랜시버 모듈
$2600.00
-
NVIDIA 호환 1.6T 2xFR4/FR8 OSFP224 PAM4 1310nm 2km IHS/Finned Top 듀얼 듀플렉스 LC SMF 광 트랜시버 모듈
$3100.00
-
NVIDIA MMS4A00(980-9IAH0-00XM00) 호환 1.6T 2xDR4/DR8 OSFP224 PAM4 1311nm 500m RHS/플랫탑 듀얼 MPO-12/APC InfiniBand XDR SMF 광 트랜시버 모듈
$3600.00
-
OSFP-1.6T-4FR2 1.6T OSFP 4FR2 PAM4 1291/1311nm 2km SN SMF 광 트랜시버 모듈
$22400.00
-
OSFP-1.6T-2FR4 1.6T OSFP 2xFR4 PAM4 2x CWDM4 2km 듀얼 듀플렉스 LC SMF 광 트랜시버 모듈
$22400.00
-
OSFP-1.6T-DR8D+ 1.6T OSFP DR8D+ PAM4 1311nm 2km 듀얼 MPO-12 SMF 광 트랜시버 모듈
$18000.00
