Чем выделяются кластеры TPU от Google в гонке суперкомпьютеров для искусственного интеллекта? Как сочетание 3D-топологии тора и технологии OCS (оптическая коммутация цепей) позволило добиться масштабируемости при сохранении низкой задержки и оптимальной общей стоимости владения (TCO)?
В этой подробной статье мы углубимся в эволюцию интеллектуальных вычислительных кластеров TPU от Google, сосредоточившись на синергетических механизмах 3D-топологий тора и технологии OCS. Начиная с наименьшей топологической единицы — куба 4x4x4 — мы воссоздадим стандартный 3D-тор в модуле TPUv4 4096 и скрученный 3D-тор в модуле TPUv7 9216. Мы сравним это с экономичной 2D-сеткой тора в TPUv5e/v6e, исследуем, как Google достигает детерминированной низкой задержки в масштабе десятков тысяч чипов, сравним с подходами AWS и NVIDIA и заглянем в будущее, рассматривая такие тенденции, как CPO (Co-Packaged Optics), обеспечивающая «излучение света на уровне чипа и полностью оптическое прямое соединение».
Содержание
Переключать01 Вступление: Краткий обзор эволюции суперузлов TPU
Ранее мы рассмотрели путь от TPUv1 (используемого в AlphaGo) до TPUv7 (суперузла Ironwood с 9216 чипами), работающего на базе OCS + ICI + 3D Torus и сопоставимого с NVIDIA GB200/GB300. Мы также сравнили ситуацию с Alibaba и NVIDIA, обсудив, кто действительно выигрывает в эпоху ИИ, продавая инструменты и добывая золото.
Теперь, опираясь на опубликованные Google статьи о том, как 48 блоков OCS поддерживают модуль TPUv4 с 4096 чипами, мы шаг за шагом рассмотрим все этапы: от кластера TPUv4 с 4096 чипами до новейшего кластера TPUv7 с 9216 чипами, подчеркнув эволюцию 2D/3D Torus + оптической коммутации OCS + сетей ICI, а также то, как зрелые восходящие/нисходящие цепочки поставок идеально дополняют это.
02 Основы: TPUv4 и реализация 3D-тора/OCS
Модуль TPUv4 с 4096 чипами — это знаковый продукт, демонстрирующий зрелое применение оптической коммутационной сети OCS от Google — один из немногих классических примеров, доступных в открытом доступе. Давайте начнем с самого маленького модуля и перейдем к полноценной кластерной архитектуре.
2.1 Наименьшая топологическая единица: куб 4×4×4
Минимальной топологической единицей в сети Google TPUv4 Pod является TPU Cube (или 4×4×4 Cube). Физически это часто серверный шкаф, но логически это тесно интегрированное целое:
- Состав: 4 (X) × 4 (Y) × 4 (Z) = 64 чипа TPU, напоминающие цельный кубик Рубика четвертого порядка.
- Соединения: Каждый чип TPU имеет 6 высокоскоростных межчиповых соединений (ICI) в направлениях ±X, ±Y, ±Z, образующих трехмерную тороидальную сетку.
2.2 Многоуровневая структура связей и оптико-электрические границы в одном кубе
В стандартном кубе 4×4×4 каналы ICI разделены на две категории в зависимости от положения и среды передачи, создавая уникальную гибридную оптико-электрическую сеть TPU:
- Внутренние межсоединения (ядро куба): Внутренние соединения (ядро и неоткрытые поверхности) используют короткие объединительные платы и медные кабели для передачи исключительно электрической сигнализации — без оптического преобразования и оптического вывода.
- Внешние межсоединения (поверхность куба): Открыты только каналы связи на шести внешних поверхностях, всего 96 оптических каналов на каждый куб, подключенных к OCS для динамической маршрутизации и масштабируемости.


2.3 Создание 48 блоков OCS в кластере модулей TPUv4
Как видно из приведенных выше данных, каждый куб содержит 64 чипа. Для модуля с 4096 чипами: 4096 / 64 = 64 куба.
Общее количество оптических каналов: 64 куба × 96 каналов/куб = 6144 канала.
Система OCS Palomar от Google обычно имеет конфигурацию 136×136 портов, но спроектирована для 128 эффективных портов (бинарное выравнивание + 8 резервных портов). Таким образом: 6144 канала ÷ 128 портов/OCS = 48 блоков OCS.
Для строгого соответствия 3D-тору 48 OCS организованы в три ортогональные группы для трафика по осям X/Y/Z. Например, группа по оси X включает 16 OCS, каждая из которых обрабатывает только соединения граней ±X по всем кубам в соответствии с принципом «межсоединений в пределах одной размерности» — это обеспечивает ортогональную изоляцию, упрощает алгоритмы маршрутизации и предотвращает взаимоблокировки.
В 3D-торе OCS действует как массивная динамическая панель коммутации, физически реализуя геометрию тора. Данные, выходящие из интерфейса X+ узла, поступают в интерфейс X- соседнего узла (шаг 1 в стандартном TPUv4, переменное N в скрученном TPUv7). Краевые узлы замыкаются через OCS.

2.4 Ядро модуля TPUv4: микроструктура Palomar OCS
В отличие от коммутаторов пакетной передачи без потерь, Palomar OCS не считывает заголовки и не выполняет преобразование O/E — это чисто физическое отражение света.
Внутренний канал имеет классическую W-образную форму, что минимизирует потери при передаче и обеспечивает возможность соединения «любой-любой».

W-путь: Коллиматор > Дихроичное зеркало > 2D MEMS-массив I > Дихроичное зеркало > 2D MEMS-массив II > Дихроичное зеркало > Приемный коллиматор.
Ключевые компоненты: Двойные 2D MEMS-модули для 3D-управления лучом; дихроичные зеркала пропускают свет с длиной волны 1310 нм, отражая при этом контрольный свет с длиной волны 850 нм. В сочетании с модулями инжекции и камеры для оперативного управления и регулировки в реальном времени в пределах полосы пропускания, а также микросекундной регулировки MEMS-модулей, эта замкнутая система юстировки является ключевым препятствием для коммерциализации Palomar OCS.
03 Эволюция архитектуры: скрученный трехмерный тор и двумерный тор
С ростом TDP на одном чипе до 600 Вт и увеличением количества чипов в кластерах до 9,216, TPUv7 (Ironwood) сталкивается с более серьезными проблемами охлаждения и задержки. Google представила два основных обновления: скрученную топологию и экстремальное масштабируемое расширение.
3.1 Топология скрученного 3D-тора TPUv7 и вывод для 9216-чиповой архитектуры
Модуль TPUv7 масштабируется до 9216 чипов по сравнению с 4096 у TPUv4. Минимальный размер блока остается 4x4x4 куба (64 чипа): 9216 / 64 = 144 куба.
Общее количество соединений: 144 куба × 96 соединений/куб = 13 824 порта.
По имеющимся данным, Google по-прежнему использует 48 блоков OCS. (На рисунке 4 показано, как куб A разветвляет 96 каналов связи на 48 блоков OCS.)

Для решения этой задачи OCS модернизировала систему, установив 144×144 порта (что соответствует 144 кубам; в реальности, вероятно, будет 320×320), с использованием витых 3D-тороидальных каналов связи на частоте 800 Гбит/с и пропускной способности 1.6 Тл для неблокирующей связи.
Улучшение топологии: вводится переменный шаг N для скрученного трехмерного тора с целью уменьшения количества переходов. Оптимальное значение N ≈ Dimension_Size / 2.
- Слева: Стандартный двумерный тор (шаг = 1, последовательные переходы).
- Справа: Искривлённый двумерный тор (шаг = N, прыжки через «червоточину» посредством OCS).

Расширение до 3D: (На рисунке 6 показаны 128 соединений TPU-срезов (4x4x8), например, переход по оси Z от куба A к кубу B.)

3.2 TPUv5e/v6e и 2D-сетка тора
Для задач инференции, чувствительных к задержке, и обучения в средних масштабах, в TPUv5e/v6e (Trillium) используется оптимизированная по стоимости конструкция: исключается дорогостоящая OCS, используется статическая 2D-сетка в форме тора.
Максимальное количество TPU в модуле — 256 (4 корпуса с жидкостным охлаждением в топологии 16×16). Вертикальное управление по оси Y осуществляется через печатную плату/заднюю панель; горизонтальное управление по оси X — через медные кабели QSFP-DD DAC, замыкающие петли длинными кабелями.

04. Обзор отрасли: углубленное сравнение и проверка цепочки поставок.
4.1 Google (ICI) против AWS (Trainium) против NVIDIA

4.2 Отраслевые барьеры: почему сложно воспроизвести модель Google?
Главное преимущество TPUv7 Pod — вертикальная интеграция от атомов до экосистемы:
- Высокоточные MEMS-технологии в сочетании с замкнутым контуром управления выходят за рамки оптики, механики и полупроводников — задача, сложная для обычных производителей.
- Эффективность 3D Torus основана на синергии Orion SDN и компилятора XLA для точного размещения/траектории.
- Полный стек: Chip + PyTorch XLA/JAX + TF/JAX + Gemini + приложения для миллиарда пользователей — невоспроизводимый механизм обмена данными.
4.3 Цепочка поставок: Полная индустриализация экосистемы OCS
Недавние сообщения подтверждают развертывание Google OCS с использованием перекрестно проверенной цепочки поставок:
- MEMS: Компания Silex Microsystems освоила технологию высокопроизводительных 2D MEMS-устройств.
- Интеграция: Accelink (192×192), Dekoli в партнерстве с Lumentum для 320×320.
- Оптика: Тэнцзин для дихроичных зеркал.
- Модули: Coherent/Zhongji для 800G/1.6T.
Эта экосистема обеспечивает «оборудование как услугу» (HaaS): долгосрочный доступ к OCS в качестве инфраструктуры, снижающий общую стоимость владения.
05. Будущая эволюция: к оптической межсоединительной сети и полностью оптическим соединениям в эпоху после закона Мура.
По мере развития TPUv8 с поддержкой SerDes со скоростью 224 Гбит/с и выше, традиционные подключаемые оптические модули достигают своих пределов. CPO преодолеет границы возможностей ввода-вывода.
В будущем Google TPU может перейти к «излучению света на уровне чипа, полностью оптическому прямому»: световые модули, размещенные на подложке из TPU, с прямым оптическим выводом на высокоплотную объединительную плату OCS (320×320+).
В эпоху после теории общего интеллекта Мура: победит ли универсальный Ethernet/InfiniBand или вертикально интегрированная «закрытая экосистема» Google с использованием фотоники?
Какие аспекты развития сети TPU от Google вас больше всего интригуют — скрученный тор, уменьшающий задержку, зрелость цепочки поставок OCS или потенциальный переход к CPO? Как вы видите это в сравнении с конкурентами, такими как оптическая технология NVLink от NVIDIA? Поделитесь своими мыслями!
Сопутствующие товары:
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$900.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$1199.00
-
Совместимый с OSFP NVIDIA MMS4X50-NM 2x400G FR4 PAM4 1310 нм 2 км DOM двухдуплексный оптический модуль LC SMF
$1200.00
-
Модуль приемопередатчика NVIDIA MMS4A20-XM800 InfiniBand XDR, совместимый с NVIDIA MMS800A4-XM224, 4G DR200 OSFP4, 1311x500G-PAM12, XNUMX нм, XNUMX м, RHS/Flat Top DOM, MTP/MPO-XNUMX
$1996.00
-
NVIDIA MMS4A00 (980-9IAH1-00XM00) совместимый 1.6T OSFP DR8D PAM4 1311 нм 500 м IHS/ребристый верхний двойной оптический приемопередатчик MPO-12 SMF
$2600.00
-
Совместимый с NVIDIA 1.6T 2xFR4/FR8 OSFP224 PAM4 1310 нм 2 км IHS/ребристый верхний двухдуплексный LC SMF оптический приемопередатчик
$3100.00
-
NVIDIA MMS4A00 (980-9IAH0-00XM00) совместимый 1.6T 2xDR4/DR8 OSFP224 PAM4 1311 нм 500 м RHS/Flat Top двойной оптический приемопередатчик MPO-12/APC InfiniBand XDR SMF
$3600.00
-
OSFP-1.6T-4FR2 1.6T OSFP 4FR2 PAM4 1291/1311 нм 2 км SN SMF оптический приемопередающий модуль
$22400.00
-
OSFP-1.6T-2FR4 1.6T OSFP 2xFR4 PAM4 2x CWDM4 2км двухдуплексный LC SMF оптический приемопередающий модуль
$22400.00
-
OSFP-1.6T-DR8D+ 1.6T OSFP DR8D+ PAM4 1311 нм 2 км двойной MPO-12 SMF оптический приемопередающий модуль
$18000.00
