На недавнем семинаре компания LightCounting спрогнозировала, что объемы поставок оптических приемопередающих модулей и оптических коммутаторов (OCS) будут стремительно расти в течение следующих пяти лет. Этот рост может время от времени замедляться, но, как ожидается, быстро восстановится после этого. В настоящее время ежегодные поставки оптических модулей кластера ИИ составляют десятки миллионов, а к 100 году прогнозируется увеличение почти до 2029 миллионов единиц. Ожидается, что поставки OCS, которые достигли 10,000 2023 единиц в 50,000 году, превысят 2029 XNUMX единиц к XNUMX году.

Более десяти лет назад Google начала использовать OCS в своих вычислительных узлах и кластерах ИИ. Недавно компания в нескольких отчетах подчеркнула преимущества архитектур, поддерживающих OCS. Другие крупные поставщики кластеров ИИ, включая Nvidia и Microsoft, также начали использовать OCS, и многие другие операторы серьезно рассматривают преимущества следования их примеру.
Спрос на OCS, несомненно, будет высоким, и в будущем ожидается появление более сложных оптических коммутационных приложений. Коммутация пакетов представляет собой проблему из-за отсутствия практических решений для оптической буферизации, но большие потоки данных можно маршрутизировать оптически.
В 2007 году Google стала первой компанией, которая использовала оптические трансиверы в своих центрах обработки данных. Несмотря на кратковременный перерыв из-за финансового кризиса 2008-2009 годов, компания полностью возобновила внедрение этой технологии в 2010 году. За последнее десятилетие многие другие компании облачных вычислений последовали примеру Google. Nvidia (Mellanox) до недавнего времени отдавала предпочтение активным оптическим кабелям (AOC), но в 400 году стала крупнейшим потребителем трансиверов 800G/2023G.
Теперь Nvidia использует оптические трансиверы для соединений Ethernet и InfiniBand между серверами и коммутаторами. Два года назад компания объявила о планах использовать оптические устройства для соединений NVLink и продемонстрировала это в одном из своих внутренних кластеров. Пропускная способность, необходимая для соединений NVLink, в девять раз больше, чем у InfiniBand, что делает снижение стоимости и энергопотребления оптических устройств существенным для этого нового приложения.
Как показано на рисунке ниже, сравниваются архитектуры кластеров искусственного интеллекта Google и Nvidia. Кластеры TPU Google не требуют коммутаторов Ethernet или InfiniBand, а используют OCS. Каждый TPU может напрямую взаимодействовать со своими шестью ближайшими соседями, а OCS может расширять и перенастраивать эти тесно связанные сети. Напротив, конструкция Nvidia в значительной степени опирается на коммутаторы InfiniBand, Ethernet и NVLink, требуя больше оптических соединений, чем конструкция Google.

Различия в архитектуре кластера ИИ между Google и Nvidia приводят к разным приоритетам для оптических соединений, как показано на рисунке. Google использует оптические коммутаторы цепей (OCS) и отдает приоритет более высокому бюджету соединения, чтобы компенсировать оптические потери OCS в 1.5 дБ. Напротив, многоволновые трансиверы FR4/FR8 увеличивают пропускную способность OCS в четыре-восемь раз по сравнению с модулями DR4/DR8.

С другой стороны, Nvidia отдает приоритет снижению стоимости и энергопотребления, чтобы разместить большое количество трансиверов, необходимых для ее кластеров. Компания активно поддерживает Linear Drive Pluggable Optics (LPO) и Co-Packaged Optics (CPO). Google меньше интересуется LPO или CPO, поскольку она продолжает использовать конструкцию, в которой в среднем используется всего 1.5 трансивера на TPU. В будущем Nvidia может потребоваться до 10 трансиверов на GPU для поддержки NVLink по оптоволокну.
LightCounting прогнозирует, что Nvidia развернет LPO и/или CPO в течение следующих 2-3 лет, снизив энергопотребление с 10-15 пДж/бит до 4-7 пДж/бит для достижения NVLink по оптоволокну, как показано на рисунке. Google уже использовала оптические устройства для межъядерного соединения (ICI) между TPU.

Проблемы масштабирования производительности
Надежность всех компонентов в кластерах ИИ имеет решающее значение для масштабирования этих систем. Один сбой графического процессора или сетевого соединения может снизить эффективность всего кластера на 40%, а устранение таких сбоев (с помощью программного обеспечения) может занять до 10 минут. Эти сбои происходят в среднем каждые 30-45 минут, ухудшаясь в более крупных кластерах с более сложными графическими процессорами и оптическими устройствами.

На рисунке (Источник: Meta) показаны данные анализа отказов приемопередатчиков для модулей FR200 4G и FR400 4G. Деградация лазера с прямой модуляцией является основным источником отказов модулей 200G. Проблемы с лазерами с внешней модуляцией, используемыми в Трансиверы 400G меньше, чем общие проблемы производства, связанные со сборкой печатных плат и соединением проводов. Более интегрированное проектирование и производство на уровне пластин имеют решающее значение для повышения надежности оптических устройств.
y к концу 202X ожидается значительное улучшение производительности графических процессоров за счет сочетания КМОП, методов подложки и упаковки, архитектуры чипов и улучшенных технологий охлаждения. Управление рассеиванием тепла этих сверхбольших компонентов чипа является одной из многих проблем, что делает энергоэффективность критически важной для всех технологий, используемых в кластерах ИИ. CMOS настроена на развертывание с переходом от 5 нм к 3 нм и 2 нм в течение следующих пяти лет, но оптические соединения все еще ищут способы повышения энергоэффективности.
LightCounting ожидает, что линейная оптика привода будет развернута в больших масштабах в течение следующих пяти лет, будь то в виде подключаемых трансиверов (LPO) или CPO. Отрасли потребуются новые материалы и оборудование для дальнейшего повышения энергоэффективности. Некоторые новые технологии могут занять до десяти лет, чтобы стать доступными, но некоторые будут приняты в течение следующих пяти лет. Это гонка вооружений, в которой клиенты готовы идти на большие риски.