Em um seminário recente, a LightCounting projetou que os volumes de remessa de módulos transceptores ópticos e Switches de Circuito Óptico (OCS) terão um crescimento explosivo nos próximos cinco anos. Esse crescimento pode sofrer desacelerações ocasionais, mas espera-se que se recupere rapidamente depois disso. Atualmente, as remessas anuais de módulos ópticos de cluster de IA chegam a dezenas de milhões, com um aumento projetado para quase 100 milhões de unidades até 2029. As remessas de OCS, que atingiram 10,000 unidades em 2023, devem ultrapassar 50,000 unidades até 2029.

Mais de uma década atrás, o Google começou a usar OCS em seus nós de computação e clusters de IA. A empresa destacou recentemente os benefícios de arquiteturas que suportam OCS em vários relatórios. Outros grandes provedores de cluster de IA, incluindo Nvidia e Microsoft, também começaram a usar OCS, com muitos operadores adicionais considerando seriamente as vantagens de seguir o exemplo.
A demanda por OCS será, sem dúvida, forte, com aplicações de comutação óptica mais complexas esperadas no futuro. A comutação de pacotes apresenta desafios devido à falta de soluções práticas para buffering óptico, mas grandes fluxos de dados podem ser roteados opticamente.
Em 2007, o Google foi a primeira empresa a usar transceptores ópticos em seus data centers. Apesar de uma breve interrupção devido à crise financeira de 2008-2009, a empresa retomou totalmente a adoção dessa tecnologia em 2010. Na última década, muitas outras empresas de computação em nuvem seguiram o exemplo do Google. A Nvidia (Mellanox) preferia cabos ópticos ativos (AOC) até dois anos atrás, mas se tornou a maior consumidora de transceptores 400G/800G em 2023.
A Nvidia agora usa transceptores ópticos para conexões Ethernet e InfiniBand entre servidores e switches. A empresa anunciou planos há dois anos para usar dispositivos ópticos para conexões NVLink e demonstrou isso em um de seus clusters construídos internamente. A largura de banda necessária para conexões NVLink é nove vezes maior que a InfiniBand, tornando as reduções de custo e consumo de energia para dispositivos ópticos essenciais para esta nova aplicação.
Conforme mostrado na Figura abaixo, as arquiteturas de cluster de IA do Google e da Nvidia são comparadas. Os clusters TPU do Google não exigem switches Ethernet ou InfiniBand, mas usam OCS. Cada TPU pode se comunicar diretamente com seus seis vizinhos mais próximos, e o OCS pode expandir e reconfigurar essas redes firmemente conectadas. Em contraste, o design da Nvidia depende muito de switches InfiniBand, Ethernet e NVLink, exigindo mais conexões ópticas do que o design do Google.

As diferenças na arquitetura de cluster de IA entre o Google e a Nvidia levam a prioridades variadas para interconexões ópticas, como mostrado na figura. O Google utiliza Optical Circuit Switches (OCS) e prioriza um orçamento de link mais alto para compensar a perda óptica de 1.5 dB do OCS. Em contraste, os transceptores FR4/FR8 de comprimento de onda múltiplo aumentam a taxa de transferência do OCS de quatro a oito vezes em comparação aos módulos DR4/DR8.

Por outro lado, a Nvidia prioriza redução de custo e energia para acomodar o grande número de transceptores necessários para seus clusters. A empresa apoia fortemente a Linear Drive Pluggable Optics (LPO) e a Co-Packaged Optics (CPO). O Google está menos interessado em LPO ou CPO, pois continua a usar um design com média de apenas 1.5 transceptores por TPU. No futuro, a Nvidia pode precisar de até 10 transceptores por GPU para suportar NVLink sobre fibra.
A LightCounting prevê que a Nvidia implementará LPO e/ou CPO nos próximos 2-3 anos, reduzindo o consumo de energia de 10-15 pJ/bit para 4-7 pJ/bit para atingir NVLink sobre fibra, conforme ilustrado na Figura. O Google já usou dispositivos ópticos para interconexão inter-core (ICI) entre TPUs.

Desafios de dimensionamento de desempenho
A confiabilidade de todos os componentes dentro dos clusters de IA é crítica para dimensionar esses sistemas. Uma única falha de GPU ou link de rede pode reduzir a eficiência de todo o cluster em 40%, e mitigar tais falhas (por meio de software) pode levar até 10 minutos. Essas falhas ocorrem a cada 30-45 minutos em média, piorando em clusters maiores com GPUs e dispositivos ópticos mais complexos.

A figura (Fonte: Meta) mostra dados de análise de falhas do transceptor para módulos FR200 4G e FR400 4G. A degradação do laser modulado diretamente é a principal fonte de falhas do módulo 200G. Problemas com lasers modulados externamente usados em Transceptores 400G são menos do que problemas gerais de fabricação relacionados à montagem de PCB e ligação de fios. Projeto e fabricação mais integrados em nível de wafer são cruciais para melhorar a confiabilidade do dispositivo óptico.
o final de 202X, espera-se que o desempenho da GPU melhore significativamente por meio de uma combinação de CMOS, métodos de substrato e empacotamento, arquiteturas de chip e melhores tecnologias de resfriamento. Gerenciar a dissipação de calor desses componentes de chip ultragrande está entre os muitos desafios, tornando a eficiência energética crítica para todas as tecnologias usadas em clusters de IA. O CMOS está definido para implantações que vão de 5 nm para 3 nm e 2 nm nos próximos cinco anos, mas as interconexões ópticas ainda estão buscando maneiras de aumentar a eficiência energética.
A LightCounting espera que a óptica de acionamento linear seja implantada em larga escala nos próximos cinco anos, seja como transceptores plugáveis (LPO) ou CPO. A indústria exigirá novos materiais e equipamentos para melhorar ainda mais a eficiência energética. Algumas novas tecnologias podem levar até dez anos para ficarem disponíveis, mas algumas serão adotadas nos próximos cinco anos. Esta é uma corrida armamentista, com clientes dispostos a assumir riscos maiores.
