No mundo em constante evolução das tecnologias de IA e data center, o Hotchip 2025 começou com uma programação enriquecedora de Tutoriais do Dia 0. Como um evento fundamental no setor, as sessões deste ano serviram como um prelúdio apetitoso, com foco em racks de data center pela manhã e programação de kernel à tarde. Nossa cobertura se aprofunda nas sessões matinais centradas em hardware, com destaque para a personalização inovadora da Nvidia GB200 pela Meta. Para profissionais em redes de comunicação habilitadas para IA, esses avanços ressaltam a necessidade de soluções robustas de comunicação óptica – entre na FiberMall, uma fornecedora especializada comprometida em fornecer ofertas econômicas para data centers globais, computação em nuvem, redes corporativas, redes de acesso e sistemas sem fio. Reconhecida pela liderança em redes baseadas em IA, a FiberMall é sua parceira ideal para soluções de alta qualidade e valor agregado. Visite o site oficial ou entre em contato com o suporte ao cliente para obter mais detalhes.

Quer você esteja otimizando cargas de trabalho de IA ou escalando tecnologias de malha, entender essas tendências pode transformar sua infraestrutura. Vamos analisar as principais sessões.
Conteúdo
Alterne1. Como as cargas de trabalho de IA moldam a arquitetura do sistema de rack
Esta sessão da AMD ofereceu uma retrospectiva abrangente da evolução da IA na última década. Começando com a icônica era GTX 580 e AlexNet — com preço modesto de US$ 499 —, ela contrastou sutilmente com os custos exorbitantes das GPUs da Nvidia.

A palestra recapitulou diversas estratégias de paralelismo e as mudanças estruturais de interconexão que as acompanham. Essencialmente, foi uma ponte educacional para engenheiros de chips entenderem o que as equipes de infraestrutura têm feito nos últimos anos.

Os principais destaques incluíram a progressão dos formatos numéricos, de FP32 para FP4, refletindo ganhos de eficiência. Os tamanhos dos pacotes de chips estão aumentando e os domínios de escalonamento estão se expandindo de acordo. Para aqueles que trabalham com arquiteturas de rack de IA, essa evolução destaca a importância de interconexões ópticas escaláveis — a expertise da FiberMall em redes de comunicação habilitadas para IA garante uma integração perfeita para essas demandas.
2. Escalonamento de tecnologias de tecido para clusters de IA
Outra sessão liderada pela AMD, desta vez abordou os fundamentos da expansão. Listou tecnologias comuns de expansão, mas omitiu notavelmente o UB da Huawei — o que me rendeu pontos por esse descuido!

A apresentação esclareceu as distinções entre expansão e expansão horizontal abordagens. Enfatizou como a raiz do switch e os caminhos de dados influenciam criticamente o número de GPUs e a largura de banda de expansão.

Foi apresentada uma rede típica de escalonamento de camada única, seguida de explorações de escalonamento de L2 e da construção de uma malha de L1.5 sobre switches de L1. No geral, as duas primeiras sessões se concentraram principalmente em visões gerais educacionais, tornando-as perfeitas para iniciantes em escalonamento de clusters de IA. Se você estiver implementando essas soluções em data centers, as soluções ópticas econômicas da FiberMall podem otimizar suas tecnologias de malha para obter o máximo desempenho.

3. Refrigeração líquida com características do Google
O Google compartilhou insights de suas experiências com TPU, com foco em projetos modulares de bombas de resfriamento líquido e muito mais.


Notavelmente, seus sistemas de quinta geração são projetados para racks de 1 MW, expandindo os limites do gerenciamento térmico em infraestruturas de IA. Para configurações de alta densidade como essas, um resfriamento confiável é inegociável — os produtos de comunicação óptica da FiberMall suportam as redes subjacentes que tornam tais inovações viáveis.
4. Sistemas de energia reestruturados
Apresentada pela Microsoft, esta sessão apresentou o fornecimento de energia de 800 VCC. Como a expansão em um único gabinete exige mais GPUs, os conversores de energia estão sendo externalizados, levando à Desagregação de Energia em Rack (RPD).

A cadeia de energia evolui dos atuais transformadores CA de múltiplos estágios para sistemas CC de média tensão (MVDC) de 800 V, principalmente para reduzir perdas de conversões de CA para CC no ponto final.

A futura adoção de Transformadores de Estado Sólido (SST) de 800 V promete ganhos significativos de eficiência. Nos bastidores, o treinamento em larga escala causa paradas e partidas sincronizadas da GPU, sobrecarregando a rede com harmônicos e problemas de potência reativa. As mitigações atuais incluem baterias em nível de gabinete (BBU) e capacitores (CBU). O MVDC permite compensação em linha ou em nível de SST para estes.
Em resumo, o MVDC de 800 V pode reduzir pela metade as perdas de energia em data centers — um divisor de águas. Para sistemas de energia de IA, a integração com redes ópticas de provedores como a FiberMall garante eficiência holística.
5. Estudo de caso: Nvidia GB200 NVL72
A Nvidia reciclou um PPT do encontro OCP do ano passado — totalmente desaprovado. Ignorando os detalhes aqui, pois ofereceu pouco valor novo para os entusiastas de racks de IA.
6. Estudo de caso: Catalina da Meta (NVL72)
Sem dúvida, a sessão de destaque do dia. A forte personalização do rack GB200 pela Meta roubou a cena. Para contextualizar, compare isso com o lançamento da instância GB200 da AWS em julho para identificar diferenças na personalização.
O NVL72 da Meta abrange seis gabinetes: dois refrigeração líquida unidades em cada extremidade (espelhando a bomba do lado próximo da AWS com resfriamento de ar direto para o mínimo de retrofits no data center). O meio usa gabinetes NVL36 pareados.

Oficialmente, o GB200 da Nvidia combina um Grace com dois B200s, totalizando 18 bandejas. A Meta opta pela proporção 1:1 de Grace para B200, resultando em 36 bandejas de computação para memória expandida.
Extraoficialmente, existem motivações mais profundas. A topologia padrão baseada em CX7 da Nvidia tem cada Grace conectando dois B200s via PCIe x1, com dois CX7s por Grace (escala de 400 Gbps por B200). Os Graces duplos se conectam via Clink 6x.
Para GPU-Direct-RDMA (GDR), o PCIe GDR limita a largura de banda Gen4 x1, exigindo alocação de memória no acesso Grace e NVLink C2C.
Simulações mostraram necessidades de B200 800Gbps escalonamento horizontal. A AWS utiliza switches PCIe externos (Gen5, mas atualmente limitado a 400 Gbps). O CX8 da Nvidia incorpora um switch PCIe, mas mantém o link Grace x1 para gerenciamento, roteando dados via PCIe para o Grace e, em seguida, para o NVLink C2C — exigindo um tratamento especial do NCCL 2.27.
Correção da Meta: a proporção 1:1 permite que a Grace conecte duas NICs CX7 Gen5 x16 para 800 Gbps por B200. O B200 ainda usa PCIe Gen4 x1 para a Grace, mas o GDR verdadeiro não é direto; o DMA é roteado via PCIe RC da Grace e NVLink C2C.
Com a relação 1:1, a conexão NIC-CPU é vantajosa — sem gargalos de memória compartilhada da CPU. As GPUs processam RDMA por meio da memória da CPU, economizando cerca de 200 GB/s de largura de banda HBM.
O Clink entre Graces dobra para 12 faixas, proporcionando maior largura de banda entre sistemas. Sem a compatibilidade total com o CX8, a abordagem da Meta aumenta a escalabilidade para 800 Gbps, ao mesmo tempo em que aprimora a memória da CPU.
Especulativamente, Grace + CX7 imita um BF3 superdimensionado: uma DPU enorme com escalonamento horizontal de um lado, escalonamento semântico de memória do outro, além de ampla memória. Isso ecoa o NetDAM de 2021, beneficiando o KVCache e permitindo o INCA ou transferindo operações de comunicação para o Grace via NVLink C2C.

O gabinete de computação da Meta inclui BBU integrada para redundância e fibra escalável via patch panels com peças de reposição. Dois switches Wedge400 controlam o frontend (200 Gbps por Grace via CX7 + módulo de segurança DC-SCM — sem BF3 aqui).

O escalonamento horizontal usa o Disaggregated Scheduled Fabric (possivelmente inspirado no Cisco Silicon One, abordando conflitos de hash de múltiplos caminhos).

Adicionado: detecção de vazamento no PDB de cada bandeja, interface com o Rack Management Controller (RMC) via RJ45 para GPIO/I2C, além de sensores externos.

Final: BMC+TPM com especificação OCP para gerenciamento remoto (sem BF3).

Para racks de IA personalizados como o da Meta, as redes ópticas habilitadas para IA da FiberMall fornecem a espinha dorsal para interconexões confiáveis e de alta largura de banda.
7. Visão geral do rack TPU
O Google concluiu os detalhes do rack TPU. A análise do ano passado abrangeu roteamento, proteção, elasticidade e agendamento de interconexão ICI.

Desta vez: rack Ironwood como um bloco 4x4x4, conectando-se aos switches ópticos OCS por meio de feixes de fibra com redundância e painéis de conexão.


O resfriamento líquido e o UPS são em nível de linha.

Concluindo, o Dia 0 do Hotchip 2025 preparou o cenário para inovações de ponta em data centers de IA. Se esses insights inspirarem ideias para suas configurações, considere a FiberMall para soluções de comunicação óptica de ponta, adaptadas a cargas de trabalho de IA.
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo
$650.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$900.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo
$1199.00
-
Módulo transceptor óptico compatível com NVIDIA MMS4X50-NM OSFP 2x400G FR4 PAM4 1310nm 2km DOM Dual Duplex LC SMF
$1200.00
-
NVIDIA MCP7Y00-N001 Compatível com 1 m (3 pés) 800 Gb OSFP de porta dupla a 2x400G OSFP InfiniBand NDR Breakout Cabo de cobre de conexão direta
$160.00
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module
$550.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico
$700.00
-
Módulo transceptor óptico compatível com NVIDIA MMA1Z00-NS400 400G QSFP112 VR4 PAM4 850nm 50m MTP/MPO-12 OM4 FEC
$550.00
-
NVIDIA MMS1Z00-NS400 Compatível 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 com Módulo Transceptor Óptico FEC
$700.00
-
Q112-400GF-MPO1M 400G QSFP112 SR4 MPO-12 Plugue fêmea Pigtail 1m Transceptores ópticos de resfriamento líquido por imersão
$1950.00
-
Q112-400GM-MPO1M 400G QSFP112 SR4 MPO-12 Plugue Macho Pigtail 1m Imersão Refrigeração Líquida Transceptores Ópticos
$1950.00
-
Q112-400GF-MPO3M 400G QSFP112 SR4 MPO-12 Plugue fêmea Pigtail 3m Transceptores ópticos de resfriamento líquido por imersão
$1970.00
-
Q112-400GM-MPO3M 400G QSFP112 SR4 MPO-12 Plugue Macho Pigtail 3m Imersão Refrigeração Líquida Transceptores Ópticos
$1970.00
-
Q112-400GF-MPO60M 400G QSFP112 SR4 MPO-12 Plugue fêmea Pigtail 60m Transceptores ópticos de resfriamento líquido por imersão
$2025.00
-
Q112-400GM-MPO60M 400G QSFP112 SR4 MPO-12 Plugue Macho Pigtail 60m Imersão Refrigeração Líquida Transceptores Ópticos
$2025.00
-
OSFP-400GF-MPO1M 400G OSFP SR4 MPO-12 Plugue fêmea Pigtail 1m Transceptores ópticos de refrigeração líquida por imersão
$1950.00
-
OSFP-400GM-MPO1M 400G OSFP SR4 MPO-12 Plugue Macho Pigtail 1m Transceptores Ópticos de Resfriamento Líquido por Imersão
$1950.00
-
OSFP-400GF-MPO3M 400G OSFP SR4 MPO-12 Plugue fêmea Pigtail 3m Transceptores ópticos de refrigeração líquida por imersão
$1970.00
-
OSFP-400GM-MPO3M 400G OSFP SR4 MPO-12 Plugue Macho Pigtail 3m Transceptores Ópticos de Resfriamento Líquido por Imersão
$1970.00
