Tutoriais do Dia 0 do Hotchip 2025: Insights essenciais sobre cargas de trabalho de IA, arquiteturas de rack e soluções GB200 personalizadas

No mundo em constante evolução das tecnologias de IA e data center, o Hotchip 2025 começou com uma programação enriquecedora de Tutoriais do Dia 0. Como um evento fundamental no setor, as sessões deste ano serviram como um prelúdio apetitoso, com foco em racks de data center pela manhã e programação de kernel à tarde. Nossa cobertura se aprofunda nas sessões matinais centradas em hardware, com destaque para a personalização inovadora da Nvidia GB200 pela Meta. Para profissionais em redes de comunicação habilitadas para IA, esses avanços ressaltam a necessidade de soluções robustas de comunicação óptica – entre na FiberMall, uma fornecedora especializada comprometida em fornecer ofertas econômicas para data centers globais, computação em nuvem, redes corporativas, redes de acesso e sistemas sem fio. Reconhecida pela liderança em redes baseadas em IA, a FiberMall é sua parceira ideal para soluções de alta qualidade e valor agregado. Visite o site oficial ou entre em contato com o suporte ao cliente para obter mais detalhes.

Quer você esteja otimizando cargas de trabalho de IA ou escalando tecnologias de malha, entender essas tendências pode transformar sua infraestrutura. Vamos analisar as principais sessões.

1. Como as cargas de trabalho de IA moldam a arquitetura do sistema de rack

Esta sessão da AMD ofereceu uma retrospectiva abrangente da evolução da IA ​​na última década. Começando com a icônica era GTX 580 e AlexNet — com preço modesto de US$ 499 —, ela contrastou sutilmente com os custos exorbitantes das GPUs da Nvidia.

Como as cargas de trabalho de IA moldam a arquitetura do sistema de rack

A palestra recapitulou diversas estratégias de paralelismo e as mudanças estruturais de interconexão que as acompanham. Essencialmente, foi uma ponte educacional para engenheiros de chips entenderem o que as equipes de infraestrutura têm feito nos últimos anos.

blocos de construção do modelo de IA

Os principais destaques incluíram a progressão dos formatos numéricos, de FP32 para FP4, refletindo ganhos de eficiência. Os tamanhos dos pacotes de chips estão aumentando e os domínios de escalonamento estão se expandindo de acordo. Para aqueles que trabalham com arquiteturas de rack de IA, essa evolução destaca a importância de interconexões ópticas escaláveis ​​— a expertise da FiberMall em redes de comunicação habilitadas para IA garante uma integração perfeita para essas demandas.

2. Escalonamento de tecnologias de tecido para clusters de IA

Outra sessão liderada pela AMD, desta vez abordou os fundamentos da expansão. Listou tecnologias comuns de expansão, mas omitiu notavelmente o UB da Huawei — o que me rendeu pontos por esse descuido!

Escalonamento de tecnologias de tecido

A apresentação esclareceu as distinções entre expansão e expansão horizontal abordagens. Enfatizou como a raiz do switch e os caminhos de dados influenciam criticamente o número de GPUs e a largura de banda de expansão.

escalar verticalmente vs. escalar horizontalmente

Foi apresentada uma rede típica de escalonamento de camada única, seguida de explorações de escalonamento de L2 e da construção de uma malha de L1.5 sobre switches de L1. No geral, as duas primeiras sessões se concentraram principalmente em visões gerais educacionais, tornando-as perfeitas para iniciantes em escalonamento de clusters de IA. Se você estiver implementando essas soluções em data centers, as soluções ópticas econômicas da FiberMall podem otimizar suas tecnologias de malha para obter o máximo desempenho.

topologia alternativa

3. Refrigeração líquida com características do Google

O Google compartilhou insights de suas experiências com TPU, com foco em projetos modulares de bombas de resfriamento líquido e muito mais.

implantação de design
projeto deschutes cdu

Notavelmente, seus sistemas de quinta geração são projetados para racks de 1 MW, expandindo os limites do gerenciamento térmico em infraestruturas de IA. Para configurações de alta densidade como essas, um resfriamento confiável é inegociável — os produtos de comunicação óptica da FiberMall suportam as redes subjacentes que tornam tais inovações viáveis.

4. Sistemas de energia reestruturados

Apresentada pela Microsoft, esta sessão apresentou o fornecimento de energia de 800 VCC. Como a expansão em um único gabinete exige mais GPUs, os conversores de energia estão sendo externalizados, levando à Desagregação de Energia em Rack (RPD).

otimizando a infraestrutura

A cadeia de energia evolui dos atuais transformadores CA de múltiplos estágios para sistemas CC de média tensão (MVDC) de 800 V, principalmente para reduzir perdas de conversões de CA para CC no ponto final.

poder do sistema de IA

A futura adoção de Transformadores de Estado Sólido (SST) de 800 V promete ganhos significativos de eficiência. Nos bastidores, o treinamento em larga escala causa paradas e partidas sincronizadas da GPU, sobrecarregando a rede com harmônicos e problemas de potência reativa. As mitigações atuais incluem baterias em nível de gabinete (BBU) e capacitores (CBU). O MVDC permite compensação em linha ou em nível de SST para estes.

Em resumo, o MVDC de 800 V pode reduzir pela metade as perdas de energia em data centers — um divisor de águas. Para sistemas de energia de IA, a integração com redes ópticas de provedores como a FiberMall garante eficiência holística.

5. Estudo de caso: Nvidia GB200 NVL72

A Nvidia reciclou um PPT do encontro OCP do ano passado — totalmente desaprovado. Ignorando os detalhes aqui, pois ofereceu pouco valor novo para os entusiastas de racks de IA.

6. Estudo de caso: Catalina da Meta (NVL72)

Sem dúvida, a sessão de destaque do dia. A forte personalização do rack GB200 pela Meta roubou a cena. Para contextualizar, compare isso com o lançamento da instância GB200 da AWS em julho para identificar diferenças na personalização.

O NVL72 da Meta abrange seis gabinetes: dois refrigeração líquida unidades em cada extremidade (espelhando a bomba do lado próximo da AWS com resfriamento de ar direto para o mínimo de retrofits no data center). O meio usa gabinetes NVL36 pareados.

Catalina de Meta

Oficialmente, o GB200 da Nvidia combina um Grace com dois B200s, totalizando 18 bandejas. A Meta opta pela proporção 1:1 de Grace para B200, resultando em 36 bandejas de computação para memória expandida.

Extraoficialmente, existem motivações mais profundas. A topologia padrão baseada em CX7 da Nvidia tem cada Grace conectando dois B200s via PCIe x1, com dois CX7s por Grace (escala de 400 Gbps por B200). Os Graces duplos se conectam via Clink 6x.

Para GPU-Direct-RDMA (GDR), o PCIe GDR limita a largura de banda Gen4 x1, exigindo alocação de memória no acesso Grace e NVLink C2C.

Simulações mostraram necessidades de B200 800Gbps escalonamento horizontal. A AWS utiliza switches PCIe externos (Gen5, mas atualmente limitado a 400 Gbps). O CX8 da Nvidia incorpora um switch PCIe, mas mantém o link Grace x1 para gerenciamento, roteando dados via PCIe para o Grace e, em seguida, para o NVLink C2C — exigindo um tratamento especial do NCCL 2.27.

Correção da Meta: a proporção 1:1 permite que a Grace conecte duas NICs CX7 Gen5 x16 para 800 Gbps por B200. O B200 ainda usa PCIe Gen4 x1 para a Grace, mas o GDR verdadeiro não é direto; o DMA é roteado via PCIe RC da Grace e NVLink C2C.

Com a relação 1:1, a conexão NIC-CPU é vantajosa — sem gargalos de memória compartilhada da CPU. As GPUs processam RDMA por meio da memória da CPU, economizando cerca de 200 GB/s de largura de banda HBM.

O Clink entre Graces dobra para 12 faixas, proporcionando maior largura de banda entre sistemas. Sem a compatibilidade total com o CX8, a abordagem da Meta aumenta a escalabilidade para 800 Gbps, ao mesmo tempo em que aprimora a memória da CPU.

Especulativamente, Grace + CX7 imita um BF3 superdimensionado: uma DPU enorme com escalonamento horizontal de um lado, escalonamento semântico de memória do outro, além de ampla memória. Isso ecoa o NetDAM de 2021, beneficiando o KVCache e permitindo o INCA ou transferindo operações de comunicação para o Grace via NVLink C2C.

O gabinete de computação da Meta inclui BBU integrado para redundância

O gabinete de computação da Meta inclui BBU integrada para redundância e fibra escalável via patch panels com peças de reposição. Dois switches Wedge400 controlam o frontend (200 Gbps por Grace via CX7 + módulo de segurança DC-SCM — sem BF3 aqui).

O escalonamento horizontal usa o Fabric agendado desagregado

O escalonamento horizontal usa o Disaggregated Scheduled Fabric (possivelmente inspirado no Cisco Silicon One, abordando conflitos de hash de múltiplos caminhos).

Detecção de vazamento no PDB de cada bandeja

Adicionado: detecção de vazamento no PDB de cada bandeja, interface com o Rack Management Controller (RMC) via RJ45 para GPIO/I2C, além de sensores externos.

BMC+TPM com especificação OCP para gerenciamento remoto

Final: BMC+TPM com especificação OCP para gerenciamento remoto (sem BF3).

Para racks de IA personalizados como o da Meta

Para racks de IA personalizados como o da Meta, as redes ópticas habilitadas para IA da FiberMall fornecem a espinha dorsal para interconexões confiáveis ​​e de alta largura de banda.

7. Visão geral do rack TPU

O Google concluiu os detalhes do rack TPU. A análise do ano passado abrangeu roteamento, proteção, elasticidade e agendamento de interconexão ICI.

Visão geral do rack TPU

Desta vez: rack Ironwood como um bloco 4x4x4, conectando-se aos switches ópticos OCS por meio de feixes de fibra com redundância e painéis de conexão.

Suporte de pau-ferro como um bloco 4x4x4
O resfriamento líquido e o UPS são em nível de linha.

O resfriamento líquido e o UPS são em nível de linha.

coletores de rack

Concluindo, o Dia 0 do Hotchip 2025 preparou o cenário para inovações de ponta em data centers de IA. Se esses insights inspirarem ideias para suas configurações, considere a FiberMall para soluções de comunicação óptica de ponta, adaptadas a cargas de trabalho de IA.

Voltar ao Topo