Um vídeo promocional do cluster xAI 100,000 GPU de Musk foi lançado recentemente online. Patrocinado pela Supermicro, o vídeo apresenta uma introdução no local por um especialista estrangeiro em um data center, levando 15 minutos para discutir vários aspectos do cluster de 100,000 GPU. Esses aspectos incluem densidade de implantação, distribuição de gabinete, solução de resfriamento líquido, métodos de manutenção, configuração da placa de rede, especificações do switch e fonte de alimentação. No entanto, o vídeo não revelou muito sobre o design da rede, sistema de armazenamento ou progresso do modelo de treinamento. Vamos explorar os dez principais insights!
Grande escala de cluster
Em contraste com os clusters mais comuns em nosso país, tipicamente compostos de 1,000 GPUs (equivalente a 128 sistemas H100), o cluster de 100,000 GPUs é 100 vezes maior, exigindo aproximadamente 12,800 sistemas H100. O vídeo promocional afirma que a implantação foi concluída em apenas 122 dias, mostrando uma disparidade significativa entre as capacidades de cluster de GPU nacionais e internacionais.
Alta Densidade Computacional
O vídeo mostra que o H100 usa um design de rack 4U, com cada gabinete implantando 8 sistemas, o que equivale a 64 GPUs por gabinete. Uma fileira de gabinetes contém 8 gabinetes, totalizando 512 GPUs por fileira. O cluster de 100,000 GPUs compreende aproximadamente 200 fileiras de gabinetes. Domesticamente, é mais comum colocar 1-2 sistemas H100 por gabinete, cada sistema H100 consumindo 10.2 kW. A implantação de 8 sistemas excede 80 kW, fornecendo uma referência para futuras implantações de cluster de alta densidade.
Adoção em larga escala de resfriamento líquido de placa fria
Embora a tecnologia de resfriamento líquido tenha sido desenvolvida por muitos anos domesticamente, sua entrega em larga escala é rara. O vídeo demonstra que o cluster de 100,000 GPUs emprega a solução de resfriamento líquido de placa fria convencional atual, cobrindo chips de GPU e CPU (enquanto outros componentes como memória e discos rígidos ainda requerem resfriamento a ar). Cada gabinete tem uma CDU (Cooling Distribution Unit) na parte inferior, configurada de forma distribuída, com bombas redundantes para evitar interrupções do sistema devido a falhas únicas.
Placa de rede e solução de rede – RoCE
Embora o vídeo não detalhe a topologia da rede, ele menciona que cada dispositivo H100 é equipado com 8 placas Mellanox BFD-3 (uma para cada GPU e placa BFD-3 correspondente) e uma placa de rede CX7 400G. Isso difere das configurações domésticas atuais, e o vídeo não fornece uma explicação para essa configuração. Além disso, a solução de rede usa RoCE em vez da rede IB mais prevalente domesticamente, provavelmente devido à relação custo-benefício do RoCE e sua maturidade em lidar com clusters de grande escala. Mellanox continua sendo a marca de switch preferida.
Modelo e especificações do switch
O vídeo apresenta o modelo de switch como o switch NVIDIA Spectrum-x SN5600 Ethernet, que tem 64 interfaces físicas de 800G que podem ser convertidas em 128 interfaces de 400G. Essa configuração reduz significativamente o número de switches necessários, potencialmente se tornando uma tendência futura em design de rede.
Manutenção modular para servidores GPU
Todos nós sabemos que a taxa de falhas das GPUs H100 é significativamente maior do que a dos servidores de uso geral, tornando a substituição e o reparo bastante desafiadores. O vídeo apresentou a plataforma 4U H100 da Supermicro, que suporta manutenção estilo gaveta para módulos de GPU e CPU. Conforme mostrado na imagem, há uma alça que permite fácil remoção e manutenção sem ter que desmontar o servidor inteiro, aumentando muito a eficiência da manutenção.
Luzes indicadoras de cor do gabinete
Conforme mostrado na imagem, o efeito azul fornece uma forte sensação tecnológica ao mesmo tempo em que indica que o equipamento está operando normalmente. Se um gabinete apresentar um problema, a mudança na cor das luzes indicadoras permite que o pessoal de manutenção identifique rapidamente o gabinete com defeito. Embora não seja uma tecnologia de ponta, é bastante interessante e prático.
Necessidade contínua de servidores de uso geral
No design de soluções de centro de computação inteligente, muitos frequentemente ignoram servidores de uso geral. Embora os servidores GPU sejam o núcleo, muitas tarefas auxiliares de gerenciamento ainda exigem suporte de servidores de uso geral. O vídeo demonstrou servidores 1U de alta densidade fornecendo poder de computação de CPU, coexistindo com nós de GPU sem conflito. Os nós de CPU suportam predominantemente sistemas de negócios relacionados ao gerenciamento.
Importância dos sistemas de armazenamento
Embora o vídeo não tenha detalhado o design do sistema de armazenamento, ele apresentou brevemente esse módulo essencial para centros de computação inteligentes. O armazenamento é crítico para dar suporte ao armazenamento de dados em sistemas de treinamento, afetando diretamente a eficiência do treinamento. Portanto, os centros de computação inteligentes geralmente escolhem armazenamento GPFS de alto desempenho para construir sistemas de arquivos distribuídos.
Sistema de Garantia de Fornecimento de Energia
O vídeo exibiu um grande pacote de bateria preparado especificamente para o cluster de 100,000 GPUs. O sistema de energia se conecta ao pacote de bateria, que então fornece energia ao cluster, mitigando efetivamente os riscos associados ao fornecimento de energia instável. Embora não tenham sido divulgadas muitas informações, isso ressalta a importância de um fornecimento de energia confiável para sistemas de centros de computação inteligentes.
A ser continuado: Expansão contínua do cluster
O vídeo concluiu afirmando que o cluster de 100,000 GPUs é apenas uma fase e que a engenharia do sistema ainda está em andamento.
Produtos relacionados:
- OSFP-800G-FR4 800G OSFP FR4 (200G por linha) PAM4 CWDM Duplex LC 2km SMF Módulo Transceptor Óptico $5000.00
- OSFP-800G-2FR2L 800G OSFP 2FR2 (200G por linha) PAM4 1291/1311nm 2km DOM Duplex LC SMF Módulo Transceptor Óptico $4500.00
- OSFP-800G-2FR2 800G OSFP 2FR2 (200G por linha) PAM4 1291/1311nm 2km DOM Dual CS SMF Módulo transceptor óptico $4500.00
- OSFP-800G-DR4 800G OSFP DR4 (200G por linha) PAM4 1311nm MPO-12 500m SMF DDM Módulo transceptor óptico $3500.00
- Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1200.00
- Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $850.00
- Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1100.00
- Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $750.00
- NVIDIA MMS1Z00-NS400 Compatível 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 com Módulo Transceptor Óptico FEC $800.00
- Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
- Compatível com NVIDIA MMA1Z00-NS400 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC Módulo transceptor óptico $650.00
- Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $650.00
- Módulo transceptor óptico compatível com NVIDIA MMS4X50-NM OSFP 2x400G FR4 PAM4 1310nm 2km DOM Dual Duplex LC SMF $1350.00
- Módulo ótico do transceptor de OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm 2km SN SMF $17000.00
- OSFP-XD-1.6T-2FR4 1.6T OSFP-XD 2xFR4 PAM4 2x CWDM4 2km Dual Duplex LC SMF Módulo Transceptor Óptico $22400.00
- Módulo transceptor óptico OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311nm 2km MPO-16 SMF $12600.00