Como NVIDIA GB200 utiliza 800G/1.6T DAC/ACC

A NVIDIA lançou os mais recentes sistemas de computação da série GB200, com desempenho significativamente melhorado. Esses sistemas utilizam interconexões de cobre e ópticas, gerando muita discussão no mercado sobre a evolução das tecnologias de “cobre” e “ópticas”.

Situação atual: A série GB200 (incluindo o GH200 anterior) é o sistema “superchip” da NVIDIA. Comparado aos servidores tradicionais, o sistema possui uma granularidade maior, com 36 ou 72 GPUs conectadas principalmente por meio de sinais elétricos dentro do gabinete. Externamente, eles empregam redes NVLink e InfiniBand.

A escolha entre cobre e óptico é essencialmente uma questão comercialoff entre distância e velocidade.

O GB200 reduz a importância da comunicação óptica?

Baseado no GH200, o cenário alvo para o sistema GB200 NVL72 é mais orientado para grandes clusters, nuvens e clientes do tipo plataforma – o que a NVIDIA define como “AI Cloud/AI Factory”. A forma esperada é um cluster multi-gabinete, onde redes inter-gabinetes de 800G ou mais incorreriam em perdas elétricas massivas, tornando a comunicação óptica uma necessidade.

No entanto, para clientes de pequeno e médio porte que podem adotar apenas um único sistema GB200, a viabilidade é questionável, e servidores tradicionais ou soluções baseadas em nuvem podem ser melhores opções (também parte da estratégia de diferenciação da NVIDIA).

O objetivo do design do GB200 é: um único gabinete pode lidar com inferência de IA, o que é benéfico para a implantação de virtualização em nuvem.

A unidade mínima do sistema GB200 é um gabinete, e o desempenho de inferência foi bastante melhorado, o que pode lidar melhor com parâmetros massivos, cross-modal, tokens massivos e cenários de inferência multi-simultânea, evitando sistemas distribuídos de GPU único em grande escala . No cenário IDC em nuvem, ele pode lidar melhor com a futura demanda massiva de inferência (referindo-se às avaliações da AWS e MSFT).

A compreensão do mercado sobre o aumento das interconexões de cobre se deve a:

Anteriormente, os clusters da série H100 não tinham interconexões intra-gabinete, mas sim um gabinete de rede separado, e a taxa de chip era relativamente alta, de modo que quase não havia fio de cobre de curta distância.

Enquanto para a série GB200, embora existam muitos fios de cobre dentro do gabinete, a demanda por interconexões ópticas em grandes clusters, como o domínio NVLink e a expansão de interconexão óptica do IB, é muito grande, e o caminho futuro da fotônica de silício e A E/S óptica chip a chip já é muito clara.

P: Como o lançamento do produto NVIDIA na conferência GTC difere das expectativas?

R: Nesta conferência do GTC, o GB200 se tornou o produto principal, enquanto os produtos B100 e B200 originalmente esperados não foram lançados conforme esperado. O chip GB200 contém 2 GPUs e 1 CPU, e o principal produto apresentado é um único gabinete composto por 36 chips GB200, para uso em servidores. Comparado com o GB200 lançado no ano passado, este GB200 não apresentou um produto de cluster padrão, mas apenas um único produto de gabinete de 36 placas.

P: Qual é o papel da arquitetura IP na série GB200?

R: Para alguns clientes grandes que precisam de conexões entre gabinetes, a arquitetura IP é usada para conexões externas. Porém, a diferença entre GB200 e GB200 está nas conexões internas. O GB200 usa conexões elétricas m link (ou seja, interconexões de cobre entre GPU e switch), em vez do método de conexão de backplane do ano passado. Huang enfatizou particularmente as vantagens das interconexões de cobre na redução de custos e na demonstração de desempenho na conferência.

gb200

P: Na conferência GTC, Jensen Huang deu uma explicação especial sobre a solução de interconexão de cobre, quais são as suas vantagens?

R: Esta é a primeira vez que a solução de interconexão de cobre é explicada especificamente em uma conferência tão importante, o que também é um ponto de grande preocupação para todos. As GPUs são conectadas através do mlink, confirmando o uso de interconexões de cobre, e sua solução de produto pode ser semelhante ao método de conexão do backplane do ano passado. Huang enfatizou as vantagens das interconexões de cobre na redução de custos e na demonstração de desempenho.

P: Qual é o impacto do lançamento da série GB200 no mercado?

R: Como a nova geração de chips GPU de nível de servidor da NVIDIA, as melhorias de desempenho e eficiência da série GB200 terão um impacto significativo no mercado. Particularmente, a adoção da solução de interconexão de cobre pode alterar o método de conexão interna dos clusters de GPU, reduzindo custos e melhorando o desempenho. Além disso, o GB200 poderá alterar a concepção e a implantação dos centros de dados, impulsionando ainda mais o desenvolvimento da inteligência artificial e da computação em nuvem.

P: Quais são as vantagens da interconexão de cobre GB200?

R: Destaques do lançamento do GB200: O chip único GB200 contém 2 GPUs e 1 CPU, e o principal produto lançado é um gabinete único composto por 36 chips GB200. Isso mostra que a NVIDIA está se concentrando em interconexões elétricas (mlink) em vez de tecnologia de interconexão óptica. Promoção e expectativas de mercado: O GB200 será amplamente aplicado, em contraste com o GH200 que não foi amplamente adotado. De acordo com o discurso de Huang na conferência, vários potenciais clientes importantes sugerem que o GB200 tem expectativas de alto volume. O mercado geralmente acredita que a promoção do GB200 pode levar a um aumento gradual na proporção de módulos ópticos para GPUs de 1:2.5 para 1:9, e o volume de vendas do GB200 no próximo ano pode ter um grande potencial de crescimento.

Arquitetura de rede de cluster de computação GB200

P: Qual é a tendência do setor para conectores de backplane?

R: O uso de conectores de backplane está aumentando gradualmente em servidores de IA, grandes switches e roteadores. A tecnologia também está evoluindo para modos de backplane zero ortogonal e backplane de cabo. Os cabos backplane têm as vantagens de maior distância de transmissão e fiação mais flexível, mas têm custo relativamente mais alto.

P: Quais são as tendências de demanda e preço dos conectores backplane?

R: A crescente demanda por servidores de IA está impulsionando a demanda por conectores de backplane. A mudança para o modo backplane a cabo também aumentou o valor, com o valor total representando 3-5% do custo de um único servidor. Portanto, a indústria apresenta tendência de crescimento tanto de volume quanto de preços.

P: Como o lançamento do GB200 impacta a indústria de módulos ópticos?

R: O lançamento do GB200 é positivo para a indústria de módulos ópticos, pois atende à demanda por conexões entre gabinetes, que existe para a maioria dos clientes. O atual GB200 tem uma largura de banda bidirecional de 1800G e, com base em uma proporção de configuração de 1.6T, a proporção para módulos ópticos é de cerca de 1:9. Se utilizar a solução 800G, a proporção poderá chegar a 1:18. A diferença de valor não é significativa, mas como Módulos ópticos 1.6T OSFP-XD espera-se que sejam produzidos em massa no quarto trimestre, os clientes estão mais inclinados a usar a solução 4T mais econômica. Portanto, os módulos ópticos serão atualizados, impulsionando a tendência do atual 1.6:1 para 2.5:1.

P: Quais são as principais diferenças entre GB200 e GH200?

R: A principal diferença é que a série GH não é um produto de alto volume, enquanto o GB200 tem uma ampla gama de clientes potenciais, incluindo Google, Meta, OpenAI, Microsoft, Oracle e Tesla. Isso significa que o GB200 terá ampla aplicação e adoção em grande volume.

P: Quais são as expectativas do mercado para a demanda de módulos ópticos 1.6T OSFP-XD no próximo ano?

R: A expectativa do mercado para a demanda de módulos ópticos OSFP-XD de 1.6T no próximo ano está entre 2-3 milhões de unidades, com nosso modelo prevendo 2.5 milhões. Isto ainda não considera a demanda incremental das séries B100 ou B200 independentes.

P: Que tipo de solução de interconexão o GB200 adotou?

R: O GB200 adotou uma solução de interconexão de cobre, que reduz custos. Especialmente com a adoção em grande volume do GB200, este se tornará um fator importante que impulsiona o aumento da demanda por módulos ópticos.

P: Que tendência do setor refletiu a apresentação de Huang na conferência?

R: Sua apresentação na conferência pode ser vista como um reflexo de uma tendência do setor, e não apenas como um tema quente de curto prazo. Com o tempo, a indústria observará o desempenho das empresas relevantes. O mercado anteriormente tinha debates sobre soluções de interconexão de cobre versus soluções ópticas, mas agora foi confirmado que o GB200 adotou a solução de interconexão de cobre.

P: Quais são as principais metas de investimento na indústria de módulos ópticos?

R: Com a adoção em grande volume do GB200 e a crescente demanda por módulos ópticos 1.6T OSFP-XD, o FiberMall receberá mais atenção.

1.6T OSFP-XD

P: Qual é a perspectiva de mercado para a solução de interconexão de cobre?

R: A atitude do mercado em relação à solução de interconexão de cobre está mudando. O fato de o GB200 ter adotado a solução de interconexão de cobre indica que esta solução poderá ter uma aplicação mais ampla no futuro. Com a entrega de desempenho das empresas relevantes, vale a pena aguardar a perspectiva de mercado da solução de interconexão de cobre.

P: Quais são as principais diferenças em design e aplicação entre GB200 e GH200?

R: O design do GB200 integra o switch, o servidor e a GPU no mesmo gabinete, usando um método de conexão semelhante ao de um servidor blade. As interfaces de E/S do switch são visíveis na frente, enquanto a conexão entre o switch e a GPU é provavelmente através de um cabo backplane de cobre. Em comparação, o GH200 usa um design de conexão separado com DAC (Direct Attach Cable).

P: Qual o papel do cabo backplane de cobre no design do GB200?

R: O cabo backplane de cobre desempenha um papel crítico no design do GB200, conectando os conectores backplane e suportando a interconexão entre o switch e as placas GPU. Este design torna a transmissão do sinal entre o servidor e o switch mais conveniente.

P: Quais são as principais áreas de aplicação dos conectores backplane?

R: Os conectores backplane são usados ​​principalmente em grandes switches, roteadores e servidores de IA. Especialmente em servidores com design modular e grandes switches/roteadores, essa arquitetura de subplaca e backplane será mais comum.

P: Qual é a tendência de desenvolvimento da indústria de conectores backplane?

R: Com o progresso no design de servidores e switches, espera-se que a demanda por conectores de backplane continue crescendo. Especialmente nas áreas de grandes switches, roteadores e servidores de IA, as perspectivas de aplicação desses conectores são amplas.

P: Qual é o cenário competitivo do lado da oferta?

R: O cenário competitivo no lado da oferta do conector backplane é relativamente estável. FiberMall, com sua rica experiência de produção e fortes capacidades de gerenciamento da cadeia de suprimentos, fornece ao mercado produtos de conectores de backplane estáveis ​​e de alta qualidade.

P: Como o design do GB200 impacta a demanda por conectores de backplane?

R: O design do GB200 impulsionou o crescimento da demanda por servidores de IA e grandes switches/roteadores, o que, por sua vez, impulsionou a demanda por conectores de backplane. Neste paradigma de design de servidores e switches, a demanda por conectores de backplane terá um aumento significativo.

P: Como os conectores de backplane estão evoluindo em seu caminho de desenvolvimento tecnológico?

R: Os conectores do backplane estão evoluindo em duas direções: uma é um backplane zero ortogonal e a outra é um backplane de cabo. O GB200 adota o modo backplane de cabo, cujas vantagens incluem melhor dissipação de calor, menor perda de transmissão, maior distância de transmissão e fiação mais flexível. Mas a desvantagem é o custo mais elevado.

P: Qual é a lógica do lado da demanda para conectores de backplane?

R: A demanda por conectores de backplane é impulsionada principalmente por servidores de IA, e o modo cabo-backplane tem um valor significativamente maior do que o modo PCB de backplane tradicional. Atualmente, o valor dos conectores do backplane representa cerca de 3 a 5% do custo de um único servidor.

P: Qual é a perspectiva futura do mercado para conectores de backplane?

R: Com o rápido desenvolvimento de tecnologias como inteligência artificial e big data, a demanda do mercado por conectores de backplane continuará a crescer. No futuro, o mercado de conectores backplane enfrentará mais oportunidades e desafios, e as empresas nacionais e estrangeiras precisam fortalecer continuamente sua P&D tecnológica e inovação de produtos para atender à demanda do mercado e manter uma vantagem competitiva.

P: O modo backplane a cabo usado em servidores de IA se tornará uma tendência dominante?

R: Sim, espera-se que o modo backplane de cabo usado em servidores de IA se torne uma tendência dominante.

Deixe um comentário

Voltar ao Topo