InfiniBand versus Ethernet em HPC

A competição entre InfiniBand e Ethernet sempre existiu no campo da computação de alto desempenho. As empresas e organizações precisam pesar as vantagens e desvantagens destas duas tecnologias para escolher a tecnologia de rede que melhor se adapta às suas necessidades. Ter múltiplas opções ao otimizar sistemas é uma coisa boa, porque diferentes softwares se comportam de maneira diferente e diferentes instituições têm orçamentos diferentes. Portanto, vemos o uso de diversas interconexões e protocolos em sistemas HPC, e pensamos que essa diversidade não diminuirá, mas poderá aumentar, especialmente à medida que nos aproximamos gradualmente do fim da lei de Moore.

ArmazenamentoReview-NVIDIA-NDR-Infiniband

É sempre interessante observar profundamente as tendências de interconexão no ranking de supercomputadores Top500, divulgado duas vezes por ano. Analisamos os novos sistemas da lista e todos os indicadores de computação refletidos no ranking, e agora é hora de olhar para as interconexões. Gilad Shainer, vice-presidente sênior e gerente de produto da Quantum InfiniBand switches da Nvidia (anteriormente parte da Mellanox Technology), sempre analisa as interconexões do Top500 e as compartilha conosco. Agora, podemos compartilhar sua análise com você. Vamos começar observando a tendência de desenvolvimento de tecnologias de interconexão na lista Top500 de novembro de 2007 a junho de 2021.

tendência de desenvolvimento de tecnologias de interconexão

A lista Top500 inclui sistemas de computação de alto desempenho da academia, do governo e da indústria, bem como sistemas construídos por provedores de serviços, construtores de nuvem e plataformas de computação em hiperescala. Portanto, esta não é uma lista pura de “supercomputadores”, como as pessoas costumam chamar de supercomputadores máquinas que executam simulação tradicional e modelagem de cargas de trabalho.

InfiniBand e Ethernet rodando a velocidades de 10 Gb/s ou inferiores passaram por altos e baixos nos últimos treze anos e meio. A InfiniBand está subindo, enquanto sua variante Omni-Path (anteriormente controlada pela Intel, agora propriedade da Cornelis Networks) caiu ligeiramente na classificação de junho de 2021.

CORNELIS lança roteiro de interconexão OMNI-PATH

No entanto, a Ethernet rodando a velocidades de 25 Gb/s ou superiores está em ascensão, especialmente no rápido crescimento entre 2017 e 2019, porque os switches de 100 Gb/s (geralmente switches Mellanox Spectrum-2) são mais baratos do que as tecnologias anteriores de 100 Gb/s, que dependiam de modos de transmissão mais caros, de modo que a maioria dos centros de computação de alto desempenho não consideraria utilizá-los. Como muitos construtores de hiperescala e de nuvem, eles pularam a geração Ethernet de 200 Gb/s, exceto para interconexões de backbone e data center, e esperaram que o custo dos switches de 400 Gb/s caísse, para que pudessem usar dispositivos de 400 Gb/s.

Na classificação de junho de 2021, se somarmos os dados da Nvidia InfiniBand e Intel Omni-Path, então há 207 máquinas com interconexões InfiniBand, representando 41.4% da lista. Suspeitamos fortemente que algumas das interconexões chamadas “proprietárias” na lista, principalmente da China, também sejam variantes do InfiniBand. Quanto à Ethernet, independentemente da velocidade, a participação de interconexões Ethernet na lista Top500 variou de um mínimo de 248 máquinas em junho de 2021 a um máximo de 271 máquinas em junho de 2019 nos últimos quatro anos. Nos últimos anos, a InfiniBand tem minado a posição da Ethernet, o que não nos surpreende, porque as cargas de trabalho de computação de alto desempenho (e agora de inteligência artificial) são muito sensíveis à latência, e o custo da InfiniBand diminuiu ao longo do tempo, à medida que suas vendas aumentaram gradualmente. (A adoção do InfiniBand por construtores de hiperescala e de nuvem ajuda a reduzir os preços.)

A maioria dos sistemas Top100 e Top10 podem ser chamados de verdadeiros supercomputadores, o que significa que eles se dedicam principalmente ao trabalho tradicional de computação de alto desempenho. No entanto, cada vez mais máquinas também executam algumas cargas de trabalho de inteligência artificial. Aqui está a distribuição das interconexões entre essas máquinas de ponta.

distribuição de interconexões entre essas máquinas de ponta

Como pode ser visto na figura acima, a Ethernet não domina aqui, mas crescerá à medida que a HPE começar a distribuir o Slingshot de 200 Gb/s (uma variante da Ethernet otimizada para computação de alto desempenho desenvolvida pela Cray), que já é usada pelo “ Perlmutter” no Laboratório Nacional Lawrence Berkeley com duas portas de 100 Gb/s por nó. Também suspeitamos fortemente que a máquina Sunway TaihuLight (no Centro Nacional de Supercomputação em Wuxi, China) usa uma variante do InfiniBand (embora a Mellanox nunca tenha confirmado isso, nem o laboratório). O antigo número um “Fugaku” (no Instituto RIKEN no Japão) usa a tecnologia de interconexão Tofu D de terceira geração desenvolvida pela Fujitsu, que implementa uma topologia e protocolo torus 6D proprietários. O “Tianhe-2A” (no Centro Nacional de Supercomputação em Guangzhou, China) adota a tecnologia de interconexão proprietária TH Express-2, que é única.

No ranking Top100 de computadores, as interconexões Cray incluem não apenas a primeira máquina Slingshot, mas também um lote de máquinas que usam a geração anterior de interconexões “Aries”. No ranking de junho de 2021, havia cinco máquinas Slingshot e nove máquinas Aries no Top100. Se o Slingshot for considerado Ethernet, então a participação da Ethernet é de 6%, e a participação proprietária da Cray cai para 9%. Se Mellanox/Nvidia InfiniBand for combinado com Intel Omni-Path, InfiniBand terá 79 máquinas no Top100.

Ao expandir do Top100 para o Top500, a distribuição das interconexões é a seguinte, adicionando 100 máquinas de cada vez:

expandindo do Top100 para o Top500

Espera-se que a penetração da Ethernet aumente à medida que a lista se expande, porque muitos sistemas de computação acadêmicos e industriais de alto desempenho não podem pagar pela InfiniBand ou não estão dispostos a mudar da Ethernet. E esses provedores de serviços, construtores de nuvem e operadores de hiperescala executam o Linpack em uma pequena fração de seus clusters, por motivos políticos ou comerciais. A Ethernet relativamente mais lenta é popular na metade inferior da lista Top500, enquanto a penetração da InfiniBand cai de 70% no Top10 para 34% no Top500 completo.

A figura a seguir é outro gráfico, que agrega a maior parte da InfiniBand e Ethernet na lista Top500, e explica parcialmente por que a Nvidia pagou US$ 6.9 bilhões para adquirir a Mellanox.

InfiniBand e Ethernet no Top500

O InfiniBand da Nvidia tem 34% de participação nas interconexões Top500, com 170 sistemas, mas a ascensão dos switches Ethernet Mellanox Spectrum e Spectrum-2 no Top500 não é óbvia, pois adicionam outros 148 sistemas. Isso dá à Nvidia uma participação de 63.6% em todas as interconexões no ranking Top500. Esta é uma conquista que a Cisco Systems obteve durante 20 anos no data center empresarial.

Deixe um comentário

Voltar ao Topo