InfiniBand frente a Ethernet en HPC

La competencia entre InfiniBand y Ethernet siempre ha existido en el campo de la informática de alto rendimiento. Las empresas y organizaciones deben sopesar las ventajas y desventajas de estas dos tecnologías para elegir la tecnología de red que mejor se adapte a sus necesidades. Tener múltiples opciones al optimizar sistemas es algo bueno, porque diferentes software se comportan de manera diferente y diferentes instituciones tienen diferentes presupuestos. Por lo tanto, vemos el uso de varias interconexiones y protocolos en los sistemas HPC, y creemos que esta diversidad no disminuirá, sino que puede aumentar, especialmente a medida que nos acercamos gradualmente al final de la ley de Moore.

Revisión de almacenamiento-NVIDIA-NDR-Infiniband

Siempre es interesante observar en profundidad las tendencias de interconexión en el ranking de supercomputadoras Top500, que se publica dos veces al año. Analizamos los nuevos sistemas de la lista y todos los indicadores informáticos reflejados en el ranking, y ahora toca mirar las interconexiones. Gilad Shainer, vicepresidente senior y director de producto de Quantum InfiniBand Switches en Nvidia (anteriormente parte de Mellanox Technology), siempre analiza las interconexiones del Top500 y las comparte con nosotros. Ahora podemos compartir su análisis con usted. Profundicemos. Comencemos observando la tendencia de desarrollo de las tecnologías de interconexión en la lista Top500 desde noviembre de 2007 hasta junio de 2021.

tendencia de desarrollo de tecnologías de interconexión

La lista Top500 incluye sistemas informáticos de alto rendimiento del mundo académico, gubernamental y de la industria, así como sistemas creados por proveedores de servicios, creadores de nubes y plataformas informáticas de hiperescala. Por lo tanto, esta no es una lista pura de "supercomputadoras", como la gente suele llamar supercomputadoras a las máquinas que ejecutan cargas de trabajo de modelado y simulación tradicionales.

InfiniBand y Ethernet que funcionan a velocidades de 10 Gb/s o menos han experimentado altibajos en los últimos trece años y medio. InfiniBand está subiendo, mientras que su variante Omni-Path (anteriormente controlada por Intel, ahora propiedad de Cornelis Networks) ha caído ligeramente en el ranking de junio de 2021.

CORNELIS publica la hoja de ruta de interconexión OMNI-PATH

Sin embargo, Ethernet que funciona a velocidades de 25 Gb/s o más está aumentando, especialmente en el rápido crecimiento entre 2017 y 2019, debido a que los conmutadores de 100 Gb/s (normalmente conmutadores Mellanox Spectrum-2) son más baratos que las tecnologías anteriores de 100 Gb/s. que dependía de modos de transmisión más caros, por lo que la mayoría de los centros informáticos de alto rendimiento no considerarían su uso. Como muchos creadores de nube y de hiperescala, se saltaron la generación de Ethernet de 200 Gb/s, excepto para las interconexiones de centros de datos y backbone, y esperaron a que bajara el costo de los conmutadores de 400 Gb/s para poder usar dispositivos de 400 Gb/s.

En la clasificación de junio de 2021, si sumamos los datos de Nvidia InfiniBand e Intel Omni-Path, hay 207 máquinas con interconexiones InfiniBand, lo que representa el 41.4 por ciento de la lista. Sospechamos firmemente que algunas de las interconexiones denominadas “propietarias” en la lista, en su mayoría de China, también son variantes de InfiniBand. En cuanto a Ethernet, independientemente de la velocidad, la proporción de interconexiones Ethernet en la lista Top500 ha variado desde un mínimo de 248 máquinas en junio de 2021 hasta un máximo de 271 máquinas en junio de 2019 en los últimos cuatro años. En los últimos años, InfiniBand ha estado erosionando la posición de Ethernet, lo cual no nos sorprende, porque las cargas de trabajo de computación de alto rendimiento (y ahora de inteligencia artificial) son muy sensibles a la latencia, y el costo de InfiniBand ha disminuido con el tiempo a medida que sus ventas. han aumentado gradualmente. (La adopción de InfiniBand por parte de los creadores de hiperescala y de nube ayuda a reducir los precios).

La mayoría de los sistemas Top100 y los sistemas Top10 pueden denominarse verdaderas supercomputadoras, lo que significa que se dedican principalmente a trabajos informáticos tradicionales de alto rendimiento. Sin embargo, cada vez más máquinas también ejecutan algunas cargas de trabajo de inteligencia artificial. Aquí está la distribución de interconexiones entre estas máquinas principales.

Distribución de interconexiones entre estas máquinas superiores.

Como se puede ver en la figura anterior, Ethernet no domina aquí, pero crecerá a medida que HPE comience a distribuir Slingshot de 200 Gb/s (una variante de Ethernet optimizada para computación de alto rendimiento desarrollada por Cray), que ya es utilizada por " Perlmutter” en el Laboratorio Nacional Lawrence Berkeley con dos puertos de 100 Gb/s por nodo. También sospechamos fuertemente que la máquina Sunway TaihuLight (en el Centro Nacional de Supercomputación en Wuxi, China) utiliza una variante de InfiniBand (aunque Mellanox nunca lo confirmó, ni tampoco el laboratorio). El ex número uno “Fugaku” (en el Instituto RIKEN en Japón) utiliza la tecnología de interconexión Tofu D de tercera generación desarrollada por Fujitsu, que implementa una topología y protocolo de toro 6D patentados. El “Tianhe-2A” (en el Centro Nacional de Supercomputación en Guangzhou, China) adopta la tecnología de interconexión patentada TH Express-2, que es única.

En el ranking de computadoras Top100, las interconexiones Cray incluyen no solo la primera máquina Slingshot, sino también un lote de máquinas que utilizan la generación anterior de interconexiones “Aries”. En el ranking de junio de 2021, había cinco máquinas Slingshot y nueve máquinas Aries en el Top100. Si se considera Slingshot como Ethernet, entonces la participación de Ethernet es del 6% y la participación de propiedad de Cray cae al 9%. Si Mellanox/Nvidia InfiniBand se combina con Intel Omni-Path, InfiniBand tiene 79 máquinas en el Top100.

Al expandirse de Top100 a Top500, la distribución de interconexiones es la siguiente agregando 100 máquinas cada vez:

expandiéndose del Top100 al Top500

Se espera que la penetración de Ethernet aumente a medida que se expanda la lista, porque muchos sistemas informáticos académicos e industriales de alto rendimiento no pueden permitirse InfiniBand o no están dispuestos a cambiar de Ethernet. Y esos proveedores de servicios, creadores de nubes y operadores de hiperescala ejecutan Linpack en una pequeña fracción de sus clústeres, por razones políticas o comerciales. Ethernet, relativamente más lento, es popular en la mitad inferior de la lista Top500, mientras que la penetración de InfiniBand cae del 70% en el Top10 al 34% en el Top500 completo.

La siguiente figura es otro gráfico que agrega la mayor parte de InfiniBand y Ethernet en la lista Top500, y explica en parte por qué Nvidia pagó 6.9 millones de dólares para adquirir Mellanox.

InfiniBand y Ethernet en el Top500

InfiniBand de Nvidia tiene una participación del 34% de las interconexiones Top500, con 170 sistemas, pero el ascenso de los conmutadores Ethernet Mellanox Spectrum y Spectrum-2 en el Top500 no es obvio, ya que agregan otros 148 sistemas. Esto le da a Nvidia una participación del 63.6% de todas las interconexiones en el ranking Top500. Este es un logro que Cisco Systems disfrutó durante 20 años en el centro de datos empresarial.

Deja un comentario

Ir al Inicio