InfiniBand vs Ethernet dans HPC

La concurrence entre InfiniBand et Ethernet a toujours existé dans le domaine du calcul haute performance. Les entreprises et les organisations doivent peser les avantages et les inconvénients de ces deux technologies pour choisir la technologie réseau la mieux adaptée à leurs besoins. Disposer de plusieurs options pour optimiser les systèmes est une bonne chose, car différents logiciels se comportent différemment et différentes institutions ont des budgets différents. Par conséquent, nous constatons l'utilisation de diverses interconnexions et protocoles dans les systèmes HPC, et nous pensons que cette diversité ne diminuera pas, mais pourrait augmenter, d'autant plus que nous approchons progressivement de la fin de la loi de Moore.

StorageReview-NVIDIA-NDR-Infiniband

Il est toujours intéressant d’examiner en profondeur les tendances en matière d’interconnexion dans le classement Top500 des supercalculateurs, publié deux fois par an. Nous avons analysé les nouveaux systèmes de la liste et tous les indicateurs informatiques reflétés dans le classement, et il est maintenant temps d'examiner les interconnexions. Gilad Shainer, vice-président senior et chef de produit de Quantum InfiniBand commutateurs chez Nvidia (anciennement partie de Mellanox Technology), analyse toujours les interconnexions du Top500 et les partage avec nous. Désormais, nous pouvons partager son analyse avec vous. Allons-y. Commençons par examiner la tendance de développement des technologies d'interconnexion dans la liste Top500 de novembre 2007 à juin 2021.

tendance de développement des technologies d'interconnexion

La liste Top500 comprend des systèmes informatiques hautes performances issus du monde universitaire, du gouvernement et de l'industrie, ainsi que des systèmes construits par des fournisseurs de services, des constructeurs de cloud et des plates-formes informatiques hyperscale. Par conséquent, il ne s’agit pas d’une pure liste de « superordinateurs », comme les gens appellent généralement les machines qui exécutent des charges de travail de simulation et de modélisation traditionnelles.

InfiniBand et Ethernet fonctionnant à des vitesses de 10 Gb/s ou inférieures ont connu des hauts et des bas au cours des treize dernières années et demie. InfiniBand est en hausse, tandis que sa variante Omni-Path (anciennement contrôlée par Intel, désormais propriété de Cornelis Networks) recule légèrement dans le classement de juin 2021.

CORNELIS publie la feuille de route de l'interconnexion OMNI-PATH

Cependant, l'Ethernet fonctionnant à des vitesses de 25 Gb/s ou plus est en augmentation, en particulier dans le cadre de la croissance rapide entre 2017 et 2019, car les commutateurs 100 Gb/s (généralement les commutateurs Mellanox Spectrum-2) sont moins chers que les technologies 100 Gb/s précédentes. qui reposaient sur des modes de transmission plus coûteux, de sorte que la plupart des centres de calcul hautes performances n’envisageraient pas de les utiliser. Comme de nombreux constructeurs hyperscale et cloud, ils ont ignoré la génération Ethernet 200 Gb/s, à l'exception des interconnexions du backbone et des centres de données, et ils ont attendu que le coût des commutateurs 400 Gb/s baisse pour pouvoir utiliser des appareils à 400 Gb/s.

Dans le classement de juin 2021, si l'on additionne les données Nvidia InfiniBand et Intel Omni-Path, il y a 207 machines dotées d'interconnexions InfiniBand, soit 41.4 % de la liste. Nous soupçonnons fortement que certaines des interconnexions dites « propriétaires » sur la liste, provenant principalement de Chine, sont également des variantes d'InfiniBand. Quant à Ethernet, quelle que soit la vitesse, la part des interconnexions Ethernet dans la liste Top500 a varié d'un minimum de 248 machines en juin 2021 à un maximum de 271 machines en juin 2019 au cours des quatre dernières années. Ces dernières années, InfiniBand a érodé la position d'Ethernet, ce qui ne nous surprend pas, car les charges de travail de calcul haute performance (et maintenant d'intelligence artificielle) sont très sensibles à la latence, et le coût d'InfiniBand a diminué au fil du temps à mesure que ses ventes ont progressivement augmenté. (L'adoption d'InfiniBand par les constructeurs hyperscale et cloud contribue à réduire les prix.)

La plupart des systèmes Top100 et Top10 peuvent être qualifiés de véritables supercalculateurs, ce qui signifie qu'ils effectuent principalement des travaux de calcul haute performance traditionnels. Cependant, de plus en plus de machines exécutent également des charges de travail d’intelligence artificielle. Voici la répartition des interconnexions entre ces meilleures machines.

répartition des interconnexions entre ces machines haut de gamme

Comme le montre la figure ci-dessus, Ethernet ne domine pas ici, mais il va croître à mesure que HPE commencera à commercialiser Slingshot à 200 Go/s (une variante d'Ethernet optimisée pour le calcul haute performance développée par Cray), qui est déjà utilisée par le « Perlmutter » au Lawrence Berkeley National Laboratory avec deux ports 100 Gb/s par nœud. Nous soupçonnons également fortement que la machine Sunway TaihuLight (au Centre national de calcul intensif de Wuxi, en Chine) utilise une variante d'InfiniBand (bien que Mellanox ne l'ait jamais confirmé, ni le laboratoire). L'ancien numéro un « Fugaku » (de l'Institut RIKEN au Japon) utilise la technologie d'interconnexion Tofu D de troisième génération développée par Fujitsu, qui implémente une topologie et un protocole propriétaires de tore 6D. Le « Tianhe-2A » (au Centre national de calcul intensif de Guangzhou, en Chine) adopte la technologie d'interconnexion propriétaire TH Express-2, qui est unique.

Dans le classement informatique Top100, les interconnexions Cray incluent non seulement la première machine Slingshot mais également un lot de machines utilisant la génération précédente d'interconnexions « Aries ». Dans le classement de juin 2021, il y avait cinq machines Slingshot et neuf machines Aries dans le Top100. Si Slingshot est considéré comme Ethernet, alors la part d'Ethernet est de 6 % et la part propriétaire de Cray tombe à 9 %. Si Mellanox/Nvidia InfiniBand est combiné avec Intel Omni-Path, InfiniBand compte 79 machines dans le Top100.

Lors de l'extension du Top100 au Top500, la répartition des interconnexions est la suivante en ajoutant à chaque fois 100 machines :

passer du Top100 au Top500

La pénétration d'Ethernet devrait augmenter à mesure que la liste s'allonge, car de nombreux systèmes informatiques hautes performances académiques et industriels ne peuvent pas se permettre InfiniBand ou ne souhaitent pas abandonner Ethernet. Et ces fournisseurs de services, constructeurs de cloud et opérateurs hyperscale exécutent Linpack sur une petite fraction de leurs clusters, pour des raisons politiques ou commerciales. L'Ethernet, relativement plus lent, est populaire dans la moitié inférieure de la liste Top500, tandis que la pénétration d'InfiniBand passe de 70 % dans le Top10 à 34 % dans le Top500 complet.

La figure suivante est un autre graphique, qui regroupe la plupart des InfiniBand et Ethernet sur la liste Top500, et explique en partie pourquoi Nvidia a payé 6.9 milliards de dollars pour acquérir Mellanox.

InfiniBand et Ethernet sur le Top500

InfiniBand de Nvidia détient 34 % des interconnexions du Top500, avec 170 systèmes, mais la montée en puissance des commutateurs Ethernet Mellanox Spectrum et Spectrum-2 dans le Top500 n'est pas évidente, car ils ajoutent 148 systèmes supplémentaires. Cela donne à Nvidia une part de 63.6 % de toutes les interconnexions du classement Top500. Il s'agit d'une réussite dont Cisco Systems bénéficie depuis 20 ans dans le domaine des centres de données d'entreprise.

Laisser un commentaire

Remonter en haut