InfiniBand vs. Ethernet im HPC

Die Konkurrenz zwischen InfiniBand und Ethernet gab es im Bereich des Hochleistungsrechnens schon immer. Unternehmen und Organisationen müssen die Vor- und Nachteile dieser beiden Technologien abwägen, um die Netzwerktechnologie auszuwählen, die ihren Anforderungen am besten entspricht. Es ist eine gute Sache, bei der Systemoptimierung mehrere Optionen zu haben, da sich unterschiedliche Software unterschiedlich verhält und unterschiedliche Institutionen unterschiedliche Budgets haben. Daher sehen wir die Verwendung verschiedener Verbindungen und Protokolle in HPC-Systemen und glauben, dass diese Vielfalt nicht abnehmen, sondern zunehmen könnte, insbesondere wenn wir uns allmählich dem Ende des Mooreschen Gesetzes nähern.

StorageReview-NVIDIA-NDR-Infiniband

Es ist immer interessant, einen detaillierten Blick auf die Verbindungstrends in der Top500-Supercomputer-Rangliste zu werfen, die zweimal im Jahr veröffentlicht wird. Wir haben die neuen Systeme auf der Liste und alle im Ranking berücksichtigten Rechenindikatoren analysiert und nun ist es an der Zeit, einen Blick auf die Zusammenhänge zu werfen. Gilad Shainer, Senior Vice President und Produktmanager von Quantum InfiniBand Switches bei Nvidia (ehemals Teil von Mellanox Technology), analysiert stets die Interconnects der Top500 und teilt sie mit uns. Jetzt können wir seine Analyse mit Ihnen teilen. Lassen Sie uns eintauchen. Schauen wir uns zunächst den Entwicklungstrend der Verbindungstechnologien in der Top500-Liste von November 2007 bis Juni 2021 an.

Entwicklungstrend der Verbindungstechnologien

Die Top500-Liste umfasst Hochleistungscomputersysteme aus Wissenschaft, Regierung und Industrie sowie Systeme, die von Dienstanbietern, Cloud-Buildern und Hyperscale-Computing-Plattformen erstellt wurden. Daher handelt es sich hierbei nicht um eine reine „Supercomputer“-Liste, wie Menschen Maschinen, die herkömmliche Simulations- und Modellierungsaufgaben ausführen, normalerweise als Supercomputer bezeichnen.

InfiniBand und Ethernet mit Geschwindigkeiten von 10 Gbit/s oder weniger erlebten in den letzten dreizehneinhalb Jahren Höhen und Tiefen. InfiniBand steigt, während seine Omni-Path-Variante (früher von Intel kontrolliert, jetzt im Besitz von Cornelis Networks) in der Rangliste vom Juni 2021 leicht abgerutscht ist.

CORNELIS veröffentlicht OMNI-PATH Interconnect Roadmap

Ethernet mit Geschwindigkeiten von 25 Gbit/s oder höher ist jedoch auf dem Vormarsch, insbesondere im rasanten Wachstum zwischen 2017 und 2019, da 100-Gbit/s-Switches (normalerweise Mellanox Spectrum-2-Switches) günstiger sind als frühere 100-Gbit/s-Technologien. die auf teureren Übertragungsarten beruhten, so dass die meisten Hochleistungsrechenzentren deren Einsatz nicht in Betracht ziehen würden. Wie viele Hyperscale- und Cloud-Entwickler haben sie die 200-Gbit/s-Ethernet-Generation außer bei Backbone- und Rechenzentrumsverbindungen übersprungen und darauf gewartet, dass die Kosten für 400-Gbit/s-Switches sinken, damit sie 400-Gbit/s-Geräte verwenden können.

Wenn wir in der Rangliste vom Juni 2021 die Nvidia InfiniBand- und Intel Omni-Path-Daten addieren, gibt es 207 Maschinen mit InfiniBand-Verbindungen, was 41.4 Prozent der Liste ausmacht. Wir vermuten stark, dass einige der auf der Liste als „proprietär“ bezeichneten Interconnects, meist aus China, ebenfalls Varianten von InfiniBand sind. Was Ethernet betrifft, so schwankte der Anteil der Ethernet-Verbindungen auf der Top500-Liste unabhängig von der Geschwindigkeit in den letzten vier Jahren von einem Tiefststand von 248 Maschinen im Juni 2021 bis zu einem Höchststand von 271 Maschinen im Juni 2019. In den letzten Jahren hat InfiniBand die Position von Ethernet untergraben, was für uns nicht überraschend ist, da Hochleistungsrechner-Workloads (und jetzt auch künstliche Intelligenz) sehr empfindlich auf Latenz reagieren und die Kosten von InfiniBand im Laufe der Zeit mit zunehmendem Umsatz gesunken sind haben nach und nach zugenommen. (Die Einführung von InfiniBand durch Hyperscale- und Cloud-Builder trägt dazu bei, die Preise zu senken.)

Die meisten Top100-Systeme und Top10-Systeme können als echte Supercomputer bezeichnet werden, was bedeutet, dass sie hauptsächlich traditionelle Hochleistungsrechnerarbeiten durchführen. Allerdings führen immer mehr Maschinen auch einige Workloads mit künstlicher Intelligenz aus. Hier ist die Verteilung der Verbindungen zwischen diesen Top-Maschinen.

Verteilung der Verbindungen zwischen diesen Top-Maschinen

Wie aus der obigen Abbildung hervorgeht, dominiert Ethernet hier nicht, wird aber zunehmen, da HPE mit der Auslieferung von Slingshot mit 200 Gbit/s beginnt (eine von Cray entwickelte Variante von Ethernet, die für Hochleistungsrechnen optimiert ist), die bereits von der „ Perlmutter“-System am Lawrence Berkeley National Laboratory mit zwei 100-Gbit/s-Ports pro Knoten. Wir vermuten auch stark, dass die Sunway TaihuLight-Maschine (im National Supercomputing Center in Wuxi, China) eine Variante von InfiniBand verwendet (obwohl weder Mellanox noch das Labor dies bestätigt haben). Die ehemalige Nummer eins „Fugaku“ (am RIKEN-Institut in Japan) nutzt die von Fujitsu entwickelte Tofu-D-Verbindungstechnologie der dritten Generation, die eine proprietäre 6D-Torus-Topologie und ein proprietäres 2D-Torus-Protokoll implementiert. Der „Tianhe-2A“ (im National Supercomputing Center in Guangzhou, China) nutzt die proprietäre Verbindungstechnologie TH Express-XNUMX, die einzigartig ist.

In der Top-100-Computer-Rangliste enthalten Cray-Interconnects nicht nur die erste Slingshot-Maschine, sondern auch eine Reihe von Maschinen, die die vorherige Generation von „Aries“-Interconnects verwenden. Im Ranking vom Juni 2021 befanden sich fünf Slingshot-Maschinen und neun Aries-Maschinen in den Top100. Wenn Slingshot als Ethernet betrachtet wird, beträgt der Ethernet-Anteil 6 % und der proprietäre Cray-Anteil sinkt auf 9 %. Wenn Mellanox/Nvidia InfiniBand mit Intel Omni-Path kombiniert wird, hat InfiniBand 79 Maschinen in den Top100.

Bei der Erweiterung von Top100 auf Top500 ist die Verteilung der Interconnects wie folgt, indem jeweils 100 Maschinen hinzugefügt werden:

Erweiterung von Top100 zu Top500

Es wird erwartet, dass die Durchdringung von Ethernet mit der Erweiterung der Liste zunimmt, da sich viele akademische und industrielle Hochleistungsrechnersysteme InfiniBand nicht leisten können oder nicht bereit sind, von Ethernet zu wechseln. Und diese Dienstanbieter, Cloud-Builder und Hyperscale-Betreiber betreiben Linpack aus politischen oder geschäftlichen Gründen auf einem kleinen Teil ihrer Cluster. Das relativ langsamere Ethernet ist in der unteren Hälfte der Top500-Liste beliebt, während die Durchdringung von InfiniBand von 70 % in den Top10 auf 34 % in der gesamten Top500-Liste sinkt.

Die folgende Abbildung ist ein weiteres Diagramm, das die meisten InfiniBand- und Ethernet-Geräte auf der Top500-Liste zusammenfasst und teilweise erklärt, warum Nvidia 6.9 Milliarden US-Dollar für die Übernahme von Mellanox gezahlt hat.

InfiniBand und Ethernet auf dem Top500

Nvidias InfiniBand hat mit 34 Systemen einen Anteil von 500 % an den Top170-Interconnects, aber der Aufstieg der Mellanox Spectrum- und Spectrum-2-Ethernet-Switches in die Top500 ist nicht offensichtlich, da sie weitere 148 Systeme hinzufügen. Damit erreicht Nvidia einen Anteil von 63.6 % aller Interconnects im Top500-Ranking. Dies ist ein Erfolg, den Cisco Systems seit 20 Jahren im Unternehmensrechenzentrum genießt.

Hinterlasse einen Kommentar

Nach oben scrollen