Die Konkurrenz zwischen InfiniBand und Ethernet gab es im Bereich des Hochleistungsrechnens schon immer. Unternehmen und Organisationen müssen die Vor- und Nachteile dieser beiden Technologien abwägen, um die Netzwerktechnologie auszuwählen, die ihren Anforderungen am besten entspricht. Es ist eine gute Sache, bei der Systemoptimierung mehrere Optionen zu haben, da sich unterschiedliche Software unterschiedlich verhält und unterschiedliche Institutionen unterschiedliche Budgets haben. Daher sehen wir die Verwendung verschiedener Verbindungen und Protokolle in HPC-Systemen und glauben, dass diese Vielfalt nicht abnehmen, sondern zunehmen könnte, insbesondere wenn wir uns allmählich dem Ende des Mooreschen Gesetzes nähern.
Es ist immer interessant, einen detaillierten Blick auf die Verbindungstrends in der Top500-Supercomputer-Rangliste zu werfen, die zweimal im Jahr veröffentlicht wird. Wir haben die neuen Systeme auf der Liste und alle im Ranking berücksichtigten Rechenindikatoren analysiert und nun ist es an der Zeit, einen Blick auf die Zusammenhänge zu werfen. Gilad Shainer, Senior Vice President und Produktmanager von Quantum InfiniBand Switches bei Nvidia (ehemals Teil von Mellanox Technology), analysiert stets die Interconnects der Top500 und teilt sie mit uns. Jetzt können wir seine Analyse mit Ihnen teilen. Lassen Sie uns eintauchen. Schauen wir uns zunächst den Entwicklungstrend der Verbindungstechnologien in der Top500-Liste von November 2007 bis Juni 2021 an.
Die Top500-Liste umfasst Hochleistungscomputersysteme aus Wissenschaft, Regierung und Industrie sowie Systeme, die von Dienstanbietern, Cloud-Buildern und Hyperscale-Computing-Plattformen erstellt wurden. Daher handelt es sich hierbei nicht um eine reine „Supercomputer“-Liste, wie Menschen Maschinen, die herkömmliche Simulations- und Modellierungsaufgaben ausführen, normalerweise als Supercomputer bezeichnen.
InfiniBand und Ethernet mit Geschwindigkeiten von 10 Gbit/s oder weniger erlebten in den letzten dreizehneinhalb Jahren Höhen und Tiefen. InfiniBand steigt, während seine Omni-Path-Variante (früher von Intel kontrolliert, jetzt im Besitz von Cornelis Networks) in der Rangliste vom Juni 2021 leicht abgerutscht ist.
CORNELIS veröffentlicht OMNI-PATH Interconnect Roadmap
Ethernet mit Geschwindigkeiten von 25 Gbit/s oder höher ist jedoch auf dem Vormarsch, insbesondere im rasanten Wachstum zwischen 2017 und 2019, da 100-Gbit/s-Switches (normalerweise Mellanox Spectrum-2-Switches) günstiger sind als frühere 100-Gbit/s-Technologien. die auf teureren Übertragungsarten beruhten, so dass die meisten Hochleistungsrechenzentren deren Einsatz nicht in Betracht ziehen würden. Wie viele Hyperscale- und Cloud-Entwickler haben sie die 200-Gbit/s-Ethernet-Generation außer bei Backbone- und Rechenzentrumsverbindungen übersprungen und darauf gewartet, dass die Kosten für 400-Gbit/s-Switches sinken, damit sie 400-Gbit/s-Geräte verwenden können.
Wenn wir in der Rangliste vom Juni 2021 die Nvidia InfiniBand- und Intel Omni-Path-Daten addieren, gibt es 207 Maschinen mit InfiniBand-Verbindungen, was 41.4 Prozent der Liste ausmacht. Wir vermuten stark, dass einige der auf der Liste als „proprietär“ bezeichneten Interconnects, meist aus China, ebenfalls Varianten von InfiniBand sind. Was Ethernet betrifft, so schwankte der Anteil der Ethernet-Verbindungen auf der Top500-Liste unabhängig von der Geschwindigkeit in den letzten vier Jahren von einem Tiefststand von 248 Maschinen im Juni 2021 bis zu einem Höchststand von 271 Maschinen im Juni 2019. In den letzten Jahren hat InfiniBand die Position von Ethernet untergraben, was für uns nicht überraschend ist, da Hochleistungsrechner-Workloads (und jetzt auch künstliche Intelligenz) sehr empfindlich auf Latenz reagieren und die Kosten von InfiniBand im Laufe der Zeit mit zunehmendem Umsatz gesunken sind haben nach und nach zugenommen. (Die Einführung von InfiniBand durch Hyperscale- und Cloud-Builder trägt dazu bei, die Preise zu senken.)
Die meisten Top100-Systeme und Top10-Systeme können als echte Supercomputer bezeichnet werden, was bedeutet, dass sie hauptsächlich traditionelle Hochleistungsrechnerarbeiten durchführen. Allerdings führen immer mehr Maschinen auch einige Workloads mit künstlicher Intelligenz aus. Hier ist die Verteilung der Verbindungen zwischen diesen Top-Maschinen.
Wie aus der obigen Abbildung hervorgeht, dominiert Ethernet hier nicht, wird aber zunehmen, da HPE mit der Auslieferung von Slingshot mit 200 Gbit/s beginnt (eine von Cray entwickelte Variante von Ethernet, die für Hochleistungsrechnen optimiert ist), die bereits von der „ Perlmutter“-System am Lawrence Berkeley National Laboratory mit zwei 100-Gbit/s-Ports pro Knoten. Wir vermuten auch stark, dass die Sunway TaihuLight-Maschine (im National Supercomputing Center in Wuxi, China) eine Variante von InfiniBand verwendet (obwohl weder Mellanox noch das Labor dies bestätigt haben). Die ehemalige Nummer eins „Fugaku“ (am RIKEN-Institut in Japan) nutzt die von Fujitsu entwickelte Tofu-D-Verbindungstechnologie der dritten Generation, die eine proprietäre 6D-Torus-Topologie und ein proprietäres 2D-Torus-Protokoll implementiert. Der „Tianhe-2A“ (im National Supercomputing Center in Guangzhou, China) nutzt die proprietäre Verbindungstechnologie TH Express-XNUMX, die einzigartig ist.
In der Top-100-Computer-Rangliste enthalten Cray-Interconnects nicht nur die erste Slingshot-Maschine, sondern auch eine Reihe von Maschinen, die die vorherige Generation von „Aries“-Interconnects verwenden. Im Ranking vom Juni 2021 befanden sich fünf Slingshot-Maschinen und neun Aries-Maschinen in den Top100. Wenn Slingshot als Ethernet betrachtet wird, beträgt der Ethernet-Anteil 6 % und der proprietäre Cray-Anteil sinkt auf 9 %. Wenn Mellanox/Nvidia InfiniBand mit Intel Omni-Path kombiniert wird, hat InfiniBand 79 Maschinen in den Top100.
Bei der Erweiterung von Top100 auf Top500 ist die Verteilung der Interconnects wie folgt, indem jeweils 100 Maschinen hinzugefügt werden:
Es wird erwartet, dass die Durchdringung von Ethernet mit der Erweiterung der Liste zunimmt, da sich viele akademische und industrielle Hochleistungsrechnersysteme InfiniBand nicht leisten können oder nicht bereit sind, von Ethernet zu wechseln. Und diese Dienstanbieter, Cloud-Builder und Hyperscale-Betreiber betreiben Linpack aus politischen oder geschäftlichen Gründen auf einem kleinen Teil ihrer Cluster. Das relativ langsamere Ethernet ist in der unteren Hälfte der Top500-Liste beliebt, während die Durchdringung von InfiniBand von 70 % in den Top10 auf 34 % in der gesamten Top500-Liste sinkt.
Die folgende Abbildung ist ein weiteres Diagramm, das die meisten InfiniBand- und Ethernet-Geräte auf der Top500-Liste zusammenfasst und teilweise erklärt, warum Nvidia 6.9 Milliarden US-Dollar für die Übernahme von Mellanox gezahlt hat.
Nvidias InfiniBand hat mit 34 Systemen einen Anteil von 500 % an den Top170-Interconnects, aber der Aufstieg der Mellanox Spectrum- und Spectrum-2-Ethernet-Switches in die Top500 ist nicht offensichtlich, da sie weitere 148 Systeme hinzufügen. Damit erreicht Nvidia einen Anteil von 63.6 % aller Interconnects im Top500-Ranking. Dies ist ein Erfolg, den Cisco Systems seit 20 Jahren im Unternehmensrechenzentrum genießt.
Ähnliche Produkte:
- NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $2000.00
- 10 m (33ft) 12 Fasern Buchse zu Buchse MPO-Amtsleitungskabel Polarität B LSZH OS2 9/125 Single Mode $32.00
- NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $1400.00
- NVIDIA MFP7E10-N015-kompatibel, 15 m (49 Fuß), 8 Fasern, geringe Einfügungsdämpfung, Buchse auf Buchse, MPO-Stammkabel, Polarität B, APC auf APC LSZH, Multimode OM3 50/125 $54.00
- NVIDIA MCP4Y10-N00A kompatibles 0.5 m (1.6 Fuß) 800G Twin-Port 2x400G OSFP zu 2x400G OSFP InfiniBand NDR Passives Direct Attach Kupferkabel $175.00
- NVIDIA MFA7U10-H015 kompatibles 15 m (49 Fuß) 400G OSFP zu 2x200G QSFP56 Twin Port HDR Breakout Aktives optisches Kabel $925.00
- NVIDIA MCP7Y60-H001 kompatibles 1 m (3 Fuß) 400G OSFP auf 2x200G QSFP56 Passives Direct Attach Kabel $123.00
- NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $2000.00
- NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $1400.00
- NVIDIA MCP4Y10-N00A-FLT-kompatibler 0.5 m (1.6 Fuß) 800G Twin-Port 2x400G OSFP zu 2x400G OSFP InfiniBand NDR passiver DAC, flache Oberseite an einem Ende und gerippte Oberseite am anderen Ende $175.00
- NVIDIA MCA4J80-N003-FTF-kompatibles 3 m (10 Fuß) 800G Twin-Port 2x400G OSFP zu 2x400G OSFP InfiniBand NDR Aktives Kupferkabel, flache Oberseite an einem Ende und gerippte Oberseite am anderen Ende $600.00
- NVIDIA MMA4Z00-NS400 kompatibles 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 Multimode FEC optisches Transceiver-Modul $1100.00
- NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI-Adapterkarte, NDR/400G, Single-Port-OSFP, PCIe 5.0x 16, hohe Halterung $1650.00
- NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI-Adapterkarte, HDR/200GbE, Single-Port QSFP56, PCIe3.0/4.0 x16, hohe Halterung $1400.00
- NVIDIA MCP7Y50-N001-FLT-kompatibler 1 m (3 Fuß) 800G InfiniBand NDR Twin-Port OSFP zu 4x200G Flat Top OSFP Breakout DAC $485.00
- NVIDIA MCA7J70-N004 kompatibel 4 m (13 Fuß) 800G InfiniBand NDR Twin-Port OSFP zu 4x200G OSFP Breakout ACC $1100.00
- NVIDIA MCA7J60-N004 kompatibles 4 m (13 Fuß) 800G Twin-Port OSFP zu 2x400G OSFP InfiniBand NDR Breakout Aktives Kupferkabel $800.00
- NVIDIA MCP7Y00-N001-FLT-kompatibler 1 m (3 Fuß) 800G Twin-Port OSFP zu 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $300.00