InfiniBand と Ethernet の間の競争は、ハイパフォーマンス コンピューティングの分野で常に存在しています。 企業や組織は、これら XNUMX つのテクノロジーの長所と短所を比較検討して、ニーズに最適なネットワーク テクノロジーを選択する必要があります。 ソフトウェアが異なれば動作も異なり、予算も機関によって異なるため、システムを最適化するときに複数のオプションがあることは良いことです。 したがって、HPC システムではさまざまな相互接続やプロトコルが使用されており、特にムーアの法則の終わりに徐々に近づくにつれて、この多様性は減少することはなく、増加する可能性があると考えています。
年に 500 回発表される TopXNUMX スーパーコンピューター ランキングで相互接続の傾向を詳しく調べることは、常に興味深いことです。 リスト上の新しいシステムと、ランキングに反映されているすべてのコンピューティング指標を分析しました。次に、相互接続に注目します。 Gilad Shainer 氏、Quantum 上級副社長兼プロダクト マネージャー Nvidia (以前は Mellanox Technology の一部) のスイッチは常に Top500 の相互接続を分析し、それを私たちと共有しています。 今回は彼の分析を皆さんと共有したいと思います。 それでは、詳しく見ていきましょう。まず、500 年 2007 月から 2021 年 XNUMX 月までの TopXNUMX リストにおける相互接続テクノロジーの開発傾向を見てみましょう。
Top500 リストには、学界、政府機関、産業界の高性能コンピューティング システムに加え、サービス プロバイダー、クラウド ビルダー、ハイパースケール コンピューティング プラットフォームによって構築されたシステムが含まれています。 したがって、これは純粋な「スーパーコンピューター」のリストではありません。通常、従来のシミュレーションやモデリング ワークロードを実行するマシンをスーパーコンピューターと呼びます。
10Gb/秒以下の速度で動作する InfiniBand とイーサネットは、過去 2021 年半の間に浮き沈みを経験しました。 InfiniBand は上昇していますが、その Omni-Path バリアント (以前は Intel が管理していましたが、現在は Cornelis Networks が所有しています) は、XNUMX 年 XNUMX 月のランキングでわずかに後退しました。
CORNELIS が OMNI-PATH 相互接続ロードマップをリリース
ただし、25Gb/秒以上の速度で動作するイーサネットは増加傾向にあり、特に 2017 年から 2019 年にかけて急速に成長しています。これは、100Gb/秒 スイッチ (通常は Mellanox Spectrum-2 スイッチ) が以前の 100Gb/秒 テクノロジーよりも安価であるためです。これはより高価な伝送モードに依存しているため、ほとんどの高性能コンピューティング センターはそれらの使用を検討していません。 多くのハイパースケール ビルダーやクラウド ビルダーと同様に、彼らはバックボーンとデータセンターの相互接続を除いて 200 Gb/秒のイーサネット世代をスキップし、400 Gb/秒のデバイスを使用できるように 400 Gb/秒のスイッチのコストが下がるのを待ちました。
2021 年 207 月のランキングでは、Nvidia InfiniBand と Intel Omni-Path のデータを合計すると、InfiniBand 相互接続を備えたマシンが 41.4 台あり、リストの 500 パーセントを占めます。 リストにある「プロプライエタリ」と呼ばれる相互接続の一部(主に中国製)も、InfiniBand の亜種であると強く疑っています。 イーサネットに関しては、速度に関係なく、過去 248 年間で、トップ 2021 リストに含まれるイーサネット インターコネクトのシェアは、最低の 271 年 2019 月の XNUMX マシンから最高の XNUMX 年 XNUMX 月の XNUMX マシンまで変化しています。 近年、InfiniBand が Ethernet の地位を侵食しつつありますが、これは私たちにとって驚くことではありません。なぜなら、ハイパフォーマンス コンピューティング (そして現在は人工知能) のワークロードは遅延に非常に敏感であり、InfiniBand のコストは売上が上がるにつれて時間の経過とともに低下しているからです。徐々に増えてきました。 (ハイパースケール ビルダーやクラウド ビルダーによる InfiniBand の採用は、価格の削減に役立ちます。)
Top100 システムのほとんどと Top10 システムは真のスーパーコンピューターと呼ぶことができます。これは、主に従来のハイパフォーマンス コンピューティングの作業に従事していることを意味します。 ただし、一部の人工知能ワークロードを実行するマシンも増えています。 これらの上位マシン間の相互接続の分布は次のとおりです。
上の図からわかるように、ここではイーサネットが優勢ではありませんが、HPE が 200Gb/秒 Slingshot (Cray が開発したハイパフォーマンス コンピューティング用に最適化されたイーサネットのバリアント) の出荷を開始すると、イーサネットは成長するでしょう。これはすでに「」で使用されています。ローレンス バークレー国立研究所の「Perlmutter」システムは、ノードごとに 100 つの 6Gb/秒ポートを備えています。 また、Sunway TaihuLight マシン (中国、無錫の国立スーパーコンピューティング センターにある) が InfiniBand の亜種を使用しているのではないかと強く疑っています (ただし、Mellanox も研究所もそれを確認していません)。 以前のナンバーワン「富岳」(日本の理化学研究所)は、富士通が開発した第 2 世代 Tofu D 相互接続技術を使用しており、独自の 2D トーラス トポロジーとプロトコルを実装しています。 「Tianhe-XNUMXA」(中国広州市国家スーパーコンピューティングセンター内)は、TH Express-XNUMX独自の相互接続技術を採用した独自の技術です。
Top100 コンピュータ ランキングには、Cray インターコネクトには最初の Slingshot マシンだけでなく、前世代の「Aries」インターコネクトを使用した一連のマシンも含まれています。 2021 年 100 月のランキングでは、Slingshot マシンが 6 台、Aries マシンが 9 台がトップ 79 にランクインしました。 Slingshot を Ethernet とみなした場合、Ethernet のシェアは 100% となり、独自の Cray シェアは XNUMX% に下がります。 Mellanox/Nvidia InfiniBand を Intel Omni-Path と組み合わせると、InfiniBand のマシンは XNUMX 台がトップ XNUMX に入ります。
Top100 から Top500 に拡張する場合、毎回 100 台のマシンを追加すると、インターコネクトの分布は次のようになります。
多くの学術および産業用高性能コンピューティング システムは InfiniBand を導入する余裕がないか、イーサネットから切り替えることに消極的であるため、リストが拡大するにつれてイーサネットの普及はさらに進むと予想されます。 そして、それらのサービス プロバイダー、クラウド ビルダー、ハイパースケール オペレーターは、政治的またはビジネス上の理由から、クラスターのごく一部で Linpack を実行しています。 比較的遅いイーサネットはトップ 500 リストの下半分で人気がある一方、InfiniBand の普及率はトップ 70 の 10% からトップ 34 全体では 500% に低下しています。
次の図は、Top500 リストの InfiniBand と Ethernet の大部分を集計した別のグラフで、Nvidia が Mellanox の買収に 6.9 億ドルを支払った理由の一部を説明しています。
Nvidia の InfiniBand は、34 システムを擁し、Top500 インターコネクトの 170% のシェアを占めていますが、さらに 2 システムが追加されているため、Mellanox Spectrum および Spectrum-500 イーサネット スイッチが Top148 に台頭していることは明らかではありません。 これにより、Nvidia は Top63.6 ランキングのすべての相互接続の 500% のシェアを獲得しました。 これは、Cisco Systems がエンタープライズ データセンターで 20 年間享受してきた成果です。
関連製品:
- NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $2000.00
- 10m(33ft)12ファイバーメス-メスMPOトランクケーブル極性B LSZH OS2 / 9シングルモード $32.00
- NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $1400.00
- NVIDIA MFP7E10-N015 互換 15 メートル (49 フィート) 8 ファイバー 低挿入損失 メス - メス MPO トランク ケーブル 極性 B APC - APC LSZH マルチモード OM3 50/125 $54.00
- NVIDIA MCP4Y10-N00A 互換 0.5m (1.6 フィート) 800G ツインポート 2x400G OSFP から 2x400G OSFP InfiniBand NDR パッシブ ダイレクト アタッチ銅線ケーブル $175.00
- NVIDIA MFA7U10-H015 互換性のある 15 メートル (49 フィート) 400G OSFP から 2x200G QSFP56 ツイン ポート HDR ブレークアウト アクティブ光ケーブル $925.00
- NVIDIA MCP7Y60-H001 互換 1m (3 フィート) 400G OSFP から 2x200G QSFP56 パッシブ ダイレクト アタッチ ケーブル $123.00
- NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $2000.00
- NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $1400.00
- NVIDIA MCP4Y10-N00A-FLT 互換 0.5m (1.6 フィート) 800G ツインポート 2x400G OSFP ~ 2x400G OSFP InfiniBand NDR パッシブ DAC、一方の端はフラット トップ、もう一方の端はフィン付きトップ $175.00
- NVIDIA MCA4J80-N003-FTF 互換 3m (10 フィート) 800G ツインポート 2x400G OSFP から 2x400G OSFP InfiniBand NDR アクティブ銅線ケーブル、一方の端はフラット トップ、もう一方の端はフィン付きトップ $600.00
- NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $1100.00
- NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI アダプター カード、NDR/400G、シングル ポート OSFP、PCIe 5.0x 16、トール ブラケット $1650.00
- NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI アダプター カード、HDR/200GbE、シングルポート QSFP56、PCIe3.0/4.0 x16、トール ブラケット $1400.00
- NVIDIA MCP7Y50-N001-FLT 互換 1m (3 フィート) 800G InfiniBand NDR ツインポート OSFP ~ 4x200G フラットトップ OSFP ブレイクアウト DAC $485.00
- NVIDIA MCA7J70-N004 互換 4m (13 フィート) 800G InfiniBand NDR ツインポート OSFP ~ 4x200G OSFP ブレークアウト ACC $1100.00
- NVIDIA MCA7J60-N004 互換 4 メートル (13 フィート) 800G ツインポート OSFP から 2x400G OSFP InfiniBand NDR ブレークアウト アクティブ銅線ケーブル $800.00
- NVIDIA MCP7Y00-N001-FLT 互換 1m (3 フィート) 800G ツインポート OSFP ~ 2x400G フラットトップ OSFP InfiniBand NDR ブレイクアウト DAC $300.00