Marvell 51.2T (64 ポート 800G) スイッチの内部を垣間見る

今日は、64GbE の 800 ポートにまたがる大型スイッチの内部を探ります。Marvell Teralynx 10 は 51.2Tbps のスイッチで、2025 年までに AI クラスターの主要コンポーネントになる予定です。この大規模なネットワーク スイッチは非常に魅力的です。

マーベル 51.2T

Marvell は、Innovium Teralynx 2021 ベースの 7x 32GbE スイッチの調査を経て、400 年に Innovium を買収しました。私たちは以前、この新興企業の 12.8Tbps (32 ポート 400GbE) 世代スイッチを分解しました。

Innovium Teralynx 7 ベース 32x 400GbE スイッチ

Innovium は同世代で最も成功したスタートアップとして登場し、ハイパースケール データ センターに大きく進出しました。たとえば、2019 年に Intel はイーサネット スイッチ チップを取得するために Barefoot Networks を買収すると発表しました。しかし、4 年第 2022 四半期までに、Intel はこのイーサネット スイッチ事業を売却する意向を表明しました。Broadcom は商用スイッチ チップ市場で重要な地位を占めており、Innovium/Marvell は、多額の投資をしたが失敗した他の企業とは異なり、ハイパースケール データ センターへの進出に成功しています。

AIによる破壊的イノベーションが新たな参入ポイントを生み出す

AI クラスター構築の規模を考えると、51.2Tbps スイッチ チップの世代は相当なものです。Marvell に 2021 Teralynx 7 の分解を更新し、新しい Marvell Teralynx 10 についての洞察を提供できるかどうかを問い合わせました。

スイッチの正面図

このスイッチは 2U シャーシを備えており、主に OSFP ケージとエアフロー チャネルで構成されています。合計 64 個の OSFP ポートがあり、それぞれ 800Gbps で動作します。

スイッチは2Uシャーシを搭載

各ポートには OSFP プラグ可能な光学部品が装備されており、これは通常、使い慣れている QSFP+/QSFP28 世代のデバイスよりも大きいです。

OSFP プラグ可能な光学部品

Marvell は、Inphi の買収によって得られたコンポーネントを活用した複数の光モジュールを導入しました。これについては、Marvell COLORZ 800G シリコン フォトニクス モジュールや次世代ネットワーク向けの Orion DSP など、さまざまなコンテキストで説明してきました。このスイッチはこれらの光モジュールを利用でき、ポートは 800Gbps 以外の速度で動作できます。

Marvell COLORZ 800G シリコンフォトニクスモジュール

興味深い点の 800 つは、数百キロメートル以上にわたって XNUMXGbps を達成できる長距離光モジュールです。これらのモジュールは OSFP ケージに収まり、長年業界標準となっている大型の長距離光ボックスを必要としません。

これらのモジュールはOSFPケージに収まる

OSFP モジュールにはヒートシンクを内蔵できるため、ケージ内にヒートシンクを設置する必要がありません。一部の 100GbE および 400GbE スイッチでは、モジュールの消費電力が高いため、光ケージにヒートシンクが必要です。

光学ケージにはヒートシンクが必要

スイッチの右側には、管理ポートとコンソール ポートがあります。

管理およびコンソールポート

スイッチの背面にはファンと電源があり、それぞれにファンが付いています。

スイッチの背面にはファンと電源が収納されています

このスイッチは消費電力が約 1.8kW の光モジュールを使用でき、500W のスイッチ チップを備えているため、定格 2kW を超える電源が期待されます。

500Wスイッチチップ

次に、スイッチの内部を詳しく調べて、これらの OSFP ケージに何が電力を供給するのかを見てみましょう。

右側の OSFP ケージから始めて、左側の電源装置とファンに向かって進みます。

スイッチの概要

スイッチを開くと、まず目に入るのは大きなヒートシンクです。

大型ヒートシンク

このヒートシンクは、大きさを示すために期限切れのパスポートと一緒に示されていますが、かなり頑丈です。

このヒートシンクは、期限切れのパスポートと並べて表示されています

こちらはヒートシンクの底面図です。

こちらはヒートシンクの底面図です。

チップ自体は 500W、5nm コンポーネントです。

チップ自体は 500W、5nm コンポーネントです。

Marvell は、ヒートシンクなしでチップをクリーニングして写真を撮ることを許可してくれました。

ヒートシンクなし

これにより、ヒートシンクのない OSFP ケージがはっきりと見えるようになります。

ヒートシンクなしのOSFPケージの鮮明な画像

この観点から見ると、スイッチ PCB が 32 つのブロックの間に配置されているため、OSFP ケージは XNUMX 個しかありません。

OSFPケージは32個のみ

OSFP ケージの後ろには、Teralynx 10 チップがあります。

OSFPケージは32個のみ

ご興味のある方は、Teralynx 10 のより詳細な情報を以前の機能図でご覧いただけます。

機能図

注目すべき違いの 1 つは、スイッチ上の多くのコンポーネントが、スイッチ チップの端に対して水平または平行ではなく、斜めになっていることです。

スイッチ上の多くの部品は角度がついている

これはスイッチを上から見た写真で、64 ポートの 800GbE スイッチ チップが写っています。サーバー技術に詳しい方ならご存知でしょうが、PCIe Gen800 時代の 6GbE シングル ポート NIC と、現在は 400GbE PCIe Gen5 x16 NIC が存在します。このチップは、現在入手可能な最速の 128 個の PCIe Gen5 400GbE NIC を処理できる容量を備えています。

最速の128 PCIe Gen5 400GbE NIC

多くのスイッチと同様に、Teralynx 10 スイッチには、Marvell Octeon 管理ボードに基づく専用の管理コントローラが搭載されています。他のスイッチでは x86 が使用される可能性があると報告されています。

マーベル・オクテオン経営委員会

M.2 SSD はメイン配電基板上に配置されています。

M.2 SSD はメイン配電基板上に配置されています。

興味深い機能は、診断用の PCIe スロットが組み込まれていることです。

興味深い機能は、診断用の PCIe スロットが組み込まれていることです。

このすぐ下には、管理インターフェースとして内部的に公開されている 10Gbase-T ポートがあります。

このすぐ下には、管理インターフェースとして内部的に公開されている 10Gbase-T ポートがあります。

考慮すべきもう 1 つの点は、スイッチ PCB の厚さです。サーバーのマザーボードがこれほど厚いと、多くの XNUMXU サーバー設計で重大な冷却上の課題が発生します。冷却の点では、スイッチのファン セットアップは比較的シンプルで、シャーシの背面に XNUMX つのファン モジュールがあります。

シャーシ背面に4つのファンモジュール

Marvell は別の建物にこれらのスイッチをテストするラボを持っています。同社は、スイッチの動作を撮影できるようにラボを一時的に許可してくれました。

これらのスイッチはテスト済みです

こちらは後ろ姿です。

後ろ姿

Teralynx 10 スイッチの隣には、Keysight Ixia AresONE 800GbE テスト ボックスがあります。

Keysight Ixia AresONE 800GbE テスト ボックス。

800 つのポートで 5GbE トラフィックを生成するのは、サーバーの PCIe Gen16 x10 よりも高速であるため、簡単なことではありません。ラボでこのデバイスが動作しているのを見るのは興味深いことでした。以前、800GbE テスト用に Spirent の中古ボックスを購入しましたが、Spirent はメディア/アナリスト ライセンスの提供を拒否しました。この XNUMXGbE ボックスのようなデバイスは信じられないほど高価です。

800GbE ボックス

同社はまた、100GbE テスト用の大型シャーシをラボに備え付けています。スイッチ ベンダーとして、Marvell はさまざまな条件下でパフォーマンスを検証するためにこのような機器を必要としています。

デュアル400GbE実行

これは、約 400% のライン レートで Teralynx スイッチを介して実行されるデュアル 99.3GbE の例です。

Teralynxスイッチのラインレートは約99.3%

51.2Tbps スイッチを選択する理由

市場で 51.2T スイッチの採用を推進する主な要因は XNUMX つあります。XNUMX つ目は AI という常に人気の高いトピックであり、XNUMX つ目は消費電力と基数の影響です。

51.2Tbpsスイッチを選ぶ理由

Marvell の Teralynx 10 は、約 500 ナノ秒のレイテンシで、膨大な帯域幅を提供します。この予測可能なレイテンシと、スイッチ チップの輻輳制御、プログラマビリティ、テレメトリ機能を組み合わせることで、大規模なクラスターが最適なパフォーマンスを維持できるようになります。ネットワークを待機している間、AI アクセラレータをアイドル状態にしておくことは、非常にコストのかかる提案です。

Teralynx 10は約500ナノ秒の遅延を実現

もう 1 つの例は基数です。スイッチが大きいほどスイッチング レイヤーの数を減らすことができ、その結果、クラスターを接続するために必要なスイッチ、ファイバー、ケーブル、その他のコンポーネントの数も減ります。

スイッチを大きくするとスイッチング層の数を減らすことができる

Teralynx 10 は 512 基数に対応し、最大 512 個の 100GbE リンクを介して接続できるため、一部のネットワークでは 1 層のスイッチングを XNUMX 層に減らすことができます。大規模な AI トレーニング クラスターでは、これにより資本設備が節約されるだけでなく、消費電力も大幅に削減されます。Marvell は、基数を大きくすると消費電力が XNUMXMW 以上削減される例を示しました。

Teralynx 10は512の基数を処理できる

Marvell は、シャーシから伸びる興味深いクーラーを備えたスイッチを示すスライドも公開しました。これはデスクトップ プロトタイプのようで、非常に興味深いと思いました。

シャーシから伸びる興味深いクーラー。

最後に、オンラインやデータ センターの写真ではスイッチの前面や背面をよく目にしますが、スイッチの内部がどのように動作するかを見ることはめったにありません。Marvell のおかげで、スイッチの動作を確認でき、シリコンに至るまで分解することができました。

スイッチの動作

現在は Marvell の子会社である Innovium は、Broadcom との競争に勝ち、ハイパースケールで勝利を収めた業界で数少ないチームの 10 つです。他の大手シリコン サプライヤーがこの過程で失敗しているのを私たちは見てきました。AI クラスターにおける高基数、高帯域幅、低遅延スイッチングに対する市場の需要を考えると、Teralynx 7 は Teralynx XNUMX 以来、同社最大の製品ラインになる可能性があります。この分野の競争は熾烈です。

Teralynx 10は同社最大の製品ラインになる可能性が高い

もちろん、すべてのネットワークには多くのレイヤーがあります。ソフトウェア、パフォーマンスなどはもちろんのこと、光モジュールの包括的な調査を実施することもできます。しかし、これらのスイッチの内部で何が起こっているかを示すことは、依然として非常に興味深いことです。

上へスクロール