今日は、64GbE の 800 ポートにまたがる大型スイッチの内部を探ります。Marvell Teralynx 10 は 51.2Tbps のスイッチで、2025 年までに AI クラスターの主要コンポーネントになる予定です。この大規模なネットワーク スイッチは非常に魅力的です。

Marvell は、Innovium Teralynx 2021 ベースの 7x 32GbE スイッチの調査を経て、400 年に Innovium を買収しました。私たちは以前、この新興企業の 12.8Tbps (32 ポート 400GbE) 世代スイッチを分解しました。

Innovium は同世代で最も成功したスタートアップとして登場し、ハイパースケール データ センターに大きく進出しました。たとえば、2019 年に Intel はイーサネット スイッチ チップを取得するために Barefoot Networks を買収すると発表しました。しかし、4 年第 2022 四半期までに、Intel はこのイーサネット スイッチ事業を売却する意向を表明しました。Broadcom は商用スイッチ チップ市場で重要な地位を占めており、Innovium/Marvell は、多額の投資をしたが失敗した他の企業とは異なり、ハイパースケール データ センターへの進出に成功しています。

AI クラスター構築の規模を考えると、51.2Tbps スイッチ チップの世代は相当なものです。Marvell に 2021 Teralynx 7 の分解を更新し、新しい Marvell Teralynx 10 についての洞察を提供できるかどうかを問い合わせました。

このスイッチは 2U シャーシを備えており、主に OSFP ケージとエアフロー チャネルで構成されています。合計 64 個の OSFP ポートがあり、それぞれ 800Gbps で動作します。

各ポートには OSFP プラグ可能な光学部品が装備されており、これは通常、使い慣れている QSFP+/QSFP28 世代のデバイスよりも大きいです。

Marvell は、Inphi の買収によって得られたコンポーネントを活用した複数の光モジュールを導入しました。これについては、Marvell COLORZ 800G シリコン フォトニクス モジュールや次世代ネットワーク向けの Orion DSP など、さまざまなコンテキストで説明してきました。このスイッチはこれらの光モジュールを利用でき、ポートは 800Gbps 以外の速度で動作できます。

興味深い点の 800 つは、数百キロメートル以上にわたって XNUMXGbps を達成できる長距離光モジュールです。これらのモジュールは OSFP ケージに収まり、長年業界標準となっている大型の長距離光ボックスを必要としません。

OSFP モジュールにはヒートシンクを内蔵できるため、ケージ内にヒートシンクを設置する必要がありません。一部の 100GbE および 400GbE スイッチでは、モジュールの消費電力が高いため、光ケージにヒートシンクが必要です。

スイッチの右側には、管理ポートとコンソール ポートがあります。

スイッチの背面にはファンと電源があり、それぞれにファンが付いています。

このスイッチは消費電力が約 1.8kW の光モジュールを使用でき、500W のスイッチ チップを備えているため、定格 2kW を超える電源が期待されます。

次に、スイッチの内部を詳しく調べて、これらの OSFP ケージに何が電力を供給するのかを見てみましょう。
右側の OSFP ケージから始めて、左側の電源装置とファンに向かって進みます。

スイッチを開くと、まず目に入るのは大きなヒートシンクです。

このヒートシンクは、大きさを示すために期限切れのパスポートと一緒に示されていますが、かなり頑丈です。

こちらはヒートシンクの底面図です。

チップ自体は 500W、5nm コンポーネントです。

Marvell は、ヒートシンクなしでチップをクリーニングして写真を撮ることを許可してくれました。

これにより、ヒートシンクのない OSFP ケージがはっきりと見えるようになります。

この観点から見ると、スイッチ PCB が 32 つのブロックの間に配置されているため、OSFP ケージは XNUMX 個しかありません。

OSFP ケージの後ろには、Teralynx 10 チップがあります。

ご興味のある方は、Teralynx 10 のより詳細な情報を以前の機能図でご覧いただけます。

注目すべき違いの 1 つは、スイッチ上の多くのコンポーネントが、スイッチ チップの端に対して水平または平行ではなく、斜めになっていることです。

これはスイッチを上から見た写真で、64 ポートの 800GbE スイッチ チップが写っています。サーバー技術に詳しい方ならご存知でしょうが、PCIe Gen800 時代の 6GbE シングル ポート NIC と、現在は 400GbE PCIe Gen5 x16 NIC が存在します。このチップは、現在入手可能な最速の 128 個の PCIe Gen5 400GbE NIC を処理できる容量を備えています。

多くのスイッチと同様に、Teralynx 10 スイッチには、Marvell Octeon 管理ボードに基づく専用の管理コントローラが搭載されています。他のスイッチでは x86 が使用される可能性があると報告されています。

M.2 SSD はメイン配電基板上に配置されています。

興味深い機能は、診断用の PCIe スロットが組み込まれていることです。

このすぐ下には、管理インターフェースとして内部的に公開されている 10Gbase-T ポートがあります。

考慮すべきもう 1 つの点は、スイッチ PCB の厚さです。サーバーのマザーボードがこれほど厚いと、多くの XNUMXU サーバー設計で重大な冷却上の課題が発生します。冷却の点では、スイッチのファン セットアップは比較的シンプルで、シャーシの背面に XNUMX つのファン モジュールがあります。

Marvell は別の建物にこれらのスイッチをテストするラボを持っています。同社は、スイッチの動作を撮影できるようにラボを一時的に許可してくれました。

こちらは後ろ姿です。

Teralynx 10 スイッチの隣には、Keysight Ixia AresONE 800GbE テスト ボックスがあります。

800 つのポートで 5GbE トラフィックを生成するのは、サーバーの PCIe Gen16 x10 よりも高速であるため、簡単なことではありません。ラボでこのデバイスが動作しているのを見るのは興味深いことでした。以前、800GbE テスト用に Spirent の中古ボックスを購入しましたが、Spirent はメディア/アナリスト ライセンスの提供を拒否しました。この XNUMXGbE ボックスのようなデバイスは信じられないほど高価です。

同社はまた、100GbE テスト用の大型シャーシをラボに備え付けています。スイッチ ベンダーとして、Marvell はさまざまな条件下でパフォーマンスを検証するためにこのような機器を必要としています。

これは、約 400% のライン レートで Teralynx スイッチを介して実行されるデュアル 99.3GbE の例です。

51.2Tbps スイッチを選択する理由
市場で 51.2T スイッチの採用を推進する主な要因は XNUMX つあります。XNUMX つ目は AI という常に人気の高いトピックであり、XNUMX つ目は消費電力と基数の影響です。

Marvell の Teralynx 10 は、約 500 ナノ秒のレイテンシで、膨大な帯域幅を提供します。この予測可能なレイテンシと、スイッチ チップの輻輳制御、プログラマビリティ、テレメトリ機能を組み合わせることで、大規模なクラスターが最適なパフォーマンスを維持できるようになります。ネットワークを待機している間、AI アクセラレータをアイドル状態にしておくことは、非常にコストのかかる提案です。

もう 1 つの例は基数です。スイッチが大きいほどスイッチング レイヤーの数を減らすことができ、その結果、クラスターを接続するために必要なスイッチ、ファイバー、ケーブル、その他のコンポーネントの数も減ります。

Teralynx 10 は 512 基数に対応し、最大 512 個の 100GbE リンクを介して接続できるため、一部のネットワークでは 1 層のスイッチングを XNUMX 層に減らすことができます。大規模な AI トレーニング クラスターでは、これにより資本設備が節約されるだけでなく、消費電力も大幅に削減されます。Marvell は、基数を大きくすると消費電力が XNUMXMW 以上削減される例を示しました。

Marvell は、シャーシから伸びる興味深いクーラーを備えたスイッチを示すスライドも公開しました。これはデスクトップ プロトタイプのようで、非常に興味深いと思いました。

最後に、オンラインやデータ センターの写真ではスイッチの前面や背面をよく目にしますが、スイッチの内部がどのように動作するかを見ることはめったにありません。Marvell のおかげで、スイッチの動作を確認でき、シリコンに至るまで分解することができました。

現在は Marvell の子会社である Innovium は、Broadcom との競争に勝ち、ハイパースケールで勝利を収めた業界で数少ないチームの 10 つです。他の大手シリコン サプライヤーがこの過程で失敗しているのを私たちは見てきました。AI クラスターにおける高基数、高帯域幅、低遅延スイッチングに対する市場の需要を考えると、Teralynx 7 は Teralynx XNUMX 以来、同社最大の製品ラインになる可能性があります。この分野の競争は熾烈です。

もちろん、すべてのネットワークには多くのレイヤーがあります。ソフトウェア、パフォーマンスなどはもちろんのこと、光モジュールの包括的な調査を実施することもできます。しかし、これらのスイッチの内部で何が起こっているかを示すことは、依然として非常に興味深いことです。
目次
トグル関連製品:
-
NVIDIA MMS4X50-NM 互換 OSFP 2x400G FR4 PAM4 1310nm 2km DOM デュアルデュプレックス LC SMF 光トランシーバー モジュール
$1200.00
-
NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール
$1199.00
-
NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール
$650.00
-
NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール
$900.00
-
NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール
$650.00
-
QSFP-DD-800G-SR8 800G SR8 QSFP-DD 850nm 100m OM4 MMF MPO-16 光トランシーバー モジュール
$850.00
-
OSFP-800G-2FR4 OSFP 2x400G FR4 PAM4 CWDM4 2km DOM デュアル CS SMF 光トランシーバー モジュール
$1500.00
-
QSFP-DD-800G-LR8 QSFP-DD 8x100G LR PAM4 1310nm 10km MPO-16 SMF FEC 光トランシーバー モジュール
$1600.00
-
OSFP-800G-FR8L OSFP 800G FR8 PAM4 CWDM8 デュプレックス LC 2km SMF 光トランシーバー モジュール
$3000.00
-
OSFP-800G-SR8D OSFP 8x100G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール
$650.00
