FiberMall が AIGC 向けの HPC ネットワーキング ソリューションを提供

AIGC (AI-Generated Content) は最近急速に発展しており、反復率は指数関数的に爆発しています。 その中でも、GPT-4 と ERNIE Bot の立ち上げは、そのビジネス価値とアプリケーション シナリオに大きな注目を集めています。 AIGC の開発により、トレーニング モデル パラメーターの規模は数千億から数兆レベルになり、基盤となる GPU サポートの規模も兆カード レベルに達しました。 その結果、ネットワークの規模は拡大し続けており、ネットワーク ノード間の通信はますます多くの課題に直面しています。 これに関連して、AIサーバーの計算能力とネットワーク通信能力をどのように改善し、コストを考慮に入れるかは、現在のAI分野における重要な研究方向のXNUMXつになっています.

FiberMall は、AIGC のコンピューティング能力、GPU の使用率、ネットワークの関係、および主流の HPC ネットワーキングが直面する課題に対処し、AIGC のビジネス コンピューティングを支援する、業界最先端の「Smart Speed」DDC (Distributed Disaggregated Chassis) 高性能ネットワーク ソリューションを発表しました。パワー急上昇。

FiberMall の DDC 製品接続の図

FiberMall の DDC 製品接続の図

AIGC 演算能力、GPU 使用率、ネットワークの関係

ChatGPTの学習時間とGPU使用率の関係

ChatGPT を例にとると、演算能力に関しては、Microsoft Azure AI スーパーコンピューティング インフラストラクチャ (10,000 V 100 GPU の高帯域幅クラスター) でのトレーニングの総演算電力消費量は、約 3,640 PF 日 (3,640 秒あたり 10,000 兆回の計算) です。 、100 日間実行されます)、XNUMX V XNUMX のトレーニングにかかる​​時間を変換する式を次に示します。

ChatGPT のコンピューティング能力とトレーニング スケジュール

ChatGPT のコンピューティング能力とトレーニング スケジュール

注: ChatGPT のコンピューティング能力要件はオンラインで入手できます。ここでは参照のみを目的として提供されています。 記事「AI とコンピューティング」では、OpenAI は 33% の使用率を想定していますが、NVIDIA、スタンフォード、およびマイクロソフトの研究者グループは、分散システムで大規模な言語モデルをトレーニングするために 44% から 52% の使用率を達成しています。

モデルのトレーニング時間に影響を与える主な要因は、GPU の使用率と GPU クラスターの処理能力であることがわかります。 これらの重要な指標は、ネットワーク効率と密接に関連しています。 ネットワーク効率は、AI クラスターでの GPU 使用率に影響を与える重要な要素です。 AI クラスターでは、大規模なディープ ラーニング タスクを効率的に処理できるため、GPU は通常、コンピューティング ノードのコア リソースです。 ただし、GPU の使用率はいくつかの要因の影響を受けますが、その中でもネットワーク効率が重要な要因です。

ネットワーク効率と GPU 使用率の関係

ネットワークは AI トレーニングで重要な役割を果たします。AI クラスターは通常、頻繁に通信してデータを交換する必要がある複数のコンピューティング ノードとストレージ ノードで構成されます。 ネットワークが非効率な場合、これらのノード間の通信が遅くなり、AI クラスターの計算能力に直接影響します。

ネットワークが非効率的であると、次の問題が発生し、GPU の使用率が低下する可能性があります。

データ転送時間の増加: 非効率なネットワークでは、データ転送時間が長くなります。 GPU が計算を実行する前にデータ転送の完了を待機する必要がある場合、GPU の使用率は低下します。

ネットワーク帯域幅のボトルネック: AI クラスターでは、GPU は通常、他の計算ノードと頻繁にデータを交換する必要があります。 ネットワーク帯域幅が不十分な場合、GPU は計算に十分なデータを取得できず、結果として GPU の使用率が低下します。

バランスの取れていないタスク スケジューリング: 非効率的なネットワークでは、タスクが GPU から別の計算ノードに割り当てられる場合があります。 これにより、大量のデータ転送が必要な場合に GPU がアイドル状態で待機し、GPU の使用率が低下する可能性があります。

GPU の使用率を改善するには、ネットワーク効率を最適化する必要があります。 これは、より高速なネットワーク技術を使用し、ネットワーク トポロジを最適化し、帯域幅の割り当てを合理化することで実現できます。 トレーニング モデルでは、分散トレーニングの並列処理: データ並列処理、テンソル並列処理、およびフロー並列処理が、GPU によって処理されるデータ間の通信モデルを決定します。 モデル間の通信の効率は、いくつかの要因の影響を受けます。

コミュニケーションに影響を与える要因

コミュニケーションに影響を与える要因

その中で、帯域幅とデバイス転送の遅延はハードウェアによって制限され、最終処理の遅延はテクノロジの選択 (TCP または RDMA) の影響を受けます。 RDMA は低くなり、キューイングと再送信はネットワークの最適化とテクノロジーの選択に影響されます。

定量的モデル: GPU 使用率 = GPU 内の反復計算時間 / (GPU 内の反復計算時間 + 全体的なネットワーク通信時間) に基づいて、次の結論が導き出されます。

帯域幅スループットと GPU 使用率のグラフ

帯域幅スループットと GPU 使用率のグラフ                        動的遅延と GPU 使用率のグラフ

ネットワーク帯域幅のスループットと動的遅延 (輻輳/パケット損失) が GPU 使用率に大きな影響を与えることがわかります。

合計通信遅延の構成に基づく:

総通信遅延の構成

総通信遅延の構成

静的レイテンシーの影響は小さいため、動的レイテンシーを削減する方法に重点を置くことがより重要です。これにより、GPU の使用率を効果的に改善して、コンピューティング能力を向上させるという目標を達成できます。

メインストリーム HPC ネットワーキングの課題

IBネットワーキングは高価で閉鎖的です

インフィニバンド ネットワーキングは、現在の高性能ネットワークにとって最も効果的なソリューションであり、超高帯域幅とクレジットベースのメカニズムを使用して輻輳がなく、超低レイテンシーを保証しますが、最も高価なソリューションでもあります. また、最も高価なソリューションでもあります。 同じ帯域幅の従来のイーサネット ネットワーキングよりも数倍高価です。 同時に、 インフィニバンド 技術は閉鎖的であり、業界には成熟したサプライヤーが XNUMX つしかないため、エンド ユーザーが XNUMX 番目の供給源を獲得することは不可能です。

したがって、業界のほとんどのユーザーは、従来のイーサネット ネットワーキング ソリューションを選択します。

PFC と ECN は速度低下を引き起こす可能性があります

高性能ネットワーク向けの現在主流のネットワーキング ソリューションは、RDMA 対応ネットワークを構築する RoCE v2 に基づいています。 XNUMX つの重要なコロケーション テクノロジは PFC と ECN であり、どちらもリンクの輻輳を回避するために作成されています。

マルチステージ PFC ネットワーキングでは、スイッチの入口の輻輳とバックプレッシャーをソース サーバーに向けて送信を段階的に停止し、ネットワークの輻輳を緩和してパケット損失を回避します。 ただし、このソリューションは、PFC デッドロックのリスクに直面する可能性があり、マルチステージ ネットワーキングで RDMA トラフィックの転送が停止する原因となります。

PFCの作動メカニズムの模式図

PFCの作動メカニズムの模式図

ECN は RoCEv2 CNP パケットを直接生成して、宛先側のスイッチ出口での輻輳の認識に基づいて速度低下を送信元に通知しますが、送信元サーバーは CNP メッセージを受信し、対応する QP の送信レートを正確に下げて、輻輳を回避しながら輻輳を緩和します。無差別速度低下。

ECNの模式図

ECNの模式図

これらのテクノロジーはどちらも輻輳を解決するように設計されていますが、ネットワークで発生する可能性のある輻輳によって頻繁にトリガーされる可能性があります。 最終的には、送信側が通信速度を一時停止または遅くし、通信帯域幅が減少します。 GPU の使用率が大きく影響を受け、高性能ネットワーク全体の計算能力が低下します。

アンバランスな ECMP は輻輳を引き起こす可能性があります

AI トレーニングの計算には、主に All-Reduce と All-to-All の XNUMX つのモデルがあり、どちらも XNUMX つの GPU から複数の GPU への頻繁な通信を必要とします。

AI トレーニングの計算モデル

AI トレーニングの計算モデル

従来のネットワークでは、ToR デバイスとリーフ デバイスはルーティング +ECMP ネットワーク モードを採用しています。 ECMP は、ストリームに基づいてハッシュ ロード ルーティングを実行します。 極端なケースでは、XNUMX つのエレファント ストリームが原因で XNUMX つの ECMP リンクがいっぱいになり、他の ECMP リンクは比較的アイドル状態になり、負荷が不均一になります。

従来の ECMP 展開図

従来の ECMP 展開図

内部でシミュレートされた 8 つの ECMP リンクを使用したテスト環境では、テスト結果は次のようになります。

ECMP トラフィック テストの結果

ECMP トラフィック テストの結果

見てわかるように、フローベースの ECMP は、特定のリンク (ECMP1-5 および 1-6) とアイドル状態 (ECMP1-0 から 1-3 がアイドル状態) のより明白な占有を引き起こします。 All-Reduce モデルと All-to-All モデルの両方で、ECMP の負荷が不均等になるため、ルートが混雑しやすくなります。 輻輳によって再送信が発生すると、全体的な合計通信遅延が増加し、GPU 使用率が低下します。

そのため、研究コミュニティは phost、Homa、NDP、1RMA、Aeolus などの豊富なソリューションを提案しています。 それらはさまざまな程度でインキャストに対処し、負荷分散と低遅延の要求/応答トラフィックにも対処します。 しかし、それらは新たな課題ももたらします。 多くの場合、これらの調査対象のソリューションでは、ホスト、NIC、およびネットワークに大幅な変更を加えたエンド ツー エンドの問題解決が必要であり、平均的なユーザーにとってはコストがかかります。

ボックス スイッチを使用した AI クラスタリングの課題

一部のインターネット企業は、負荷の不均衡による帯域幅使用率の低下の問題を解決するために、VOQ テクノロジをサポートする DNX チップを搭載したスイッチをボックス化しようとしていますが、次のようないくつかの課題にも直面しています。

平均的なスケーラビリティ。 フレーム サイズによってポートの最大数が制限されます。 大規模なクラスターを実行する場合は、複数のフレームを水平方向に拡張する必要があります。これにより、マルチレベルの PFC および ECMP リンクも生成されます。 そのため、フレームは小規模な展開にのみ適しています。

デバイスの消費電力が大きい。 フレーム内のライン カード チップ、ファブリック チップ、ファンなどの数が多く、20,000 つのデバイスの消費電力が大きく、簡単に 30,000 ワットを超え、場合によっては XNUMX ワットを超え、キャビネットの電力要件が高くなります。 .

単一デバイス ポートの数が多く、障害ドメインが大きい。

したがって、上記の理由から、ボックス デバイスは AI コンピューティング クラスターの小規模な展開にのみ適しています。

AIGCをサポートするために生まれたDDC製品

DDC は分散分離フレーム デバイス ソリューションであり、従来のフレーム スイッチとほぼ同じチップと主要なテクノロジを使用していますが、DDC アーキテクチャはシンプルで柔軟な拡張と機能の迅速な反復をサポートし、展開が容易で、マシンあたりの消費電力が少ないです。

下図のように、サービスラインカードはフロントエンドとしてNCPの役割になり、スイッチボードはバックエンドとしてNCFの役割になります。 XNUMX つの間の元のコネクタ コンポーネントは光ファイバー ケーブルに置き換えられ、元のフレーム デバイスの管理エンジンは、DDC アーキテクチャの NCC の集中型/分散型管理コンポーネントになります。

DDC 製品の接続図

DDC 製品の接続図

DDC は超大規模な展開をサポートします

ボックス アーキテクチャに対する DDC アーキテクチャの利点は、柔軟なスケーラビリティを提供できることと、AI クラスターのサイズに応じてネットワーク スケールを柔軟に選択できることです。

シングル POD ネットワークでは、96 個の NCP がアクセスとして使用され、そのうち NCP のダウンリンク上の 36 個の 200G インターフェイスが AI コンピューティング クラスターの NIC の接続を担当します。 アップストリーム合計 40 200G インターフェイス 40 の NCF を接続でき、NCF は 96 の 200G インターフェイスを提供し、このスケールのアップストリームとダウンストリームの帯域幅は 1.1:1 です。 POD 全体で 3456 の 200G ネットワーク インターフェイスをサポートでき、8 つの GPU を備えた 432 つのサーバーの計算によると、XNUMX の AI コンピューティング サーバーをサポートできます。

シングル POD ネットワーク アーキテクチャ図

シングル POD ネットワーク アーキテクチャ図

マルチレベル POD ネットワーキングでは、POD をベースとしたオンデマンド構築が実現できます。 このシナリオの POD の NCF 機器は、第 48 レベルの NCF を接続するために SerDes の半分を犠牲にする必要があるため、この時点で単一の POD は 36 個の NCP をアクセスとして使用し、ダウンリンクで合計 200 個の 1728G インターフェイスを使用して、 200 つの POD で 10,368 の 200G インターフェイスをサポートします。 POD を水平方向に増やしてスケール拡張を実現することで、全体の最大で XNUMX を超える XNUMXG ネットワーク ポートをサポートできます。

NCP アップリンク 40 個の 200G から POD 内の 40 個の NCF へ、POD 内の NCF は 48 個の 200G インターフェイスをダウンストリームで使用し、48 個の 200G インターフェイスは 16 のグループに分割されて、第 40 レベルの NCF にアップリンクします。 第 3 レベルの NCF には 40 プレーンが使用され、各プレーンは POD の XNUMX NCF に対応する XNUMX つのユニットで設計されています。

ネットワーク全体は、POD 内で 1:1:1 のオーバードライブ比を達成し、POD と第 1 段階の NCF の間で 1:XNUMX のコンバージェンス比を達成します。

オーバードライブ

200G ネットワーク ポートは互換性があります 100g Nic アクセス、および特別なケースでは、25 in 50 または 1 in 2 ケーブルを使用して 1/4G NIC と互換性があります。

VOQ+Cell メカニズムに基づくよりバランスの取れた負荷、より低いパケット損失率

動的な負荷分散のために分割後のセル転送メカニズムに依存することで、遅延の安定性を実現し、異なるリンクの帯域幅のピーク差を減らします。

転送プロセスを図に示します。

まず、送信側がネットワークからパケットを受信し、VOQ に分類して保存します。 パケットを送信する前に、Credit メッセージが送信され、受信者がパケットを処理するのに十分なキャッシュ スペースを持っているかどうかが判断されます。

その場合、パケットはセルにスライスされ、中間のファブリック ノードに動的に負荷分散されます。 これらのセルは、受信側で再構成および保存され、ネットワークに転送されます。

転送プロセス

セルはパケットベースのスライシング技術で、通常は 64 ~ 256 バイトのサイズです。

スライスされたセルは、到達可能性テーブルのセル宛先クエリに従って転送され、ポーリング メカニズムを使用して送信されます。 これの利点は、スライスされたセルの負荷が各アップリンクで完全に利用され、すべてのアップリンクで送信されるデータ量が、フローごとにハッシュした後に特定のパスを選択する ECMP モードと比較してほぼ等しくなることです。

細胞ベースの

受信側が一時的にメッセージを処理できない場合、メッセージは一時的に送信側の VOQ に格納され、受信側に直接転送されず、パケット損失が発生します。 各 DNX チップは、オンチップ OCB キャッシュと off-チップ 8GB HBM キャッシュ。これは、150G ポートで約 200ms のデータをキャッシュすることに相当します。 クレジット メッセージは、相手側で明らかに受け入れられる場合にのみ送信されます。 このような仕組みにより、キャッシュをフル活用することで、パケットロスを大幅に削減、あるいは発生させないことができます。 データの再送信が少ないと、全体的な通信遅延がより安定して短くなるため、帯域幅の使用率が向上し、サービスのスループット効率が向上します。

クレジットベースの生地

PFC シングルホップ展開でデッドロックなし

DDC のロジックによれば、すべての NCP と NCF を 1 つのデバイスと見なすことができます。 したがって、このネットワークに RDMA ドメインを展開した後、サーバーをターゲットとするインターフェイスには 1 レベルの PFC しかなく、従来のネットワークのようにマルチレベルの PFC 抑制やデッドロックが発生することはありません。 さらに、DDC のデータ転送メカニズムに従って、ECN をインターフェイスに展開できます。内部のクレジットとキャッシュ メカニズムがバースト トラフィックをサポートできなくなると、CNP メッセージをサーバー側に送信して速度の低下を要求できます (通常はAI、All-to-All、All-Reduce+Cell slicing の通信モデルは、可能な限りトラフィックのバランスをとることができ、それを実現するのは困難です (XNUMX つのポートがいっぱいになるため、ほとんどの場合、ECN は構成解除できます)。

PFC シングルホップ展開でデッドロックなし

信頼性を高める分散 OS による NCC フリー設計

管理および制御プレーンでは、管理ネットワーク障害の影響とNCCの単一障害点を解決するために、NCCの集中制御プレーンを排除し、分散OSを構築し、標準インターフェース(Netconf、GRPC、など) SDN 運用および保守コントローラーによって、各 NCP および NCF は、独立した制御および管理プレーンによって独立して管理されます。

テスト比較結果

理論的な観点から見ると、DDC には、柔軟な拡張と機能の迅速な反復のサポート、展開の容易さ、単一マシンの低消費電力など、多くの利点があります。 ただし、実用的な観点からは、従来のネットワーキングには、市場で入手可能なブランドや製品ラインが増えるなどの利点もあり、大規模なクラスターや成熟したテクノロジーによってもたらされるその他の利点をサポートできます。 したがって、お客様がプロジェクトの要件に直面した場合は、次の比較とテスト結果を参照して、より大規模な展開のために高性能の DDC を選択するか、従来のネットワークを選択するかを決定できます。

従来のネットワーキングと DDC テストの比較結果

従来のネットワーキングと DDC テストの比較結果

ファイバーモール設備紹介

顧客のニーズに対する深い理解に基づいて、FiberMall は 200G NCP スイッチと 200G NCF スイッチという XNUMX つの成果物製品を初めて発売しました。

NCP: FM-S6930-36DC40F1 スイッチ

このスイッチは 2U の高さで、36 個の 200G パネル ポート、40 個の 200G ファブリック インライン ポート、4 個のファン、および 2 個の電源を提供します。

NCP FM-S6930-36DC40F1 スイッチ

NCF: FM-X56-96F1 スイッチ

このスイッチは 4U の高さで、96 個の 200G インライン ポート、8 個のファン、および 4 個の電源を提供します。

NCF FM-X56-96F1 スイッチ

ファイバーモールは、今後も 400G ポート フォーム ファクター製品の開発と発売を続けていきます。

まとめ

ファイバーモールは、業界のリーダーとして、高品質で信頼性の高いネットワーク機器とソリューションを提供し、スマート コンピューティング センターに対する顧客の高まる需要を満たすことに取り組んできました。 「Smart Speed」DDC ソリューションを立ち上げる一方で、FiberMall は従来のネットワーキングにおけるエンドネットワーク最適化ソリューションの調査と開発も積極的に行っています。 サーバー インテリジェント NIC とネットワーク機器プロトコルの最適化を最大限に活用することで、ネットワーク帯域幅全体の使用率を向上させ、顧客が AIGC スマート コンピューティング時代をより早く迎えるのに役立ちます。

コメント

上へスクロール