NVIDIA ConnectX シリーズ NIC を InfiniBand モードから Ethernet モードに切り替える: ステップバイステップ ガイド

NVIDIA ConnectX仮想プロトコルインターコネクト(VPI)シリーズネットワークインターフェースカード(NIC)(ConnectX-4、ConnectX-5、ConnectX-6などのモデルを含む) コネクトX-7、ConnectX-8(一般的にCX-4/5/6/7/8と略される)は、業界でも稀有なデュアルモードアダプタです。1枚のカードで、ハードウェアを交換することなく、InfiniBand(IB)とイーサネットの物理ネットワークをシームレスに切り替えることができます。この汎用性により、IBモードで動作しているハイパフォーマンスコンピューティング(HPC)およびAIクラスターにおいて、RDMA対応の超低レイテンシ環境をサポートすると同時に、従来のデータセンターのイーサネットインフラストラクチャにも容易に統合できます。このアプローチにより、投資保護が最大限に高まり、スムーズなネットワークの進化が促進されます。

このガイドでは、200G CX-6 NICを例に、InfiniBandモードからイーサネットモード(トランスポート層でRoCE v2プロトコルを使用)への移行手順を詳細に説明します。ホストオペレーティングシステムはCentOS 7です。これらの手順は、同様のConnectX VPIモデルにも適用でき、以下の構成を強化できます。 NVIDIA ConnectX イーサネットスイッチング, InfiniBand から RoCE v2 への移行, デュアルモードNICセットアップ.

前提条件

  • 互換性のある NVIDIA ConnectX VPI NIC がホスト システムにインストールされている。
  • mst および mlxconfig を含む Mellanox ファームウェア ツール (MFT) パッケージがインストールされています。
  • CentOS 7 ホストへのルートアクセス。
  • Linux コマンドライン操作に関する基本的な知識。

ステップ1: Mellanoxソフトウェアツールサービスを開始する

デバイス管理を有効にするには、ホスト上で MST サービスを開始します。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

systemctl スタート mst

ステップ2: NICデバイスのステータスを確認する

Mellanox デバイスのステータスを確認します。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

MSTステータス

出力にはVPI NICデバイスが示され、通常は/dev/mst/mt4123_pciconf0(またはハードウェアに応じて類似の識別子)として表示されます。図1の例を参照してください。

VPI NICデバイスを示すmst statusからの出力例
画像 1: VPI NIC デバイスを示す mst status からの出力例。

ステップ3: 現在のNIC構成を照会する

mlxconfig ツールを使用してリンク タイプを検査します。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

mlxconfig -d /dev/mst/mt4123_pciconf0 q

このコマンドは、各ポートの現在のリンクタイプを表示します。1はInfiniBand(IB)、2はEthernetを示します。図2の例では、ポート1(P1)はEthernetに設定されています。IBへの切り替えが必要な場合は、手順4に進んでください。

mlxconfigからのLINK_TYPE情報、ポート構成を強調表示
画像 2: mlxconfig からの LINK_TYPE 情報。ポート構成が強調表示されています。

ステップ4: 希望するリンクタイプを設定する

ポート1(P1)の設定変更を適用します。mst statusの出力に基づいて、必要に応じてデバイスパスを変更します。

イーサネット モードに切り替えるには:

mlxconfig -d /dev/mst/mt4123_pciconf0 LINK_TYPE_P1=2 を設定する

InfiniBand モードに切り替えるには:

mlxconfig -d /dev/mst/mt4123_pciconf0 LINK_TYPE_P1=1 を設定する

ステップ5: ホストを再起動する

ファームウェアの変更を適用するには、システムを再起動します。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

リブート

ステップ6: イーサネットポートのIPアドレスを設定する

イーサネットモードで再起動した後、インターフェース名を特定します。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

ifconfig -a

/etc/sysconfig/network-scripts/ に設定ファイルを作成または編集します (例: ifcfg-ethX、ethX を実際のインターフェースに置き換えます)。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

DEVICE=ethXTYPE=EthernetBOOTPROTO=staticIPADDR=192.168.1.100 # 希望する値に置き換えてください IPNETMASK=255.255.255.0GATEWAY=192.168.1.1ONBOOT=yes

ネットワーク サービスを再起動します。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

systemctl 再起動ネットワーク

ステップ7: ethtoolでポート設定を検査して調整する

ethtool ユーティリティを使用してポートの詳細を確認します。

ドライバー情報を確認します:

ethtool -i ethX

速度を 50 Gb/s、全二重に設定し、自動ネゴシエーションを無効にします (例)。

ethtool -s ethX 速度 50000 デュプレックス 全二重 自動ネゴシエーション オフ

追加のオプションはethtool –helpで利用できます。このステップは最適化に不可欠です。 ConnectX NICポート速度設定 イーサネット環境で。

ステップ8: 動作モードを確認する

次のコマンドでポートのモード (IB または RoCE v2) を検証します (mlx5_0 をデバイスに置き換えます)。

클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.

cma_core_mode -d mlx5_0 -p 1

画像 3 の出力は RoCE v2 モードを確認し、イーサネットへの移行が成功したことを示しています。

切り替え後の RoCE v2 モードの検証
画像 3: 切り替え後の RoCE v2 モードの検証。

結論

CX-6 NICは、RoCE v2サポート付きのイーサネットモードで完全に動作します。このプロセスにより、ダウンタイムを最小限に抑え、NVIDIAのVPIテクノロジーの潜在能力を最大限に活用できます。 HPCからデータセンターネットワークへの移行高度な RoCE v2 チューニング、RDMA パフォーマンス ベンチマーク、または ConnectX シリーズの問題のトラブルシューティングについては、NVIDIA の公式ドキュメントを参照するか、専門的なネットワーク コンサルティング サービスを検討してください。

上へスクロール