Introduction
Lorsque vous travaillez avec les serveurs H100 SXM de NVIDIA, vous pouvez souvent voir une configuration qui comprend deux unités BFD-3. Cela soulève des questions, d'autant plus que le système est déjà livré avec huit cartes réseau CX-7 400G. Quelles sont les différences fondamentales et les rôles de BFD-3 par rapport à CX-7 ? De plus, pourquoi BFD dispose-t-il d'un port BMC alors que la carte mère du serveur en comprend déjà un ?

Dans les centres de données traditionnels, le processeur était le cœur absolu. Cependant, la loi de Moore devenant moins applicable, la croissance de la puissance de calcul du processeur ne permet plus de suivre l'explosion des données, ce qui entraîne des goulots d'étranglement. Décharger les charges de travail du processeur vers des cartes réseau (cartes d'interface réseau) est devenu nécessaire, favorisant le développement rapide des cartes réseau intelligentes. NVIDIA définit les cartes réseau intelligentes à base de DPU comme des cartes d'interface réseau qui déchargent les tâches habituellement gérées par le processeur du système. Grâce à son processeur intégré, une carte réseau intelligente à base de DPU peut effectuer une combinaison de tâches de chiffrement/déchiffrement, de pare-feu, de traitement TCP/IP et HTTP. En résumé, elle assiste le processeur dans diverses tâches et dispose de son propre processeur pour gérer de manière autonome les tâches liées à la sécurité du réseau. Pour répondre à l'évolution de l'architecture des centres de données induite par la technologie cloud hyperscale, NVIDIA a lancé la série de DPU BlueField. Ces nouveaux processeurs sont conçus spécifiquement pour les logiciels d'infrastructure de centre de données, déchargeant et accélérant les charges de travail de calcul massives générées par la virtualisation, la mise en réseau, le stockage, la sécurité et d'autres services d'IA natifs du cloud. BlueField-3 fonctionne comme un « nœud indépendant » intégré au chemin PCIe du serveur :
- ARM + OS : peut décharger diverses tâches initialement gérées par le système d'exploitation hôte.
- Accélérateurs intégrés : améliorez l’efficacité du traitement, de la sécurité et du stockage des données.
- Puce de commutation PCIe : peut être utilisée dans les armoires d'extension SSD NVMe.
- Puce BMC : permet une gestion indépendante des ressources d'origine de l'hôte dans un environnement cloud.
Le DPU NVIDIA® BlueField®-3 est la plateforme informatique d'infrastructure de troisième génération, permettant aux entreprises de créer une infrastructure informatique logicielle accélérée par le matériel, du cloud aux centres de données centraux et aux environnements périphériques. Avec une connectivité réseau Ethernet 400 Gbit/s ou InfiniBand NDR 400 Gbit/s, le DPU BlueField-3 Il peut décharger, accélérer et isoler les fonctions de réseau, de stockage, de sécurité et de gestion définies par logiciel, améliorant ainsi considérablement les performances, l'efficacité et la sécurité des centres de données. En comprenant les capacités et les applications du DPU BlueField-3, les entreprises peuvent exploiter efficacement cette technologie pour répondre aux exigences des centres de données modernes et garantir une infrastructure robuste, évolutive et sécurisée.
Relation logique entre la carte réseau, la carte réseau intelligente et le DPU

Pour comprendre leurs distinctions, comparons les points suivants (points de vue personnels pour référence) :

Raisons de l'émergence des cartes réseau et des DPU intelligentes
L'ère des cartes réseau traditionnelles
Dans les centres de données traditionnels, le processeur était le cœur absolu. Cependant, à mesure que la loi de Moore devient moins applicable, la croissance de la puissance de calcul du processeur ne peut plus suivre l'explosion des données, ce qui crée un goulot d'étranglement. Il est devenu nécessaire de décharger la charge de travail du processeur sur des adaptateurs réseau (cartes d'interface réseau), ce qui a entraîné le développement rapide des cartes réseau intelligentes.
L'ère des cartes réseau intelligentes (première génération)
La première génération de cartes réseau intelligentes se concentrait principalement sur le déchargement des tâches du plan de données. Parmi les exemples, citons le déchargement matériel OVS Fastpath, le déchargement matériel réseau RDMA basé sur RoCEv1 et v2, le déchargement matériel pour les capacités réseau sans perte (PFC, ECN, ETS), le déchargement matériel NVMe-oF dans le domaine du stockage et le déchargement du plan de données pour une transmission sécurisée.
L'ère des cartes réseau intelligentes DPU (deuxième génération)
Les DPU (Data Processing Units) sont apparues pour répondre à trois problèmes principaux dans les centres de données :
Entre les nœuds : faible efficacité de l’échange de données du serveur et transmission de données peu fiable.
Au sein des nœuds : exécution inefficace du modèle de centre de données, faible efficacité du commutateur d'E/S et architecture de serveur inflexible.
Systèmes de réseau : Réseaux non sécurisés.
Différences entre les cartes réseau NVIDIA BlueField-3 DPU et ConnectX-7
Pour bien comprendre le DPU BlueField-3 de NVIDIA, il est essentiel de le comparer aux cartes réseau ConnectX-7 OSFP et ConnectX-7 QSFP112 de NVIDIA. Ces périphériques jouent des rôles distincts dans les réseaux de centres de données, et comprendre leurs différences et leurs avantages peut aider les entreprises à choisir la solution la mieux adaptée à leurs besoins.
Portée fonctionnelle : DPU vs. NIC
Le DPU NVIDIA BlueField-3 est une plateforme de calcul d'infrastructure entièrement programmable, intégrant un puissant cluster de 16 cœurs Arm A78, une connectivité réseau haut débit (jusqu'à 400 Gbit/s Ethernet ou NDR InfiniBand) et des accélérateurs matériels pour des tâches telles que la mise en réseau, le stockage et la sécurité. Contrairement aux cartes réseau traditionnelles, le DPU BlueField-3 fonctionne comme un nœud indépendant doté de son propre système d'exploitation, ce qui lui permet de décharger du processeur hôte des charges de travail complexes telles que la virtualisation, NVMe-oF (NVMe over Fabrics) et la sécurité Zero Trust. Cela réduit la charge du processeur, améliore les performances et optimise l'efficacité énergétique.
En revanche, les cartes réseau NVIDIA ConnectX-7 OSFP et ConnectX-7 QSFP112 sont des cartes d'interface réseau avancées, principalement axées sur la connectivité haut débit. La carte réseau ConnectX-7 OSFP prend en charge les connexions Ethernet 400 Gbit/s monoport ou NDR InfiniBand, tandis que la carte réseau ConnectX-7 QSFP112 offre des configurations à deux ports 200 Gbit/s ou à un port 400 Gbit/s. Ces cartes réseau excellent dans les transferts de données à faible latence et haut débit, mais ne disposent pas des capacités de calcul programmables ni du système d'exploitation indépendant du DPU BlueField-3. Elles sont conçues pour gérer les tâches réseau traditionnelles telles que le traitement TCP/IP, le RDMA (Remote Direct Memory Access) et le déchargement de base, mais elles ne prennent pas en charge l'isolation et l'accélération étendues des charges de travail offertes par le DPU.
Avantages du DPU BlueField-3
Le DPU BlueField-3 offre plusieurs avantages par rapport aux cartes réseau ConnectX-7, en particulier pour les centres de données modernes définis par logiciel :
- Délestage complet de la charge de travail : Le DPU BlueField-3 peut décharger et accélérer un large éventail de tâches, notamment les réseaux définis par logiciel (SDN), le stockage (par exemple, NVMe-oF) et la sécurité (pare-feu, atténuation des attaques DDoS). Cela réduit la charge de calcul du processeur hôte, le libérant ainsi pour des applications génératrices de revenus. Par exemple, BlueField-3 peut gérer les opérations collectives MPI HPC/IA, offrant jusqu'à 20 % de gain de vitesse et des économies significatives dans les environnements de supercalcul à grande échelle.
- Plateforme de calcul indépendante : avec 16 cœurs Arm et un système d'exploitation indépendant, le DPU BlueField-3 fonctionne comme un nœud de calcul autonome, permettant des cas d'utilisation avancés comme la microsegmentation, la mutualisation et l'edge computing. Ceci est particulièrement précieux pour les usines d'IA et les environnements cloud-native où l'évolutivité et la sécurité sont essentielles.
- Sécurité renforcée : La capacité du DPU à isoler les charges de travail garantit une sécurité « zero trust », protégeant ainsi les modèles d'IA et les données sensibles des menaces. Par exemple, associé à BIG-IP Next pour Kubernetes de F5, BlueField-3 offre un pare-feu intégré, une atténuation des attaques DDoS et une protection des API, créant ainsi une architecture sécurisée pour les charges de travail d'IA.
- Efficacité énergétique : En déchargeant le processeur de certaines tâches, BlueField-3 réduit la consommation d'énergie, ce qui le rend idéal pour les centres de données durables. Sa bande passante mémoire élevée et ses accélérateurs matériels optimisent encore davantage les performances par watt.

Modèle n° D3D4
Avantages des cartes réseau ConnectX-7
Alors que le DPU BlueField-3 est une véritable centrale électrique pour les tâches d'infrastructure, les cartes réseau ConnectX-7 OSFP et QSFP112 ont leurs propres atouts :
- Simplicité et rentabilité : Les cartes réseau ConnectX-7 sont optimisées pour les réseaux haut débit sans la charge de calcul supplémentaire d'un DPU. Elles sont idéales pour les applications nécessitant une connectivité simple et à faible latence, comme les clusters de calcul haute performance (HPC) ou les réseaux de centres de données traditionnels.
- Configurations de ports flexibles : La carte réseau ConnectX-7 QSFP112 offre des options de double port 200 Gbit/s ou de port unique 400 Gbit/s, offrant ainsi une flexibilité adaptée à diverses topologies de réseau. La carte réseau OSFP, avec son port unique 400 Gbit/s, est adaptée aux scénarios à haut débit et à connexion unique.
- Complexité réduite : pour les environnements où le déchargement avancé ou la programmabilité ne sont pas requis, les cartes réseau ConnectX-7 offrent un modèle de déploiement plus simple, réduisant la complexité de configuration et de maintenance par rapport à l'architecture programmable du DPU.
Scénarios d'utilisation
Le choix entre le DPU BlueField-3 et les cartes réseau ConnectX-7 dépend des exigences spécifiques de votre centre de données :
- DPU BlueField-3 : Idéal pour les centres de données modernes définis par logiciel, les usines d'IA et les environnements d'edge computing. Il excelle dans les scénarios nécessitant un déchargement important de la charge de travail, comme le supercalcul cloud-native, le stockage NVMe-oF et la sécurité Zero Trust. Par exemple, Oracle Cloud Infrastructure (OCI) intègre BlueField-3 pour optimiser le réseau et la sécurité, améliorant ainsi les performances du cloud.
- Cartes réseau ConnectX-7 : idéales pour les tâches réseau traditionnelles nécessitant une connectivité haut débit et faible latence. Elles sont particulièrement adaptées aux clusters HPC, au streaming vidéo ou aux applications réseau gourmandes en ressources ne nécessitant pas de délestage informatique avancé.
Intégration avec l'écosystème NVIDIA
Le DPU BlueField-3 et les cartes réseau ConnectX-7 s'appuient tous deux sur le kit de développement logiciel DOCA de NVIDIA, qui améliore la programmabilité et accélère l'innovation. Cependant, le DPU BlueField-3 bénéficie d'une intégration plus poussée avec DOCA, permettant aux développeurs de créer des applications personnalisées pour la mise en réseau, le stockage et la sécurité. Cela fait du DPU une plateforme plus polyvalente pour les centres de données de nouvelle génération. De plus, la compatibilité du BlueField-3 avec les systèmes d'IA de NVIDIA, tels que DGX SuperPOD, garantit des performances fluides lors des déploiements d'IA à grande échelle.
Fonctionnalités avancées et indicateurs de performance du DPU BlueField-3
S'appuyant sur les avancées et déploiements récents mis en avant lors des discussions sectorielles, le DPU BlueField-3 offre des fonctionnalités uniques qui le distinguent des cartes réseau ConnectX-7, notamment dans les environnements de calcul haute performance (HPC), d'IA et de cloud. Nous explorons ci-dessous des fonctionnalités supplémentaires, des indicateurs de performance et des applications concrètes pour mieux différencier ces technologies.
Déchargement avancé pour les charges de travail IA et HPC
Le DPU BlueField-3 est conçu pour répondre aux exigences intensives des environnements d'IA et de HPC en déchargeant le processeur hôte des tâches critiques. D'après les analyses du secteur, BlueField-3 peut accélérer les opérations collectives MPI (Message Passing Interface), essentielles au calcul distribué dans les clusters d'IA et de HPC. Il en résulte jusqu'à 20 % d'amélioration des performances pour les tâches de supercalcul à grande échelle, comme le démontrent les déploiements DGX SuperPOD de NVIDIA. En revanche, les cartes réseau ConnectX-7, bien que prenant en charge le RDMA et le transfert de données à haut débit, ne disposent pas des capacités de calcul programmables nécessaires pour gérer un déchargement aussi complexe, ce qui limite leur rôle à la connectivité plutôt qu'à l'accélération du calcul.
Accélération du stockage avec NVMe-oF
Le DPU BlueField-3 excelle dans l'accélération du stockage, notamment avec NVMe over Fabrics (NVMe-oF). Il exploite les accélérateurs matériels pour réduire la latence et améliorer le débit des systèmes de stockage distribués. Par exemple, BlueField-3 peut traiter les charges de travail NVMe-oF avec une implication minimale du processeur, atteignant des IOPS (opérations d'entrée/sortie par seconde) jusqu'à deux fois supérieures à celles des solutions logicielles. Les cartes réseau ConnectX-2, bien que compatibles avec NVMe-oF via des protocoles RDMA comme RoCE (RDMA over Converged Ethernet), dépendent du traitement du processeur hôte pour la plupart des tâches de stockage, ce qui les rend moins efficaces pour les charges de travail complexes.
Sécurité et isolation pour les environnements cloud natifs
Dans les environnements cloud natifs, le DPU BlueField-3 offre des fonctionnalités de sécurité robustes grâce à l'isolation des charges de travail et aux architectures Zero Trust. Il peut exécuter des fonctions de sécurité virtualisées, telles que des pare-feu et des systèmes de détection d'intrusion, directement sur le DPU, réduisant ainsi la surface d'attaque du système hôte. Par exemple, l'intégration avec BIG-IP Next pour Kubernetes de F5 permet à BlueField-3 d'offrir une protection avancée des API et une atténuation des attaques DDoS, essentielles à la sécurisation des charges de travail d'IA dans les clusters Kubernetes. Les cartes réseau ConnectX-7, bien que prenant en charge les déchargements de sécurité de base comme IPsec, ne disposent pas de la plateforme de calcul indépendante nécessaire à des fonctions de sécurité aussi complètes.
Déploiements réels et synergies écosystémiques
Le DPU BlueField-3 a été adopté dans des déploiements de pointe, tels qu'Oracle Cloud Infrastructure (OCI) et les usines d'IA de NVIDIA. Dans OCI, BlueField-3 optimise la virtualisation du réseau et l'accélération du stockage, améliorant ainsi les performances cloud jusqu'à 30 % pour les charges de travail gourmandes en données. De plus, son intégration avec le SDK DOCA de NVIDIA permet aux développeurs de créer des applications personnalisées adaptées à des cas d'usage spécifiques, tels que l'analyse en temps réel ou l'IA en périphérie. Les cartes réseau ConnectX-7, bien qu'intégrées à l'écosystème réseau de NVIDIA, sont principalement utilisées dans les scénarios nécessitant des interconnexions haut débit, comme les clusters HPC ou les backbones de centres de données, sans le même niveau de programmabilité ni d'intégration à l'écosystème.
Comparaison des mesures de performances
Pour quantifier les différences, tenez compte des indicateurs suivants :
- DPU BlueField-3 : débit jusqu'à 400 Gbit/s, 16 cœurs Arm A78, 32 Go de mémoire DDR4 embarquée et accélérateurs matériels pour le chiffrement, la compression et le stockage. Il peut réduire l'utilisation du processeur jusqu'à 50 % dans les environnements virtualisés en déchargeant des tâches comme OVS (Open vSwitch) et NVMe-oF.
- Carte réseau OSFP ConnectX-7 : Ethernet 400 Gb/s à port unique ou NDR InfiniBand, optimisé pour le RDMA à faible latence (latence inférieure à la microseconde), mais pas de cœurs de calcul ni de mémoire embarqués pour un traitement indépendant.
- Carte réseau ConnectX-7 QSFP112 : double port 200 Gb/s ou port unique 400 Gb/s, performances RDMA similaires à OSFP, mais conçues pour des configurations de ports flexibles plutôt que pour des tâches gourmandes en calcul.
Ces mesures mettent en évidence la capacité du DPU BlueField-3 à gérer à la fois les tâches de réseau et de calcul, ce qui en fait une solution plus polyvalente pour les centres de données modernes par rapport aux cartes réseau ConnectX-7, qui sont optimisées pour la connectivité uniquement.
Choisir la bonne solution
Pour les entreprises développant des usines d'IA, des centres de données cloud-native ou des solutions d'edge computing, le DPU BlueField-3 constitue un choix judicieux grâce à sa programmabilité, son allègement de la charge de travail et ses fonctionnalités de sécurité. Par exemple, dans les clusters d'entraînement d'IA, BlueField-3 peut réduire les temps d'entraînement en déchargeant les tâches de communication, comme le montrent les systèmes DGX H100 de NVIDIA. À l'inverse, les cartes réseau ConnectX-7 sont mieux adaptées aux environnements réseau traditionnels, tels que les centres de données d'entreprise ou les clusters HPC, où une connectivité haut débit et faible latence est essentielle, sans nécessiter de déchargement avancé des ressources de calcul.
Explication simplifiée : pourquoi les DPU sont supérieurs aux cartes réseau intelligentes
NVIDIA définit les cartes réseau intelligentes basées sur DPU comme des cartes d'interface réseau qui déchargent les tâches habituellement gérées par le processeur du système. Grâce à son processeur intégré, une carte réseau intelligente basée sur DPU peut effectuer une combinaison de tâches de chiffrement/déchiffrement, de pare-feu, de TCP/IP et de traitement HTTP. Essentiellement, elle assiste le processeur dans diverses tâches et dispose de son propre processeur pour gérer de manière indépendante les tâches liées à la sécurité du réseau.

Présentation du processeur de données NVIDIA BlueField-3

Pour répondre à l'évolution de l'architecture des centres de données induite par la technologie cloud hyperscale, NVIDIA a présenté la série BlueField DPU. Ces nouveaux processeurs sont conçus spécifiquement pour les logiciels d'infrastructure de centres de données, déchargeant et accélérant les charges de travail informatiques massives générées par la virtualisation, la mise en réseau, le stockage, la sécurité et d'autres services d'IA natifs du cloud.
Disposition du système du DPU NVIDIA BlueField-3
BlueField-3 fonctionne comme un « nœud indépendant » intégré au chemin PCIe du serveur :
- ARM + OS : peut décharger diverses tâches initialement gérées par le système d'exploitation hôte.
- Accélérateurs intégrés : améliorez l'efficacité du traitement, de la sécurité et du stockage des données.
- Puce de commutation PCIe : peut être utilisée dans les armoires d'extension SSD NVMe.
- Puce BMC : permet une gestion indépendante des ressources de l'hôte d'origine dans un environnement cloud.

Cas d'utilisation recommandés pour BlueField-3
Le DPU NVIDIA® BlueField®-3 est la plateforme informatique d'infrastructure de troisième génération, qui permet aux entreprises de créer une infrastructure informatique définie par logiciel et accélérée par le matériel, du cloud aux centres de données centraux et aux environnements périphériques. Avec une connectivité réseau Ethernet 400 Gbit/s ou NDR 400 Gbit/s InfiniBand, le DPU BlueField-3 peut décharger, accélérer et isoler les fonctions de réseau, de stockage, de sécurité et de gestion définies par logiciel, améliorant ainsi considérablement les performances, l'efficacité et la sécurité des centres de données.
Exemple d'application de BlueField-3 dans le cloud privé VMware

Feuille de route du processeur NVIDIA

En comprenant les capacités et les applications du DPU BlueField-3, les entreprises peuvent exploiter efficacement cette technologie pour répondre aux exigences des centres de données modernes et garantir une infrastructure robuste, évolutive et sécurisée.
Produits associés:
-
Processeur de données NVIDIA B3220 BlueField-3, série P FHHL, 200 GbE (mode par défaut)/NDR 200 lB, double port QSFP112, PCle Gen5.0x16 avec option d'extension PCle x16, 16 cœurs Arm, 32 Go de mémoire DDR intégrée, BMC intégré, cryptographie désactivée, support haut $4490.00
-
Carte réseau NVIDIA B3140H BlueField-3 8 cœurs Arm, HHHL série E, 400 GbE (mode par défaut)/NDR IB, port unique QSFP112, PCle Gen5.0 x16, 16 Go DDR embarquée, BMC intégré, cryptographie désactivée $4390.00
-
Carte adaptateur NVIDIA Mellanox MCX75310AAS-NEAT ConnectX-7 InfiniBand/VPI, NDR/400G, OSFP à port unique, PCIe 5.0x 16, support haut $2200.00
-
Carte adaptateur NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI, NDR/400G, OSFP à port unique, PCIe 5.0x 16, support haut $1650.00