Compreendendo o poder do DPU BlueField-3 da NVIDIA

Conheça

Ao trabalhar com servidores H100 SXM da NVIDIA, você pode frequentemente ver uma configuração que inclui duas unidades BFD-3. Isso levanta questões, especialmente porque o sistema já vem com oito placas de rede CX-7 400G. Quais são as diferenças e funções fundamentais do BFD-3 em comparação com o CX-7? Além disso, por que o BFD tem uma porta BMC quando a placa-mãe do servidor já inclui uma porta BMC?

DGX H100

Em data centers tradicionais, a CPU era o núcleo absoluto. No entanto, à medida que a Lei de Moore se torna menos aplicável, o crescimento do poder de computação da CPU não consegue mais acompanhar a explosão de dados, levando a gargalos. Descarregar as cargas de trabalho da CPU para adaptadores de rede (placas de interface de rede) tornou-se necessário, promovendo o rápido desenvolvimento de Smart NICs. A NVIDIA define Smart NICs baseadas em DPU como placas de interface de rede que descarregam tarefas normalmente gerenciadas pela CPU do sistema. Usando seu processador integrado, uma SmartNIC baseada em DPU pode executar uma combinação de criptografia/descriptografia, firewall, TCP/IP e tarefas de processamento HTTP. Essencialmente, ela auxilia a CPU em várias tarefas e tem sua própria CPU para lidar com tarefas relacionadas à segurança da rede de forma independente. Para lidar com a mudança na arquitetura do data center impulsionada pela tecnologia de nuvem em hiperescala, a NVIDIA lançou a série BlueField DPU. Esses novos processadores são projetados especificamente para software de infraestrutura de data center, descarregando e acelerando as enormes cargas de trabalho computacionais geradas pela virtualização, rede, armazenamento, segurança e outros serviços de IA nativos da nuvem. O BlueField-3 funciona como um “nó independente” integrado ao caminho PCIe do servidor:

  • ARM + SO: Pode descarregar várias tarefas originalmente manipuladas pelo sistema operacional host.
  • Aceleradores integrados: melhoram a eficiência do processamento, a segurança e o armazenamento de dados.
  • Chip de switch PCIe: pode ser usado em gabinetes de expansão SSD NVMe.
  • Chip BMC: permite o gerenciamento independente dos recursos originais do host em um ambiente de nuvem.

A DPU NVIDIA® BlueField®-3 é a plataforma de computação de infraestrutura de terceira geração, permitindo que as empresas construam infraestrutura de TI definida por software e acelerada por hardware, desde a nuvem até data centers centrais e ambientes de ponta. Com conectividade de rede Ethernet de 400 Gb/s ou NDR 400 Gb/s InfiniBand, a DPU BlueField-3 pode descarregar, acelerar e isolar funções de rede, armazenamento, segurança e gerenciamento definidas por software, aprimorando significativamente o desempenho, a eficiência e a segurança do data center. Ao compreender os recursos e as aplicações da DPU BlueField-3, as empresas podem aproveitar essa tecnologia com eficácia para atender às demandas dos data centers modernos e garantir uma infraestrutura robusta, escalável e segura.

Relação lógica entre NIC, Smart NIC e DPU

Relação lógica entre NIC, Smart NIC e DPU

Para entender suas distinções, vamos comparar os seguintes pontos (opiniões pessoais para referência):

Relação entre NIC, Smart NIC e DPU

As diferenças entre DPUs NVIDIA e SuperNICs

  • DPUs (Unidades de Processamento de Dados): Baseadas na arquitetura BlueField, integram recursos computacionais poderosos (CPU ARM multinúcleo), rede de alta velocidade (até 400 Gb/s) e capacidade de programação. São projetadas para aliviar e acelerar tarefas de data center, como rede, armazenamento e segurança, sendo adequadas para cargas de trabalho complexas, como computação em nuvem e computação de alto desempenho.
  • SuperNICs: Também baseadas na arquitetura BlueField-3, mas otimizadas especificamente para cargas de trabalho de IA. São menores em tamanho, menor consumo de energia e focadas em transferência de dados de alta largura de banda e baixa latência entre GPUs (por exemplo, RDMA de 400 Gb/s sobre RoCE), ideais para computação de IA em hiperescala.

Razões para o surgimento de NICs e DPUs inteligentes

Era dos NICs tradicionais

Em data centers tradicionais, a CPU era o núcleo absoluto. No entanto, à medida que a Lei de Moore se torna menos aplicável, o crescimento do poder de computação da CPU não consegue mais acompanhar a explosão de dados, criando um gargalo. Descarregar a carga de trabalho da CPU em adaptadores de rede (placas de interface de rede) tornou-se necessário, impulsionando o rápido desenvolvimento de NICs inteligentes.

Era das NICs inteligentes (primeira geração)

A primeira geração de NICs inteligentes focou principalmente em tarefas de offloading do plano de dados. Exemplos incluem offloading de hardware OVS Fastpath, offloading de hardware de rede RDMA com base em RoCEv1 e v2, offloading de hardware para recursos de rede sem perdas (PFC, ECN, ETS), offloading de hardware NVMe-oF no domínio de armazenamento e offloading de plano de dados para transmissão segura.

Era das NICs inteligentes DPU (segunda geração)

As DPUs (Unidades de Processamento de Dados) surgiram para resolver três problemas principais em data centers:

Entre nós: Baixa eficiência de troca de dados do servidor e transmissão de dados não confiável.

Dentro dos nós: execução ineficiente do modelo de data center, baixa eficiência do switch de E/S e arquitetura de servidor inflexível.

Sistemas de rede: Redes inseguras.

Diferenças entre NVIDIA BlueField-3 DPU e NICs ConnectX-7

Para uma compreensão completa da DPU BlueField-3 da NVIDIA, é essencial compará-la com a placa de rede OSFP ConnectX-7 e a placa de rede QSFP7 ConnectX-112 da NVIDIA. Esses dispositivos desempenham funções distintas em redes de data center, e entender suas diferenças e vantagens pode ajudar as organizações a escolher a solução certa para suas necessidades.

Escopo funcional: DPU vs. NIC

A DPU NVIDIA BlueField-3 é uma plataforma de computação de infraestrutura totalmente programável, integrando um cluster potente de 16 núcleos Arm A78, rede de alta velocidade (até 400 Gb/s Ethernet ou NDR InfiniBand) e aceleradores de hardware para tarefas como rede, armazenamento e segurança. Diferentemente das placas de rede tradicionais, a DPU BlueField-3 opera como um nó independente com seu próprio sistema operacional, permitindo que ela descarregue cargas de trabalho complexas, como virtualização, NVMe-oF (NVMe sobre Fabrics) e segurança de confiança zero da CPU host. Isso reduz a sobrecarga da CPU, melhora o desempenho e a eficiência energética.

Em contraste, a placa de rede NVIDIA ConnectX-7 OSFP e a placa de rede ConnectX-7 QSFP112 são placas de interface de rede avançadas focadas principalmente em conectividade de alta velocidade. A placa de rede ConnectX-7 OSFP suporta Ethernet de 400 Gb/s de porta única ou NDR InfiniBand, enquanto a placa de rede ConnectX-7 QSFP112 oferece configurações de 200 Gb/s de porta dupla ou 400 Gb/s de porta única. Essas placas de rede se destacam na transferência de dados de baixa latência e alta largura de banda, mas não possuem os recursos de computação programável e o sistema operacional independente da DPU BlueField-3. Elas são projetadas para lidar com tarefas de rede tradicionais, como processamento TCP/IP, RDMA (Acesso Direto à Memória Remoto) e offload básico, mas não suportam o amplo isolamento e aceleração da carga de trabalho fornecidos pela DPU.

Vantagens do DPU BlueField-3

A DPU BlueField-3 oferece diversas vantagens em relação às NICs ConnectX-7, especialmente para data centers modernos definidos por software:

  • Descarregamento abrangente da carga de trabalho: A DPU BlueField-3 pode descarregar e acelerar uma ampla gama de tarefas, incluindo redes definidas por software (SDN), armazenamento (por exemplo, NVMe-oF) e segurança (por exemplo, firewalls, mitigação de DDoS). Isso reduz a carga computacional da CPU host, liberando-a para aplicações geradoras de receita. Por exemplo, a BlueField-3 pode lidar com operações coletivas de HPC/IA MPI, proporcionando um aumento de velocidade de até 20% e economias significativas de custos em ambientes de supercomputação em larga escala.
  • Plataforma de Computação Independente: Com 16 núcleos Arm e um sistema operacional independente, a DPU BlueField-3 opera como um nó de computação autônomo, possibilitando casos de uso avançados como microssegmentação, multilocação e computação de ponta. Isso é particularmente valioso para fábricas de IA e ambientes nativos da nuvem, onde escalabilidade e segurança são essenciais.
  • Segurança Aprimorada: A capacidade da DPU de isolar cargas de trabalho garante segurança de confiança zero, protegendo modelos de IA e dados confidenciais contra ameaças. Por exemplo, quando combinado com o BIG-IP Next para Kubernetes da F5, o BlueField-3 oferece firewall integrado, mitigação de DDoS e proteção de API, criando uma arquitetura segura para cargas de trabalho de IA.
  • Eficiência Energética: Ao transferir tarefas da CPU, o BlueField-3 reduz o consumo de energia, tornando-o ideal para data centers sustentáveis. Sua alta largura de banda de memória e aceleradores de hardware otimizam ainda mais o desempenho por watt.
BlueField-3 SuperNIC 400GbE
BlueField-3 SuperNIC 400GbE/NDR
Modelo nº D3D4

Vantagens das placas de rede ConnectX-7

Embora a DPU BlueField-3 seja uma potência para tarefas de infraestrutura, as NICs ConnectX-7 OSFP e QSFP112 têm seus próprios pontos fortes:

  • Simplicidade e Custo-Benefício: As placas de rede ConnectX-7 são otimizadas para redes de alta velocidade sem a sobrecarga computacional adicional de uma DPU. São ideais para aplicações que exigem conectividade direta e de baixa latência, como clusters de computação de alto desempenho (HPC) ou redes tradicionais de data center.
  • Configurações de Porta Flexíveis: A placa de rede ConnectX-7 QSFP112 oferece opções de porta dupla de 200 Gb/s ou porta única de 400 Gb/s, proporcionando flexibilidade para diversas topologias de rede. A placa de rede OSFP, com seu design de porta única de 400 Gb/s, é adequada para cenários de alta largura de banda e conexão única.
  • Menor complexidade: para ambientes onde não é necessário descarregamento avançado ou programabilidade, as NICs ConnectX-7 oferecem um modelo de implantação mais simples, reduzindo a complexidade de configuração e manutenção em comparação à arquitetura programável da DPU.

Cenários de casos de uso

A escolha entre as placas de rede BlueField-3 DPU e ConnectX-7 depende dos requisitos específicos do seu data center:

  • DPU BlueField-3: Mais adequada para data centers modernos definidos por software, fábricas de IA e ambientes de computação de ponta. Ela se destaca em cenários que exigem grande transferência de carga de trabalho, como supercomputação nativa em nuvem, armazenamento NVMe-oF e segurança de confiança zero. Por exemplo, a Oracle Cloud Infrastructure (OCI) integra o BlueField-3 para otimizar a rede e a segurança, aprimorando o desempenho da nuvem.
  • Placas de rede ConnectX-7: ideais para tarefas de rede tradicionais em que a conectividade de alta velocidade e baixa latência é a principal necessidade. São ideais para clusters de HPC, streaming de vídeo ou aplicações com uso intensivo de rede que não exigem descarregamento de computação avançado.

Integração com o ecossistema NVIDIA

Tanto a DPU BlueField-3 quanto as placas de rede ConnectX-7 utilizam o kit de desenvolvimento de software DOCA da NVIDIA, que aprimora a programabilidade e acelera a inovação. No entanto, a DPU BlueField-3 se beneficia de uma integração mais profunda com o DOCA, permitindo que os desenvolvedores criem aplicações personalizadas para redes, armazenamento e segurança. Isso torna a DPU uma plataforma mais versátil para data centers de próxima geração. Além disso, a compatibilidade da BlueField-3 com os sistemas de IA da NVIDIA, como o DGX SuperPOD, garante um desempenho perfeito em implantações de IA em larga escala.

Recursos avançados e métricas de desempenho do DPU BlueField-3

Com base em avanços e implementações recentes destacados em discussões do setor, a DPU BlueField-3 oferece recursos exclusivos que a diferenciam das placas de rede ConnectX-7, especialmente em ambientes de computação de alto desempenho (HPC), IA e nuvem. A seguir, exploramos recursos adicionais, métricas de desempenho e aplicações práticas para diferenciar ainda mais essas tecnologias.

Descarregamento avançado para cargas de trabalho de IA e HPC

A DPU BlueField-3 foi projetada para lidar com as demandas intensivas de ambientes de IA e HPC, transferindo tarefas críticas da CPU host. De acordo com insights do setor, a BlueField-3 pode acelerar operações coletivas de MPI (Message Passing Interface), essenciais para a computação distribuída em clusters de IA e HPC. Isso resulta em um aumento de desempenho de até 20% em tarefas de supercomputação em larga escala, conforme demonstrado nas implementações do DGX SuperPOD da NVIDIA. Em contraste, as placas de rede ConnectX-7, embora suportem RDMA e transferência de dados em alta velocidade, não possuem os recursos de computação programáveis necessários para lidar com essa transferência complexa, limitando sua função à conectividade em vez da aceleração da computação.

Aceleração de armazenamento com NVMe-oF

A DPU BlueField-3 se destaca na aceleração de armazenamento, especialmente com NVMe sobre Fabrics (NVMe-oF). Ela utiliza aceleradores de hardware para reduzir a latência e melhorar a taxa de transferência em sistemas de armazenamento distribuído. Por exemplo, a BlueField-3 pode processar cargas de trabalho NVMe-oF com envolvimento mínimo da CPU, alcançando IOPS (Operações de Entrada/Saída por Segundo) até 2x maiores em comparação com soluções baseadas em software. As placas de rede ConnectX-7, embora sejam capazes de suportar NVMe-oF por meio de protocolos RDMA como RoCE (RDMA sobre Ethernet Convergente), dependem do processamento da CPU do host para a maioria das tarefas de armazenamento, o que as torna menos eficientes para cargas de trabalho de armazenamento complexas.

Segurança e isolamento para ambientes nativos da nuvem

Em ambientes nativos da nuvem, a DPU BlueField-3 oferece recursos de segurança robustos por meio de isolamento de carga de trabalho e arquiteturas de confiança zero. Ela pode executar funções de segurança virtualizadas, como firewalls e sistemas de detecção de intrusão, diretamente na DPU, reduzindo a superfície de ataque do sistema host. Por exemplo, a integração com o BIG-IP Next para Kubernetes da F5 permite que a BlueField-3 ofereça proteção avançada de API e mitigação de DDoS, essenciais para proteger cargas de trabalho de IA em clusters Kubernetes. As placas de rede ConnectX-7, embora suportem descarregamentos básicos de segurança como IPsec, não possuem a plataforma de computação independente necessária para funções de segurança tão abrangentes.

Implantações no mundo real e sinergias de ecossistemas

A DPU BlueField-3 foi adotada em implantações de ponta, como a Oracle Cloud Infrastructure (OCI) e as próprias fábricas de IA da NVIDIA. Na OCI, a BlueField-3 otimiza a virtualização de rede e a aceleração do armazenamento, melhorando o desempenho da nuvem em até 30% em cargas de trabalho com uso intensivo de dados. Além disso, sua integração com o DOCA SDK da NVIDIA permite que os desenvolvedores criem aplicativos personalizados para casos de uso específicos, como análises em tempo real ou IA de ponta. As placas de rede ConnectX-7, embora integrais ao ecossistema de rede da NVIDIA, são usadas principalmente em cenários que exigem interconexões de alta velocidade, como em clusters de HPC ou backbones de data center, sem o mesmo nível de programabilidade ou integração do ecossistema.

Comparação de métricas de desempenho

Para quantificar as diferenças, considere as seguintes métricas:

  • DPU BlueField-3: Taxa de transferência de até 400 Gb/s, 16 núcleos Arm A78, 32 GB de memória DDR4 integrada e aceleradores de hardware para criptografia, compactação e armazenamento. Pode reduzir a utilização da CPU em até 50% em ambientes virtualizados, transferindo tarefas como OVS (Open vSwitch) e NVMe-oF.
  • NIC OSFP ConnectX-7: Ethernet de 400 Gb/s de porta única ou NDR InfiniBand, otimizado para RDMA de baixa latência (latência abaixo de microssegundos), mas sem núcleos de computação ou memória integrados para processamento independente.
  • NIC ConnectX-7 QSFP112: porta dupla de 200 Gb/s ou porta única de 400 Gb/s, desempenho RDMA semelhante ao OSFP, mas projetado para configurações de porta flexíveis em vez de tarefas com uso intensivo de computação.

Essas métricas destacam a capacidade da DPU BlueField-3 de lidar com tarefas de rede e computação, tornando-a uma solução mais versátil para data centers modernos em comparação às NICs ConnectX-7, que são otimizadas apenas para conectividade.

Escolhendo a solução certa

Para organizações que criam fábricas de IA, data centers nativos da nuvem ou soluções de computação de ponta, a DPU BlueField-3 é a escolha ideal devido à sua programabilidade, redução de carga de trabalho e recursos de segurança. Por exemplo, em clusters de treinamento de IA, a BlueField-3 pode reduzir o tempo de treinamento, reduzindo a carga de tarefas de comunicação, como visto nos sistemas DGX H100 da NVIDIA. Por outro lado, as placas de rede ConnectX-7 são mais adequadas para ambientes de rede tradicionais, como data centers corporativos ou clusters de HPC, onde conectividade de alta velocidade e baixa latência é o principal requisito, sem a necessidade de redução de carga computacional avançada.

Explicação simplificada: por que DPUs são superiores a NICs inteligentes

A NVIDIA define NICs inteligentes baseadas em DPU como placas de interface de rede que descarregam tarefas geralmente manipuladas pela CPU do sistema. Usando seu processador integrado, uma SmartNIC baseada em DPU pode executar uma combinação de criptografia/descriptografia, firewall, TCP/IP e tarefas de processamento HTTP. Essencialmente, ela auxilia a CPU com várias tarefas e tem sua própria CPU para manipular tarefas relacionadas à segurança da rede de forma independente.

comparação

Visão geral do NVIDIA BlueField-3 DPU

NVIDIA BlueField-3 DPU

Para lidar com a mudança na arquitetura do data center impulsionada pela tecnologia de nuvem em hiperescala, a NVIDIA apresentou a série BlueField DPU. Esses novos processadores são projetados especificamente para software de infraestrutura de data center, descarregando e acelerando as enormes cargas de trabalho computacionais geradas por virtualização, rede, armazenamento, segurança e outros serviços de IA nativos da nuvem.

Layout do sistema do NVIDIA BlueField-3 DPU

O BlueField-3 funciona como um “nó independente” integrado ao caminho PCIe do servidor:

  1. ARM + SO: Pode descarregar várias tarefas originalmente manipuladas pelo sistema operacional host.
  2. Aceleradores integrados: melhoram a eficiência no processamento, segurança e armazenamento de dados.
  3. Chip de switch PCIe: pode ser usado em gabinetes de expansão SSD NVMe.
  4. Chip BMC: permite o gerenciamento independente dos recursos do host original em um ambiente de nuvem.
nvda bluefield dpu

NVIDIA® BlueField®-3 DPU é a plataforma de computação de infraestrutura de terceira geração, permitindo que as empresas criem infraestrutura de TI acelerada por hardware e definida por software, da nuvem aos principais data centers e ambientes de ponta. Com conectividade de rede Ethernet de 400 Gb/s ou NDR 400 Gb/s InfiniBand, a BlueField-3 DPU pode descarregar, acelerar e isolar funções de rede, armazenamento, segurança e gerenciamento definidas por software, melhorando significativamente o desempenho, a eficiência e a segurança do data center.

Exemplo de aplicação do BlueField-3 no VMware Private Cloud

Exemplo de aplicação do BlueField-3 no VMware Private Cloud

Roteiro de DPU da NVIDIA

Roteiro de DPU da NVIDIA

Ao compreender os recursos e as aplicações da DPU BlueField-3, as empresas podem aproveitar efetivamente essa tecnologia para atender às demandas dos data centers modernos e garantir uma infraestrutura robusta, escalável e segura.

Voltar ao Topo