Compreendendo o ecossistema de produtos e convenções de nomenclatura da NVIDIA

Chips de computação — V100, A100, H100, B200, etc.

Esses termos estão entre os mais comumente encontrados em discussões sobre inteligência artificial. Eles se referem a placas de computação de IA, especificamente modelos de GPU.

Modelos de GPU
Placas GPU (6 modelos)

A NVIDIA lança uma nova arquitetura de GPU a cada poucos anos, cada uma com o nome de um cientista renomado. Placas baseadas em uma arquitetura específica geralmente começam com a primeira letra do nome da arquitetura, exceto GPUs para jogos. Por exemplo:

  • O V100 é baseado na arquitetura Volta (nomeada em homenagem a Alessandro Volta).
  • A100 deriva da arquitetura Ampere (nomeada em homenagem a André-Marie Ampère).
  • O H100/H200 é originário da Hopper (nomeada em homenagem a Grace Hopper).
  • B100/B200 vêm de Blackwell (nomeado em homenagem a David Blackwell).
A NVIDIA lança uma nova arquitetura de GPU a cada poucos anos

Um modelo terminado em "200" normalmente é uma versão atualizada de seu antecessor "100". Por exemplo, o H200 é uma versão aprimorada do H100, com melhorias como a memória HBM3e.

L40 e L40s. Esses dois modelos têm nomenclaturas ligeiramente diferentes. Eles são baseados na arquitetura Ada Lovelace (em homenagem à primeira programadora). O L40s é uma versão aprimorada do L40. Ambos são projetados para o mercado de data centers, com foco em eficiência de custos e desempenho.

H20 e Restrições à Exportação A H20 é uma versão modificada das GPUs da NVIDIA, criada em resposta às restrições à exportação dos EUA. Da mesma forma, relatos sugerem que a B200 pode ter uma variante restrita chamada B20.

Arquiteturas Futuras A plataforma de IA de próxima geração da NVIDIA, Rubin, está programada para ser lançada em 2026. Inicialmente, muitos esperavam que as GPUs fossem rotuladas como R100/R200, mas o roteiro da NVIDIA sugere uma série X100, abrindo espaço para especulações. Até 2028, a empresa planeja lançar a plataforma subsequente, Feynman.

Superchips — GH200, GB200, etc.

Embora as GPUs constituam o núcleo do poder de computação da NVIDIA, a empresa também desenvolve soluções complementares além das GPUs.

Primeiras Parcerias e Desenvolvimento de CPUs Inicialmente, a NVIDIA colaborou com as CPUs POWER da IBM. No entanto, devido a preocupações com desempenho, a empresa começou a desenvolver suas próprias CPUs, como a CPU Grace (baseada em ARM), com a CPU Vera também em desenvolvimento.

Utilizando a tecnologia NVLink, a NVIDIA combina GPUs e CPUs para criar plataformas Superchip. Exemplos incluem:

  • GH200 (CPU Grace + GPU Hopper)
  • GB200 (CPU Grace + duas GPUs Blackwell B200)
  • GB300 (Blackwell Ultra)

O GB200 é particularmente potente, apresentando aproximadamente sete vezes o desempenho do H100.

GB200

Plataformas de supercomputadores — DGX, EGX, IGX, etc.

Em um nível de computação mais alto, a NVIDIA desenvolveu plataformas de supercomputadores baseadas nessas arquiteturas de chip, incluindo DGX, EGX, IGX, HGX e MGX.

Plataformas de supercomputadores

A série DGX é bem conhecida, com Jensen Huang presenteando a primeira geração do DGX-1 para a OpenAI.

a primeira geração DGX-1

Hoje em dia, os sistemas DGX modernos geralmente apresentam um design dourado exclusivo e preços premium.

Para aplicações de desktop, a NVIDIA oferece DGX Spark e DGX Station, funcionando como máquinas de classe de estação de trabalho.

DGX Spark e Estação DGX
DGX Spark e Estação DGX

Conectividade Intra-Node — Escalabilidade Vertical (Supernós) — DGX GB200 NVL72

Em termos de comunicação, a NVIDIA desenvolveu o NVLink, uma tecnologia projetada para interconectar GPUs, substituindo efetivamente o PCIe. Ela também conecta CPUs e GPUs via NVLink.

NVLink

Para configurações com vários nós, as conexões NVLink diretas tornam-se impraticáveis, exigindo chips NVLink Switch, também conhecidos como NVSwitch. Com o tempo, esses chips evoluíram para dispositivos autônomos.

Comutador NVS

O NVLink permite a conexão de diversas GPUs em um nó lógico unificado — uma plataforma de computação em ultraescala. Uma configuração frequentemente mencionada é a DGX GB200 NVL72, que utiliza o NVLink5 com:

  • 18 bandejas de computação (cada uma contendo dois superchips GB200)
  • 9 bandejas de switch de rede NVLink

Cada bandeja de computação abriga: 2 GB200 Superchips (totalizando 36 CPUs Grace e 72 GPUs B200 em todo o sistema).

DGX GB200 NVL72

Além disso, oito unidades DGX GB200 NVL72 podem ser combinadas para criar um nó SuperPod com 576 GPUs.

Este ecossistema de produtos estruturado define o posicionamento da NVIDIA em IA e computação de alto desempenho.

Nó SuperPod

Interconexão de nós externos: escalonamento horizontal (IB e Ethernet)

Dentro de um único nó, adicionar GPUs continuamente é chamado de Scale-Up (expansão vertical). No entanto, quando um nó atinge um determinado tamanho, a expansão adicional se torna desafiadora. Nesse ponto, aumentar o número de nós e interconectá-los torna-se necessário — isso é conhecido como Scale-Out (expansão horizontal).

Interconexão de nós externos

A NVIDIA fornece soluções para escalonamento horizontal, principalmente por meio da tecnologia InfiniBand (IB). Originalmente desenvolvida pela Mellanox, InfiniBand tornou-se uma tecnologia proprietária da NVIDIA depois que a NVIDIA adquiriu a Mellanox em 2019. InfiniBand é um termo técnico e não um nome de produto; a plataforma de produtos da NVIDIA baseada em InfiniBand é NVIDIA Quantum.

Por exemplo, em março de 2024, a NVIDIA revelou a plataforma de switch de rede Quantum-X800, que atinge uma taxa de transferência de ponta a ponta de 800 Gbps. Essa plataforma inclui hardware como o switch Quantum Q3400 e as placas de rede ConnectX-8 SuperNIC. Esses componentes pertencem a uma série mais ampla — o Quantum-X800 sucede seu antecessor Quantum-2, enquanto o ConnectX-8 foi precedido pelo ConnectX-6 e pelo ConnectX-7.

plataforma nvidia blackwell

A placa de rede de alta velocidade ConnectX também é da Mellanox. A InfiniBand é uma das duas principais soluções de escalonamento horizontal; a outra é a Ethernet. A NVIDIA também desenvolveu produtos nessa área, com destaque para a plataforma Spectrum-X800. A linha Spectrum-X800 inclui switches Spectrum SN5600 e placas de rede BlueField-3 SuperNIC, com uma taxa de transferência igualmente alta de 800 Gbps.

Espectro-X800

O BlueField ganhou destaque como Unidade de Processamento de Dados (DPU). A NVIDIA combinou a tecnologia da placa de rede ConnectX da Mellanox com suas próprias inovações, lançando oficialmente a DPU BlueField-2 e a DPU BlueField-2X em 2020. Desde então, a tecnologia evoluiu para o BlueField-3.

Além disso, a NVIDIA introduziu recentemente switches de rede integrados CPO (Co-Packaged Optics), incluindo Spectrum-X Photonics e Quantum-X Photonics.

sistemas de comutação fotônica da nvidia

A NVIDIA oferece acessórios de rede adicionais, incluindo várias placas de rede, conectores e cabos, mas uma discussão detalhada de cada um está além do escopo aqui.

Recentemente, Jensen Huang deu a entender que o próximo lançamento da plataforma Rubin incluiria NVLink 6, ConnectX-9 SuperNIC e Quantum (Spectrum)-X1600 — algo que vale a pena esperar.

Estrutura de desenvolvimento: CUDA

Depois de discutir as plataformas de hardware de computação e soluções de rede da NVIDIA, é hora de explorar o CUDA, um componente de software crucial.

Embora a NVIDIA se destaque em hardware e rede, sua plataforma CUDA é amplamente considerada sua principal vantagem competitiva. CUDA (Compute Unified Device Architecture) é uma plataforma de computação paralela e um modelo de programação introduzido pela NVIDIA em 2006. Ela permite que desenvolvedores escrevam código diretamente para GPUs, acelerando significativamente o desempenho computacional.

Hoje, o CUDA serve como sistema operacional para computação inteligente, integrando um modelo de programação, compilador, APIs, bibliotecas e ferramentas, ajudando os usuários a maximizar os recursos de hardware da NVIDIA.

Além de ser uma ferramenta, o CUDA promove um poderoso ecossistema de desenvolvimento de IA, funcionando como o sistema nervoso central de toda a estrutura de negócios da NVIDIA. Muitos projetos de desenvolvimento de IA dependem fortemente do hardware da NVIDIA e do CUDA. Embora a troca de hardware seja relativamente simples, a migração do ecossistema como um todo representa um desafio muito maior.

Arquitetura de dispositivos unificados de computação

Deixe um comentário

Voltar ao Topo