Por que a GPU é necessária para treinamento de IA

24 de fevereiro de 2024

Brian

Engenheiro de Rede Óptica

Com o boom da IA desencadeado pelo ChatGPT, as GPUs se tornaram a pedra angular das plataformas de treinamento de grandes modelos de IA e podem até ser consideradas a base aritmética decisiva. Para responder à questão de por que a GPU é necessária para o treinamento de IA, é essencial compreender as tecnologias primárias em inteligência artificial (IA) e aprendizado profundo.

Conteúdo

Inteligência Artificial e Aprendizado Profundo

A Inteligência Artificial é uma disciplina com uma longa história. Desde a década de 1950, tem sido explorado em diversas direções tecnológicas, passando por diversos altos e baixos. Os primeiros dias da Inteligência Artificial deram origem a um gênero um tanto malsucedido conhecido como “Redes Neurais Artificiais”. O conceito por trás desta tecnologia era que a inteligência do cérebro humano é incomparável e, para alcançar inteligência artificial avançada, imitar o cérebro humano é a chave. O cérebro humano consiste em bilhões de neurônios interconectados para formar uma vasta e intrincada rede neural. O cérebro de um bebê é como uma lousa em branco que, por meio do aprendizado pós-natal, pode atingir altos níveis de inteligência.

Neurônios biológicos para neurônios artificiais

Modelos de neurônios artificiais foram concebidos para se inspirar nos neurônios do cérebro humano. Nos neurônios artificiais no lado direito do diagrama, ajustar o peso de cada entrada e processá-la através do neurônio produz a saída correspondente. Cada peso neste contexto é referido como um parâmetro.

Conectar vários neurônios como esse para formar uma rede resulta em uma rede neural artificial. As redes neurais artificiais normalmente consistem em uma camada de entrada, várias camadas ocultas entre elas e uma camada de saída.

Essas redes neurais artificiais são semelhantes ao cérebro de um bebê – vazio e necessitando de uma alimentação substancial de dados para aprender de forma abrangente e adquirir conhecimento para a resolução prática de problemas. Este processo é conhecido como “aprendizado profundo” e se enquadra no subconjunto de “aprendizado de máquina”.

Na abordagem comumente usada de “aprendizagem supervisionada”, os dados alimentados à IA devem conter tanto o problema quanto a resposta. Por exemplo, se o objetivo é treinar a IA para detectar se uma imagem contém um gato, precisamos fornecer à IA muitas imagens rotuladas como contendo um gato, juntamente com as características definidoras dos gatos. A IA usará então esses exemplos para aprender os padrões e características dos gatos.

O processo de aprendizagem começa com a IA analisando uma determinada imagem usando seu conjunto inicial de parâmetros. Em seguida, compara sua conclusão com a resposta correta e ajusta os pesos dos parâmetros de acordo. Este processo iterativo continua até que a saída da IA corresponda à resposta correta.

Esse processo de aprendizagem é chamado de treinamento. Geralmente, fornecer à IA uma grande quantidade de dados com respostas corretas conhecidas resultará em melhores resultados de treinamento. Quando estivermos satisfeitos com o treinamento, poderemos testar o desempenho da IA em problemas desconhecidos. Se a IA conseguir encontrar as respostas com precisão, consideramos o treinamento bem-sucedido e a IA demonstrou boas capacidades de “generalização”.

Conforme mostrado no diagrama, a transferência de pesos de parâmetros de uma camada da rede neural para a próxima é essencialmente multiplicação e adição de matrizes. Quanto maior a escala dos parâmetros da rede neural, mais extensos serão os cálculos matriciais necessários durante o treinamento.

As redes neurais de aprendizagem profunda mais avançadas podem ter centenas de milhões a trilhões de parâmetros e requerem grandes quantidades de dados de treinamento para atingir alta precisão. Isso significa que eles devem processar um enorme número de amostras de entrada por meio de propagação direta e reversa. Como as redes neurais são construídas a partir de um grande número de neurônios idênticos, esses cálculos são inerentemente altamente paralelos. Dadas as enormes demandas computacionais, deveríamos usar uma CPU ou uma GPU?

CPU versus GPU

A CPU (Unidade Central de Processamento) é o cérebro do computador, o núcleo do núcleo. Consiste principalmente em uma Unidade Lógica Aritmética (ALU) para realizar cálculos e uma Unidade de Controle (CU) para gerenciar o fluxo de dados e instruções.

Quando os dados chegam, eles são armazenados primeiro na memória. A Unidade de Controle então recupera os dados relevantes da memória e os passa para a ALU para processamento. Após a conclusão do cálculo, o resultado é armazenado de volta na memória.

No início, uma CPU tinha um único conjunto de ALU, CU e cache e só podia processar uma tarefa por vez. Para lidar com múltiplas tarefas, a CPU teria que enfileira-las e executá-las sequencialmente, compartilhando os recursos.

Mais tarde, vários conjuntos de ALU, CU e cache foram integrados em um único chip, criando uma CPU multi-core. CPUs multi-core possuem verdadeiras capacidades de processamento paralelo.

Normalmente, as CPUs modernas têm de alguns a dezenas de núcleos. Quando os smartphones se começaram a generalizar, os fabricantes enfatizaram fortemente a contagem de núcleos, levando a uma “guerra de núcleos” no mercado de smartphones. No entanto, essa corrida na contagem de núcleos acabou estagnando e os fabricantes de chips se concentraram em otimizar o desempenho do núcleo.

Por que as CPUs não integram ainda mais núcleos? Isso ocorre porque a CPU é um processador de uso geral. Suas tarefas são altamente complexas, exigindo que ele lide com vários tipos de cálculos de dados e responda às interações homem-computador. O gerenciamento e agendamento de tarefas complexas exigem unidades de controle mais sofisticadas e caches maiores para manter baixa latência ao alternar entre tarefas. À medida que o número de núcleos aumenta, a sobrecarga de comunicação entre os núcleos também aumenta, o que pode degradar o desempenho de núcleos individuais. Além disso, ter mais núcleos pode aumentar o consumo de energia e, se a carga de trabalho não for distribuída uniformemente, o desempenho geral poderá não melhorar, podendo até diminuir.

GPU, especialista em computação paralela

Vamos nos aprofundar no reino da GPU. A GPU, também conhecida como Unidade de Processamento Gráfico, foi originalmente projetada para aliviar a carga da CPU, acelerando a renderização de gráficos tridimensionais, comumente usados em placas gráficas de computador. O processamento de imagens é essencialmente uma forma de computação paralela intensiva focada em matrizes. Conforme ilustrado no diagrama abaixo, a imagem à esquerda é composta por vários pixels e pode ser naturalmente representada como uma matriz à direita.

O termo “GPU” ganhou popularidade em 1999 com o lançamento da GeForce256 pela Nvidia, um produto que processa simultaneamente cada ponto de pixel, realizando cálculos paralelos matematicamente intensivos, como transformações gráficas, iluminação e recorte de triângulo para renderização de imagem.

A proficiência das GPUs em lidar com computação paralela intensiva decorre de suas diferenças arquitetônicas em comparação com as CPUs. As CPUs têm menos núcleos, com cada núcleo possuindo amplo cache e recursos computacionais robustos, juntamente com suporte de hardware para inúmeras previsões de ramificação de aceleração e julgamentos lógicos ainda mais complexos, tornando-os adequados para lidar com tarefas complexas.

Em contraste, as GPUs são mais diretas e de força bruta; cada núcleo tem poder computacional e tamanho de cache limitados, contando com o aumento da contagem de núcleos para melhorar o desempenho geral. Com um número maior de núcleos, as GPUs podem realizar multitarefas com eficiência, processando um grande volume de tarefas simples de computação paralela.

Com o tempo, as GPUs evoluíram para se tornarem mais versáteis e programáveis, estendendo sua funcionalidade além da renderização de exibição de imagens para acelerar a computação de alto desempenho, o aprendizado profundo e outras cargas de trabalho. Aproveitando a oportunidade apresentada pelo aumento na procura de computação paralela impulsionada pela inteligência artificial, as GPUs passaram do seu papel periférico anterior para assumirem o centro das atenções, tornando-se muito procuradas. O termo “GPU” foi transformado em GPGPU, denotando GPU de uso geral. Aproveitar o paralelismo inerente do treinamento de IA em GPUs aumenta significativamente a velocidade em comparação ao treinamento usando apenas CPUs, tornando-as a plataforma preferida para treinar sistemas complexos baseados em redes neurais em grande escala. A natureza paralela das operações de inferência alinha-se bem com a execução em GPUs. Conseqüentemente, o poder computacional fornecido pelas GPUs como força primária é referido como “computação inteligente”.