Пять уровней вычислительной мощности NVIDIA AI: анализ технологии GB200 из GTC 2024

На конференции GTC 2024 года NVIDIA представила свой новаторский чип Blackwell AI. Что его отличает и какие непреодолимые барьеры он преодолевает?

nvidia-blackwell-gpu-main-2

Прежде чем углубляться в специфику Blackwell, давайте разберемся в философии дизайна GB200. GB200 представляет собой самый мощный суперчип ИИ от NVIDIA, потенциально формирующий основу самых мощных в мире серверов ИИ. Как NVIDIA удалось достичь этого?

Ответ заключается в тщательном исследовании и разработке в сочетании с четкой стратегией расширения. Дженсен Хуанг (генеральный директор NVIDIA) сообщил, что стоимость разработки Blackwell составила около 10 миллиардов долларов — ошеломляющие инвестиции.

Теперь давайте рассмотрим пять уровней вычислительной мощности:

Вычислительная мощность одного чипа

При ограничениях эквивалентной технологии процесса большая площадь чипа вмещает больше транзисторов. Размер чипа Blackwell расширяет границы, охватывая всю пластину (800 мм²) в пределах максимальных пределов экспозиции литографических машин. Хуан с юмором заметил, что любое увеличение может привести к растрескиванию всей пластины из-за физических ограничений.

Многие воспринимают вычислительную мощность ИИ как накопление потоковых многопроцессорных (SM) ядер. Хотя это в некоторой степени верно, важно исследовать достижения в вычислительной мощности одной карты. Например, процессор Ascend 910B от Huawei приближается к уровню A100 за счет увеличения SM.

Вычислительная мощность одного чипа

Однако, как мы увидим, вычислительная мощность одной карты представляет собой лишь первый уровень возможностей ИИ. Давайте теперь рассмотрим прогресс Блэквелла в этой области.

Чтобы разобраться с этим, давайте вернемся к истории развития карт ускорителей ИИ NVIDIA. Карта ускорителя ИИ первого поколения Volta представила архитектуру Tensor Core, специально разработанную для вычислений ИИ. GPU V100, основанный на этой архитектуре, имел 80 блоков SM, каждый из которых содержал 8 вычислительных ядер (блоков). Каждое ядро ​​могло выполнять 128 16-битных операций умножения с накоплением с плавающей точкой за цикл. При тактовой частоте 1.53 ГГц вычислительная мощность V100 с плавающей точкой составляла 125 терафлопс (TFLOPS).

время

Чтобы облегчить всем понимание, давайте кратко объясним некоторые сокращения здесь. «FLOPS» означает «Floating Point Operations Per Second» (операций с плавающей точкой в ​​секунду), что представляет собой количество вычислений с плавающей точкой, выполняемых в секунду. «Tera» — это единица научной записи, где 1 Tera равна 1000 Giga. В этом контексте «Tera» соответствует определенному порядку величины.

Теперь давайте углубимся в детали различных архитектур графических процессоров NVIDIA:

Архитектура Тьюринга (T4):

  • Архитектура тензорных вычислений второго поколения от NVIDIA называется «Turing». Она представляет собой графическую карту T4.
  • Карта T4 содержит 40 потоковых мультипроцессоров (SM), а другие характеристики аналогичны V100.
  • Следовательно, вычислительная мощность T4 примерно вдвое меньше, чем у V100, а именно около 65 TFLOPS.

Архитектура Ampere (A100):

  • Архитектура тензорной обработки третьего поколения — Ampere, к которой относятся известные видеокарты серии A100.
  • Благодаря достижениям в технологии изготовления чипов A100 оснащен 108 SM (вдвое больше, чем в предыдущем поколении) с тем же количеством ядер, что и V100.
  • Модернизированные вычислительные блоки позволяют каждому ядру выполнять 256 операций умножения и накопления с плавающей точкой за цикл (в два раза больше возможностей старой архитектуры).
  • Кроме того, A100 представляет 8-битный режим с плавающей точкой (FP8), оптимизированный для рабочих нагрузок глубокого обучения. Каждое 16-битное ядро ​​может функционировать как два 8-битных ядра, что еще больше увеличивает вычислительную мощность.
  • Несмотря на небольшое снижение тактовой частоты (1.41 ГГц), A100 достигает почти в 5 раз большей вычислительной мощности, чем V100, составляющей в общей сложности 624 TFLOPS (FP8).
ампер

Архитектура бункера (H100):

  • Архитектура четвертого поколения, известная как Hopper, была выпущена NVIDIA в прошлом году.
  • Хотя количество SM (132) в серии H100 не значительно увеличилось по сравнению с предыдущим поколением, она отличается новой архитектурой Tensor Core и асинхронной конструкцией памяти.
  • Каждое ядро ​​SM теперь может выполнять умножения и накопления FP16 512 раз за цикл.
  • Тактовая частота немного выше — 1.83 ГГц.
  • В результате одна карта H100 достигает поразительного показателя в 1978 тера-флопс (FP8), впервые входя в область PFLOPS (1.97 петафлопс).
  • Для сравнения: 1 ПФЛОПС равен 1000 ТФЛОПС.
  • Представьте себе, что емкость вашего жесткого диска увеличилась в тысячу раз, и у вас получится 1 ПБ — обычная единица хранения в крупных центрах обработки данных.
бункер

На прошлой неделе Хуан представил архитектуру Blackwell пятого поколения, отметив значительный прогресс в вычислительной мощности. Согласно общедоступным данным, GB200, использующий новый блок данных FP4, как ожидается, достигнет 20 петафлопс вычислительной мощности в задачах вывода. При обратном преобразовании в точность FP8 он все равно должен обеспечить впечатляющие 10 PFLOPS, что представляет собой примерно пятикратное улучшение по сравнению с H100.

Согласно публично раскрытой информации, Blackwell работает на тактовой частоте 2.1 ГГц. При условии минимальных изменений архитектуры это означает, что Blackwell будет иметь 600 потоковых мультипроцессоров (SM), что почти в четыре раза больше, чем у H100. С двумя кристаллами в конструкции Blackwell даже однокристальный графический процессор будет иметь вдвое больше SM, чем H100.

Замечательное увеличение вычислительной мощности во многом обязано достижениям в литографии, травлении чипов и физическим ограничениям, связанным с размером пластины — первый уровень усовершенствования. Кроме того, постоянное совершенствование NVIDIA архитектуры Tensor Core, включая оптимизированные конвейеры для Transformers и выделенные драйверы CUDA, внесло значительный вклад в повышение производительности Blackwell.

А100 FP16

Однако фундаментальный прирост вычислительной мощности Blackwell в первую очередь обусловлен увеличением числа SM. По сравнению с архитектурой Hopper, представленной в 2023 году, Blackwell достигает примерно пятикратного улучшения. По сравнению с архитектурой Volta 2017 года скачок еще более существенен — около 40 раз.

Второй уровень вычислительной мощности включает в себя межсоединения Die-to-Die.

Blackwell достигает 600 SM, создавая самый большой в мире чиплет: напрямую соединяя два ядра GPU в массивный блок, который разрушает физические ограничения одной пластины. Скорость связи между этими ядрами достигает ошеломляющих 10 ТБ/с, что заставляет их воспринимать себя как колоссальный единый чип.

В то время как ограничения фотошаблонов, экспозиции, размера пластины и технологических размеров обычно ограничивают количество транзисторов на одном чипе, Blackwell бросает вызов этим ограничениям. Площадь его чипа составляет 800 квадратных миллиметров, что называется «Reticle-Sized», что указывает на максимальный размер, который можно производить с помощью фотолитографических машин.

чип блэквелла

Амбиции Хуанга на этом не заканчиваются. Он выходит на новый уровень вычислительной мощности: соединяет два кристалла, чтобы сформировать еще больший чиплет. Пока скорость соединения остается достаточно высокой, эти два чиплета будут работать как единое целое — рождение самого большого в мире графического процессора.

Почему два чиплета, а не три или четыре? Здесь применим принцип «один порождает два, два порождают все». «Два» представляет собой оптимальное решение для связи чипа и сложности в рамках текущих технологических ограничений.

У Apple также есть собственная технология двухъядерного соединения под названием UltraFusion, хотя и с уменьшенной пропускной способностью связи (всего 2.5 ТБ/с). Однако графические процессоры Хуан Жэньсюня являются промышленными продуктами, значительно превосходящими потребительскую электронику.

Кубик 2 кубика

Это достижение — беспричинная демонстрация мастерства NVIDIA, вызванная взрывным спросом на вычислительную мощность. Blackwell может похвастаться самой быстрой в мире связью Die-to-Die на ошеломляющих 10 ТБ/с, используя технологию под названием NV-HBI (High Bandwidth Interface), которая остается нераскрытой. Мы предполагаем, что это может быть вариант NVLINK 5.0 или 224G XSR serdes, использующий 48 групп каналов для общей пропускной способности 10 ТБ/с.

Независимо от конкретной технологии, которую примет NVIDIA, это предъявляет совершенно новые требования к Advanced Packaging. Компании, занимающиеся упаковкой, с помощью сложной прокладки медных проводов внутри платы и металлических шариков припоя на задней стороне печатной платы достигают сложных 2.5D-соединений — настоящего технического подвига. Упаковка, уступающая только фотолитографии, представляет собой серьезную проблему для отечественной индустрии чипов.

3DТкань

Подводя итог, Blackwell может похвастаться 206 миллиардами транзисторов, поддерживающих до восьми стеков памяти HBM3e (вместо четырех), каждый с емкостью 24 ГБ и пропускной способностью 1 ТБ/с. Следовательно, графический процессор B200 будет предлагать в общей сложности 192 ГБ памяти и пропускную способность памяти 8 ТБ/с.

Стоимость исследований и разработок графических процессоров Blackwell составляет ошеломляющие $10 млрд. Достижение предельной вычислительной мощности одного графического процессора знаменует собой первую линию обороны для суперкомпьютерных процессоров ИИ от NVIDIA.

Что касается соединения трех, четырех и более графических процессоров, Хуан Жэньсюнь оставляет эту задачу следующему уровню вычислительной мощности: NVLink.

Третий уровень вычислительной мощности в архитектуре NVIDIA Blackwell включает NVLink и объединяет 72 графических процессора.

Хотя объединение двух кристаллов в один GPU кажется мощным, практические приложения все еще требуют большего. Для больших языковых моделей с сотнями миллиардов параметров, достижение своевременного обучения на массивных текстовых корпусах с триллионами токенов требует обширных параллельных вычислений.

Параллелизм данных — это один из аспектов, где веса моделей и даже отдельные слои должны быть распределены по разным графическим процессорам для параллельных вычислений, достигая трехмерного ускорения «разделяй и властвуй». Для параллельного обучения больших языковых моделей мы можем обратиться к идеям HuggingFace по этой теме.

параллельно

Нам нужно понять, что даже при наличии достаточного объема памяти одного графического процессора недостаточно для обучения большой языковой модели.

Решение NVIDIA включает сборку двух графических процессоров Blackwell и процессора Arm (Grace CPU) на одной материнской плате. Этот продукт, названный GB200 (Grace Blackwell 200), может похвастаться двумя графическими процессорами Blackwell и четырьмя кристаллами, что обеспечивает вычислительную мощность FP8 в 20 PFLOPS — вдвое больше, чем у одного графического процессора. Два графических процессора соединены между собой с помощью технологии NVLink при поддержке процессора Grace CPU, что обеспечивает пропускную способность связи 1.8 ТБ/с на графический процессор и общую пропускную способность 3.6 ТБ/с. Конкретное соединение показано на схеме ниже:

Схема подключения GB200

Затем NVIDIA собирает 36 таких плат PCB (называемых стойкой) в стандартный серверный корпус. Эти 36 материнских плат остаются соединенными между собой с помощью NVLink, что обеспечивается электрическими сигналами медного кабеля.

В соответствии со стандартом NVLink 5 каждый графический процессор может взаимодействовать с 18 другими графическими процессорами одновременно, что обеспечивает общую пропускную способность 1.8 ТБ/с — в 14 раз больше, чем у PCIe 5. В общей сложности 72 графических процессора достигают совокупной пропускной способности связи 130 ТБ/с, что теоретически может обеспечить пропускную способность всего Интернета. 

nvlink производительность в масштабе

Этот шкаф, оснащенный 72 ядрами Blackwell GPU, называется GB200 NVL72. 72-GPU-взаимодействие превосходит традиционные 8-GPU-параллельные схемы (такие как Huawei и AMD) в 9 раз. Настраиваемая емкость высокоскоростной памяти HBM72e NVL3 увеличивается с 192 ГБ для одной карты до колоссальных 13.5 ТБ с максимальной пропускной способностью памяти 576 ТБ/с.

Эти цифры могут показаться головокружительными, но их влияние на скорость обучения больших моделей неоспоримо. По сравнению с GB200 с двумя графическими процессорами, улучшение производительности NVL72 составляет ошеломляющие 36 раз. Мы действительно вошли в сферу суперкомпьютеров, где простота встречается с грубой силой.

ГБ200 НВЛ72 FP8

В частности, GB200 NVL72 достигает 720 PFLOPS в вычислительной мощности FP8 и впервые входит в область Exa с 1.44 Exa FLOPS в FP4. Это объясняет, почему в задачах вывода NVL72 превосходит H100 до 30 раз.

Вычислительная мощность Exascale теперь может соперничать с лучшими суперкомпьютерами мира. В то время как суперкомпьютеры достигают этого уровня производительности, используя вычисления FP64 и миллионы ядер ЦП, GB200 NVL72 достигает этого всего с 72 графическими процессорами

ГБ200 НВЛ72

Вычисления четвертого уровня: NVSwitch, SuperPOD

Когда одного шкафа недостаточно, решением является добавление большего количества шкафов. Этот простой подход грубой силы является фундаментальным принципом стратегии суперкомпьютеров Scale Up Дженсена Хуанга.

Теоретически использование NVSwitch позволяет использовать максимум 576 подключений GPU через NVLink. По совпадению, это соответствует конфигурации из 8 шкафов GB200-NVL72, которые NVIDIA называет GB200 SuperPOD.

GB200 СуперПОД

Каждый NVSwitch обеспечивает до 144 интерфейсов NVLink. В одном шкафу вам понадобится 9 NVSwitch, что даст 72 графических процессора — каждый полностью загружен 18 соединениями NVLink (72 * 18 = 9 * 144).

NVLink предлагает соединение GPU «All-to-All», то есть каждый GPU имеет как восходящие, так и нисходящие каналы, подключаясь к любому другому GPU в системе.

NVLink 5 имеет значительное преимущество перед предыдущим продуктом GH100: в то время как предыдущее поколение допускало максимум 64 канала NVLink на NVSwitch и 256 графических процессоров в системе NVLINK, GB200 может вместить 72 графических процессора в одном шкафу (6 H100). Для 256 графических процессоров в 8 шкафах вам понадобится в общей сложности 72 NVSwitch (9 * 8).

Между шкафами сетевые карты серии NVIDIA ConnectX, использующие стандарты InfiniBand, подключаются через Ethernet на скорости 400 ГБ/с. Это объясняет синие кабели, видимые на задней стороне изображенной установки. 800G OSFP обычно поддерживает либо 2 канала на скорости 400 ГБ/с, либо 8 каналов на скорости 100 ГБ/с.

GH100

В качестве альтернативы нетрадиционный подход предполагает использование NVSwitch для соединения самых крайних шкафов, как показано ниже. В этой конфигурации 8 H100 образуют узел, что приводит к 32 узлам. Каждый узел внутренне подключается с использованием 4 NVSwitch. Следуя расположению оптоволоконных коммутаторов на схеме, для полного соединения запасных интерфейсов в каждом узле используются дополнительные 18 NVSwitch. Это в общей сложности 146 NVSwitch.

NVSwtich

В то время как максимальная совокупная пропускная способность NVSwitch составляет 1 ПБ/с (почти в 500 раз больше, чем у одного NVLink), его пиковая неблокируемая пропускная способность 14.4 ТБ/с значительно уступает 130 ТБ/с в пределах одного шкафа NVL72. Таким образом, масштабирование производительности не происходит без потерь. Во время обучения задачи связи должны в основном выполняться внутри шкафов, а связь между шкафами должна быть зарезервирована для определенных нужд, таких как обновления градиента после завершения пакета.

Без сомнения, если вы можете позволить себе эти 8 шкафов, ваша вычислительная мощность (вычисления FP4) достигнет поразительных 11.52 Exa FLOPS. Даже для широко используемого FP8 это 5.76 Exa FLOPS. Впечатляет, не правда ли?

Пятый уровень вычислений: суперфабрика искусственного интеллекта

На предыдущей конференции GTC в 2023 году Хуан представил интригующую картинку: система, способная поддерживать 8,000 графических процессоров, завершающая обучение огромной гибридной экспертной языковой модели MoE с 400 миллиардами параметров всего за 20 часов — задача, которая в противном случае заняла бы три месяца. NVIDIA, вероятно, сотрудничает с поставщиками облачных услуг, такими как Azure, и можно с уверенностью предположить, что эта система является уникальным глобальным явлением.

обучение искусственного интеллекта

Огромное количество графических процессоров, вероятно, будет соединяться через несколько SuperPOD с помощью оптических коммутаторов и оптоволоконной топологии. Весь центр обработки данных станет сферой, в которой доминируют графические процессоры. В будущем, наряду с атомными электростанциями, мы можем стать свидетелями подъема вычислительных фабрик — во многом похожих на пророческого Ровоама из сериала «Мир Дикого Запада». Эти фабрики создадут AGI (искусственный общий интеллект) и, возможно, будут править миром людей.

Ниже вы найдете концептуальную схему вычислительной фабрики, а также изображение Ровоама:

Вычислительная Фабрика
Ровоам

Что касается вычислительной мощности? Если вам все еще интересно, подумайте об этом: с 8,000 графических процессоров (в 20 раз больше оценки SuperPOD) вычисления FP4 достигнут беспрецедентных 220 Exa FLOPS. Даже для широко используемого FP8 мы смотрим на 115 Exa FLOPS.

Оставьте комментарий

Наверх