Во время китайского весеннего фестиваля DeepSeek быстро стал популярным благодаря своей сверхнизкой цене, вызвав глобальный шторм больших моделей ИИ. Это напрямую изменило «традиционную» концепцию, согласно которой развитие ИИ требует постоянного накопления вычислительной мощности и графических процессоров.
Но многие могут задаться вопросом: сколько графических процессоров необходимо для обучения DeepSeek?
В Интернете существуют разные мнения по этому вопросу. Даже «американский Железный Человек» Маск усомнился в DeepSeek: Я не верю, что использовалось лишь очень небольшое количество чипов.
Так сколько же графических процессоров использует DeepSeek? Недавно сайт SemiAnalysis проанализировал эту тему. Я лично думаю, что это относительно верно. Давайте обсудим это вместе сегодня.
DeepSeek и High-Flyer
Для тех, кто внимательно следит за развитием крупных моделей ИИ, DeepSeek — не совсем новая компания.
Основатель DeepSeek Лян Вэньфэн родился в городе Чжаньцзян провинции Гуандун в 1985 году. В 2015 году Лян Вэньфэн и его друзья основали High-Flyer, одну из первых организаций, использовавших искусственный интеллект в торговых алгоритмах.
Они быстро осознали потенциал ИИ за пределами финансов и важность расширения. В результате они продолжили расширять поставки своих графических процессоров. До введения экспортных ограничений в 2021 году High-Flyer инвестировала в 10,000 100 графических процессоров AXNUMX, и этот шаг окупился сторицей.
По мере того, как High-Flyer продолжала развиваться, в мае 2023 года они поняли, что пришло время отделить «DeepSeek», чтобы более целенаправленно заняться дальнейшими возможностями ИИ. Поскольку внешние инвесторы в то время мало интересовались ИИ и были обеспокоены отсутствием бизнес-модели, High-Flyer инвестировала в компанию самостоятельно, что теперь кажется мудрым вложением.
Благодаря этому High-Flyer и DeepSeek теперь часто делят человеческие и вычислительные ресурсы. DeepSeek теперь превратился в серьезное и организованное начинание, а не «побочную линию», как утверждают многие СМИ. SemiAnalysis считает, что даже с учетом экспортного контроля их инвестиции в графические процессоры превысили 500 миллионов долларов.
Распределение ресурсов графического процессора DeepSeek
По оценкам SemiAnalysis, DeepSeek использует около 50,000 50,000 графических процессоров Hopper для обучения, что, конечно, не эквивалентно 100 100 H800, как утверждают некоторые. Nvidia производит различные версии H20 (H20, HXNUMX) в соответствии с различными правилами, и в настоящее время только HXNUMX доступен поставщикам моделей в Китае.
Важно отметить, что H800 имеет ту же вычислительную мощность, что и H100, но с меньшей пропускной способностью сети.
SemiAnalysis считает, что DeepSeek использует около 10,000 800 H10,000 и около 100 20 H1. Кроме того, они заказали больше H9, а Nvidia произвела более XNUMX миллиона графических процессоров, разработанных специально для Китая, за последние XNUMX месяцев. Эти графические процессоры совместно используются High-Flyer и DeepSeek и развернуты в определенной степени географического распределения для торговли, рассуждений, обучения и исследований.

Deepseek TCO
Анализ показывает, что общие капитальные затраты DeepSeek на серверы составили приблизительно 1.6 млрд долларов США, из которых значительную часть составили расходы, связанные с эксплуатацией этих кластеров, достигшие 944 млн долларов США.
Аналогично, все лаборатории ИИ и поставщики гипермасштабных облачных услуг имеют больше графических процессоров для различных задач, включая исследования и обучение, а не только для одного тренировочного прогона. Как эффективно концентрировать ресурсы для обучения для определенной задачи — это также одна из проблем DeepSeek.
Что касается талантов, DeepSeek фокусируется на наборе талантов из Китая, независимо от предыдущей квалификации, уделяя особое внимание их способностям и любопытству. Понятно, что DeepSeek регулярно проводит ярмарки вакансий в ведущих университетах, таких как Пекинский университет и Чжэцзянский университет, которые заканчивают многие сотрудники. Должности не обязательно предопределены, и рекрутерам предоставляется гибкость. DeepSeek даже хвастались в объявлениях о наборе персонала, что они могут использовать десятки тысяч графических процессоров без ограничений.
DeepSeek чрезвычайно конкурентоспособна, как сообщается, предлагая перспективным кандидатам зарплату более 1.3 млн долларов, что намного выше, чем у китайских конкурентов, таких как Moonshot. В настоящее время в DeepSeek работает около 150 человек, но компания быстро растет.
Как показывает история, небольшой, хорошо финансируемый и сфокусированный стартап часто способен раздвинуть границы возможного. У DeepSeek нет той же бюрократии, что и у Google, и, будучи самофинансируемым, они могут быстро продвигать идеи вперед. Однако, как и Google, DeepSeek (в большинстве случаев) управляет собственными центрами обработки данных и не полагается на внешние стороны или поставщиков. Это открывает больше возможностей для экспериментов, позволяя им внедрять инновации по всему стеку.
SemiAnalysis считает, что DeepSeek — лучшая «открытая и гибкая» лаборатория на сегодняшний день, превосходящая проекты Meta Llama, Mistral и т. д.
Стоимость обучения и производительность DeepSeek
Недавно заголовок о цене и эффективности DeepSeek вызвал всемирный ажиотаж, заявив, что DeepSeek V3 обошелся всего в «6 миллионов долларов» на обучение, что неверно. Это как считать определенную часть в спецификации продукта как всю стоимость. Стоимость предварительного обучения составляет лишь очень малую часть общей стоимости.
Давайте посмотрим на общую стоимость обучения DeepSeek:
Мы считаем, что стоимость предварительной подготовки далека от фактической суммы, потраченной на модель. SemiAnalysis считает, что расходы DeepSeek на оборудование за всю историю компании намного превышают 500 миллионов долларов. В процессе разработки модели, чтобы разрабатывать новые архитектурные инновации, необходимо тратить значительные суммы денег на тестирование новых идей, новые архитектурные идеи и исследования абляции.
Например, Multi-Head Latent Attention — ключевое нововведение DeepSeek. Его разработка заняла у команды несколько месяцев и потребовала много рабочей силы и ресурсов GPU. Стоимость в 6 миллионов долларов, упомянутая в статье, относится только к расходам на GPU для предтренировочных запусков, что составляет лишь часть общей стоимости модели. Другие важные части, о которых не упоминается, включают НИОКР и общую стоимость владения (TCO) самого оборудования.
Для справки, стоимость обучения Claude 3.5 Sonnet составила десятки миллионов долларов, и если бы это было все, что потребовалось для Anthropic, они бы не привлекли миллиарды от Google и десятки миллиардов от Amazon. Это потому, что им нужно проводить эксперименты, придумывать новые архитектуры, собирать и очищать данные, платить сотрудникам и т. д.
Так как же DeepSeek удалось создать такой большой кластер? Ключевым фактором является отставание в экспортном контроле, а также они заказали большое количество графических процессоров модели H20, которые специально производятся для удовлетворения потребностей китайского рынка.
Давайте посмотрим на производительность V3:
V3, несомненно, впечатляющая модель, но стоит отметить, по отношению к чему она впечатляет. Многие сравнивают V3 с GPT-4o и подчеркивают, что V3 превосходит 4o. Это правда, но GPT-4o был выпущен в мае 2024 года. В области ИИ этот период времени принес значительный алгоритмический прогресс.

Конкурентный анализ Deepseek-V3
Со временем становится нормой достижение тех же или больших возможностей с меньшими вычислительными ресурсами. Например, небольшая модель, которая теперь может работать на ноутбуке, имеет производительность, сравнимую с GPT-3, которая требует суперкомпьютер для обучения и несколько графических процессоров для вывода.
Другими словами, алгоритмические улучшения привели к уменьшению вычислений, необходимых для обучения и вывода моделей с теми же возможностями, и эта закономерность возникала снова и снова. На этот раз мир обратил на это внимание, поскольку это произошло в лаборатории в Китае. Но прирост производительности для небольших моделей — это не новость.

Самый дешевый LLM выше 42 MMLU стоимость/1 млн токенов
Наблюдаемая нами до сих пор модель предполагает, что лаборатории ИИ тратят больше в абсолютном долларовом выражении в обмен на лучшую производительность своей работы. Скорость алгоритмического прогресса оценивается в 4 раза в год, что означает, что с каждым годом объем вычислений, необходимых для достижения той же производительности, сокращается на 3/4.
Генеральный директор Anthropic Дарио считает, что алгоритмический прогресс идет еще быстрее, обеспечивая 10-кратное улучшение. Что касается ценообразования вывода на уровне GPT-3, то затраты снизились в 1,200 раз.
При рассмотрении стоимости GPT-4 мы видим похожую тенденцию к снижению стоимости, хотя и на более ранней стадии кривой. Хотя снижение разницы в стоимости с течением времени можно было бы объяснить не сохранением постоянной мощности, в этом случае мы видим 10-кратное снижение стоимости и 10-кратное увеличение мощности из-за алгоритмических улучшений и оптимизаций.

Самый дешевый LLM выше определенной стоимости MMLU/1 млн токенов
Чтобы было ясно, DeepSeek уникальна тем, что они первые достигли такого уровня стоимости и возможностей. Они также уникальны в выпуске весов с открытым исходным кодом, но предыдущие модели Mistral и Llama сделали это. DeepSeek достигла такого уровня стоимости, но не удивляйтесь, если к концу года стоимость снизится еще в 5 раз.
- Сравнима ли производительность R1 с o1?
С другой стороны, R1 способен достичь сопоставимых результатов с O1, который был анонсирован только в сентябре. Как DeepSeek удалось так быстро догнать его?
Ответ заключается в том, что вывод — это новая парадигма, которая имеет более быстрые итерации и более низкие барьеры для входа, и может достигать значимых результатов с меньшими вычислениями, что более выгодно, чем предыдущая парадигма. Как указано в отчете Scaling Law, предыдущая парадигма опиралась на предварительное обучение, которое становится все более дорогим и сложным для достижения надежных результатов.
Эта новая парадигма фокусируется на включении возможностей вывода посредством синтетической генерации данных и обучения с подкреплением (RL) с последующим обучением на существующих моделях, что позволяет людям добиваться прогресса быстрее и по более низкой цене. Низкий порог входа в сочетании с простотой оптимизации позволяет DeepSeek воспроизводить подход o1 быстрее, чем когда-либо прежде. По мере того, как участники постепенно учатся достигать большего масштаба в этой новой парадигме, ожидается, что временной разрыв для сопоставления возможностей увеличится.
Важно отметить, что в статье R1 не упоминается объем использованных вычислений. Это не случайно — генерация синтетических данных для пост-обучения R1 требует большого объема вычислений, не говоря уже об обучении с подкреплением. R1 — очень хорошая модель, мы этого не отрицаем, и столь быстрый выход на передовые позиции в области рассуждений достоин восхищения. DeepSeek еще более впечатляет как китайская компания, которая догнала нас, имея еще меньше ресурсов.
Но некоторые из упомянутых R1 бенчмарков также вводят в заблуждение. Сравнивать R1 с o1 сложно, поскольку R1 намеренно не упоминает бенчмарки, которые они не возглавляют. И хотя R1 сопоставим с o1 по производительности вывода, во многих случаях он не является явным победителем по каждой метрике, а во многих случаях он хуже, чем o1.
Мы еще даже не упомянули O3. O3 значительно превосходит и R1, и O1. Фактически, OpenAI недавно поделилась результатами для O3, и улучшение в тестах было вертикальным. «Глубокое обучение уперлось в стену», но это стена другого рода.
- Сопоставима ли модель вывода Google с R1?
В то время как R1 вызвал много шума, компания стоимостью 2.5 триллиона долларов выпустила более дешевую модель вывода месяцем ранее: Gemini Flash 2.0 Thinking от Google. Эта модель уже доступна и намного дешевле, чем R1, хотя длина контекста ее модели намного больше через API.
В представленных бенчмарках Flash 2.0 Thinking превосходит R1, хотя бенчмарки не рассказывают всю историю. Google выпустила только 3 бенчмарка, так что это неполная картина. Тем не менее, мы считаем, что модель Google надежна и во многих отношениях не уступает R1, даже несмотря на то, что вокруг нее не было никакой шумихи. Это может быть связано с плохой стратегией выхода Google на рынок и плохим пользовательским опытом, но также и с тем, что R1 был сюрпризом из Китая.
Если говорить точнее, ничто из этого не умаляет выдающихся достижений DeepSeek. DeepSeek заслуживает похвалы за то, что он является быстро развивающимся, хорошо финансируемым, умным и целеустремленным стартапом, который смог обойти такого гиганта, как Meta, и выпустить модель вывода.
Инновации в области технологий DeepSeek
DeepSeek взломал код большой модели ИИ, открыв инновации, которые ведущие лаборатории еще не достигли. SemiAnalysis ожидает, что любые улучшения, выпущенные DeepSeek, будут почти немедленно воспроизведены западными лабораториями.
Что это за улучшения? Большинство архитектурных достижений относятся к V3, которая является базовой моделью R1. Давайте подробно объясним эти нововведения.
- Обучение (предварительное обучение и тонкая настройка)
DeepSeek V3 использует многометковое прогнозирование (MTP) в беспрецедентном масштабе и добавляет модули внимания, которые предсказывают следующие несколько меток вместо одной метки. Это улучшает производительность модели во время обучения и может быть отброшено во время вывода. Это пример алгоритмической инновации, которая достигает улучшенной производительности с меньшими вычислительными усилиями.
Есть и другие соображения, например, использование точности FP8 в обучении, но ведущие лаборатории США уже давно занимаются обучением FP8. DeepSeek V3 также является смесью экспертной модели, большой моделью, состоящей из многих других меньших экспертов, которые хороши в разных вещах, что является эмерджентным поведением. Одна из проблем со смесью моделей экспертов заключается в том, как определить, какой ярлык следует присвоить какой подмодели или «эксперту».

Смесь экспертов
DeepSeek реализует «сеть гейтинга» для сбалансированной отправки меток правильным экспертам без ухудшения производительности модели. Это означает, что отправка очень эффективна, и во время обучения для каждой метки изменяется лишь небольшое количество параметров относительно общего размера модели. Это повышает эффективность обучения и снижает стоимость вывода.
Хотя некоторые беспокоятся, что рост эффективности MoE может сократить инвестиции, Дарио отмечает, что экономические выгоды от более мощных моделей ИИ настолько велики, что любая экономия средств быстро реинвестируется в создание более крупных моделей. Вместо того, чтобы сокращать общие инвестиции, рост эффективности MoE ускорит масштабирование ИИ. Компании сосредотачиваются на масштабировании моделей для большего количества вычислительных ресурсов и повышении их алгоритмической эффективности.
В случае R1, он значительно выиграл от наличия сильной базовой модели (V3). Это отчасти из-за обучения с подкреплением (RL). RL фокусируется на двух аспектах: форматировании (чтобы гарантировать, что оно обеспечивает согласованный вывод) и полезности против безвредности (чтобы гарантировать, что модель полезна). Возможности рассуждения появляются, когда модель точно настраивается на синтетическом наборе данных.
Важно отметить, что в статье R1 нет упоминания о вычислениях, так как упоминание об объеме используемых вычислений предполагает, что у них больше графических процессоров, чем они заявляют. Обучение с подкреплением в таком масштабе требует большого количества вычислений, особенно для генерации синтетических данных.
Кроме того, часть данных, используемых DeepSeek, по-видимому, поступает из модели OpenAI, что, по мнению SemiAnalysis, повлияет на политику извлечения информации из выходных данных. Это уже незаконно в условиях обслуживания, но, заглядывая вперед, новой тенденцией может стать некая форма KYC (знай своего клиента) для предотвращения извлечения информации.
Говоря об извлечении информации, возможно, самая интересная часть статьи R1 — это возможность превращать меньшие модели без вывода в модели вывода путем их тонкой настройки с выходными данными модели вывода. Курирование набора данных включает в себя в общей сложности 800,000 1 образцов, и теперь любой может использовать выходные данные CoT RXNUMX для создания собственных наборов данных и использовать эти выходные данные для создания моделей вывода. Мы можем увидеть больше меньших моделей, демонстрирующих возможности вывода, тем самым улучшая производительность малых моделей.
- Мультилатентное внимание (МЛВ)
MLA — одно из ключевых нововведений DeepSeek, которое значительно снижает стоимость вывода. Причина в том, что MLA уменьшает кэш KV, необходимый для каждого запроса, примерно на 93.3% по сравнению со стандартным вниманием. Кэш KV — это механизм памяти в модели Transformer, который используется для хранения данных, представляющих контекст разговора, и сокращения ненужных вычислений.

MLA
По мере роста контекста разговора кэш KV также растет и может вносить существенные ограничения памяти. Радикальное сокращение кэша KV, необходимого для каждого запроса, может уменьшить объем оборудования, необходимого для каждого запроса, тем самым снижая затраты.
Однако SemiAnalysis считает, что DeepSeek предлагает услуги вывода по себестоимости, чтобы завоевать долю рынка, а не реально зарабатывать деньги. Gemini Flash 2.0 Thinking от Google по-прежнему дешевле, и маловероятно, что Google предложит эту услугу по себестоимости. MLA особенно привлекла внимание многих ведущих лабораторий США. MLA была представлена в DeepSeek V2, выпущенном в мае 2024 года. Благодаря более высокой пропускной способности памяти и емкости H20, чем H100, DeepSeek также обладает большей эффективностью в рабочих нагрузках вывода.
В настоящее время требования DeepSeek к GPU подчеркивают необходимость эффективного планирования инфраструктуры ИИ. Используя интеллектуальное распределение рабочей нагрузки, квантование и динамическое распределение GPU, предприятия могут значительно сократить затраты на вычисления, сохраняя при этом высокую производительность. Это также важная причина, по которой DeepSeek называют продуктом «национального уровня».