¿Cuántas GPU utiliza DeepSeek?

Durante el Festival de Primavera de China, DeepSeek se popularizó rápidamente gracias a su precio ultrabajo, lo que desencadenó una ola global de modelos de IA. Esto cambió radicalmente el concepto tradicional de que el desarrollo de la IA requiere una acumulación continua de potencia de procesamiento y GPU.

Pero muchas personas podrían preguntarse: ¿Cuántas GPU se necesitan para entrenar DeepSeek?

Existen diversas opiniones sobre este tema en internet. Incluso el "Iron Man" Musk cuestionó a DeepSeek: "No creo que se usara solo una cantidad muy pequeña de chips".

¿Cuántas GPU usa DeepSeek? Recientemente, el sitio web SemiAnalysis analizó este tema. Personalmente, creo que es bastante cierto. Analicémoslo hoy.

DeepSeek y High-Flyer

Para aquellos que han estado siguiendo de cerca el campo de los grandes modelos de IA, DeepSeek no es estrictamente una empresa nueva.

El fundador de DeepSeek, Liang Wenfeng, nació en la ciudad de Zhanjiang, provincia de Guangdong, en 1985. En 2015, Liang Wenfeng y sus amigos fundaron High-Flyer, una de las primeras instituciones en utilizar inteligencia artificial en algoritmos comerciales.

Se dieron cuenta pronto del potencial de la IA más allá de las finanzas y de la importancia de la expansión. Como resultado, continuaron ampliando su suministro de GPU. Antes de las restricciones a la exportación de 2021, High-Flyer invirtió en 10,000 100 GPU AXNUMX, una inversión que dio excelentes resultados.

A medida que High-Flyer seguía progresando, en mayo de 2023 se dieron cuenta de que era el momento de escindir "DeepSeek" para centrarse más en nuevas capacidades de IA. Dado que los inversores externos mostraban poco interés en la IA en aquel momento y les preocupaba la falta de un modelo de negocio, High-Flyer invirtió en la empresa por su cuenta, lo que ahora parece una inversión inteligente.

Gracias a esto, High-Flyer y DeepSeek ahora comparten frecuentemente recursos humanos y computacionales. DeepSeek se ha convertido en una iniciativa seria y organizada, no en una actividad secundaria, como afirman muchos medios. SemiAnalysis cree que, incluso considerando los controles de exportación, su inversión en GPU ha superado los 500 millones de dólares.

Distribución de recursos de GPU de DeepSeek

SemiAnalysis estima que DeepSeek utiliza unas 50,000 50,000 GPU Hopper para el entrenamiento, lo que, por supuesto, no equivale a 100 100 H800, como afirman algunos. Nvidia fabrica diferentes versiones del H20 (H20, HXNUMX) según distintas normativas, y actualmente solo el HXNUMX está disponible para los proveedores de modelos en China.

Es importante tener en cuenta que el H800 tiene la misma potencia de cálculo que el H100, pero con un ancho de banda de red menor.

SemiAnalysis cree que DeepSeek utiliza alrededor de 10,000 800 H10,000 y 100 20 H1. Además, han encargado más H9, y Nvidia ha producido más de un millón de GPU diseñadas específicamente para China en los últimos nueve meses. Estas GPU se comparten entre High-Flyer y DeepSeek y se implementan con cierta dispersión geográfica para fines comerciales, de razonamiento, de entrenamiento y de investigación.

TCO de Deepseek

TCO de Deepseek

El análisis muestra que los gastos totales de capital de los servidores de DeepSeek fueron de aproximadamente 1.6 millones de dólares, de los cuales los costos asociados con la operación de estos clústeres fueron considerables y alcanzaron los 944 millones de dólares.

De igual manera, todos los laboratorios de IA y proveedores de servicios de nube a gran escala cuentan con más GPU para diversas tareas, como investigación y entrenamiento, en lugar de solo para una única ejecución de entrenamiento. Cómo concentrar eficazmente los recursos para el entrenamiento de una tarea específica también es uno de los desafíos de DeepSeek.

En cuanto al talento, DeepSeek se centra en reclutar talento de China, independientemente de sus cualificaciones previas, priorizando su capacidad y curiosidad. DeepSeek organiza periódicamente ferias de empleo en universidades de prestigio, como la Universidad de Pekín y la Universidad de Zhejiang, de donde se gradúan muchos empleados. Los puestos no están necesariamente predefinidos y los reclutadores tienen flexibilidad. DeepSeek incluso presumió en sus anuncios de contratación de poder usar decenas de miles de GPU sin restricciones.

DeepSeek es extremadamente competitivo y, según se informa, ofrece salarios de más de 1.3 millones de dólares a candidatos prometedores, muy superiores a los de rivales chinos como Moonshot. DeepSeek cuenta actualmente con unos 150 empleados, pero está creciendo rápidamente.

Como ha demostrado la historia, una startup pequeña, bien financiada y centrada suele ser capaz de superar los límites de lo posible. DeepSeek no tiene la misma burocracia que Google y, al ser autofinanciada, puede impulsar ideas rápidamente. Sin embargo, al igual que Google, DeepSeek (en la mayoría de los casos) opera sus propios centros de datos y no depende de terceros ni proveedores. Esto abre un mayor margen de experimentación, permitiéndoles innovar en toda la pila de datos.

SemiAnalysis cree que DeepSeek es el mejor laboratorio “abierto y flexible” de la actualidad, superando al proyecto Llama de Meta, Mistral, etc.

Costo de capacitación y rendimiento de DeepSeek

Recientemente, un titular sobre el precio y la eficiencia de DeepSeek causó furor mundial, afirmando que entrenar DeepSeek V3 solo costó "6 millones de dólares", lo cual es erróneo. Es como considerar una pieza específica de la lista de materiales de un producto como el costo total. El costo previo al entrenamiento es solo una pequeña parte del costo total.

Echemos un vistazo al costo total de capacitación de DeepSeek:

Creemos que el costo del preentrenamiento dista mucho del monto real invertido en el modelo. SemiAnalysis cree que la inversión de DeepSeek en hardware a lo largo de su historia supera con creces los 500 millones de dólares. Durante el proceso de desarrollo del modelo, para desarrollar nuevas innovaciones arquitectónicas, es necesario invertir una cantidad considerable de dinero en probar nuevas ideas, nuevas ideas arquitectónicas y estudios de ablación.

Por ejemplo, la Atención Latente Multicabezal es una innovación clave de DeepSeek. Su desarrollo llevó al equipo varios meses e implicó una gran cantidad de mano de obra y recursos de GPU. El costo de 6 millones de dólares mencionado en el artículo se atribuye únicamente a los costos de la GPU para las ejecuciones de preentrenamiento, lo cual representa solo una parte del costo total del modelo. Otros componentes importantes que se omiten incluyen la I+D y el costo total de propiedad (TCO) del hardware.

Como referencia, el costo de capacitación de Claude 3.5 Sonnet fue de decenas de millones de dólares, y si eso fuera todo lo que Anthropic necesitara, no habrían recaudado miles de millones de Google ni decenas de miles de millones de Amazon. Esto se debe a que necesitan realizar experimentos, desarrollar nuevas arquitecturas, recopilar y depurar datos, pagar a sus empleados, etc.

¿Cómo logró DeepSeek tener un clúster tan grande? El retraso en el control de las exportaciones es clave, y además encargaron una gran cantidad de GPU modelo H20, fabricadas específicamente para satisfacer las necesidades del mercado chino.

Echemos un vistazo al rendimiento de V3:

El V3 es sin duda un modelo impresionante, pero cabe destacar sus ventajas en comparación. Muchos comparan el V3 con GPT-4o y destacan que el V3 supera al 4o. Esto es cierto, pero GPT-4o se lanzó en mayo de 2024. En el campo de la IA, este período ha supuesto un avance algorítmico significativo.

Análisis competitivo de Deepseek-V3

Análisis competitivo de Deepseek-V3

Con el tiempo, es normal alcanzar capacidades iguales o superiores con menos recursos informáticos. Por ejemplo, un modelo pequeño que ahora puede ejecutarse en una computadora portátil tiene un rendimiento comparable al de GPT-3, que requiere una supercomputadora para el entrenamiento y varias GPU para la inferencia.

En otras palabras, las mejoras algorítmicas han resultado en una menor necesidad de computación para entrenar e inferir modelos con la misma capacidad, un patrón recurrente. Esta vez, el mundo lo notó porque provenía de un laboratorio en China. Sin embargo, las mejoras de rendimiento para modelos pequeños no son nada nuevo.

LLM más económico por encima de 42 MMLU de costo/1 millón de tokens

LLM más económico por encima de 42 MMLU de costo/1 millón de tokens

El patrón observado hasta ahora sugiere que los laboratorios de IA están invirtiendo más en términos absolutos de dólares a cambio de un mejor rendimiento en su trabajo. Se estima que el ritmo de progreso algorítmico se cuadruplica al año, lo que significa que, con cada año que pasa, la cantidad de cómputo necesaria para lograr la misma capacidad se reduce en tres cuartas partes.

Dario, director ejecutivo de Anthropic, cree que el progreso algorítmico es aún más rápido, lo que supone una mejora de 10 veces. En cuanto a los precios de inferencia de nivel GPT-3, los costes se han reducido 1,200 veces.

Al analizar el costo de GPT-4, observamos una tendencia descendente similar, aunque en una etapa más temprana de la curva. Si bien la reducción de las diferencias de costo a lo largo del tiempo podría explicarse por no mantener la potencia constante, en este caso observamos una reducción de 10 veces en el costo y un aumento de 10 veces en la potencia debido a mejoras y optimizaciones algorítmicas.

LLM más barato por encima de cierto costo de MMLU/1 millón de tokens

Para ser claros, DeepSeek es único por ser el primero en alcanzar este nivel de costo y capacidad. También es único en publicar pesos de código abierto, algo que los modelos anteriores de Mistral y Llama ya han logrado. DeepSeek ha alcanzado este nivel de costo, pero no se sorprenda si ve que los costos se reducen cinco veces más para finales de año.

  • ¿Es el rendimiento de R1 comparable al de o1?

Por otro lado, R1 logra resultados comparables a O1, que se anunció en septiembre. ¿Cómo logró DeepSeek alcanzar el nivel tan rápido?

La respuesta es que la inferencia es un nuevo paradigma que ofrece iteraciones más rápidas y menores barreras de entrada, y permite obtener ganancias significativas con menos cómputo, lo cual resulta más ventajoso que el paradigma anterior. Como se describe en el informe de la Ley de Escala, el paradigma anterior se basaba en el preentrenamiento, que cada vez resulta más costoso y difícil de lograr para obtener ganancias robustas.

Este nuevo paradigma se centra en habilitar capacidades de inferencia mediante la generación de datos sintéticos y el aprendizaje de refuerzo (RL) entrenado posteriormente en modelos existentes, lo que permite a los usuarios progresar más rápido y a un menor costo. La baja barrera de entrada, combinada con la facilidad de optimización, permite a DeepSeek replicar el enfoque de o1 más rápido que nunca. A medida que los participantes aprenden gradualmente a alcanzar una mayor escala en este nuevo paradigma, se espera que aumente el tiempo necesario para equiparar las capacidades.

Es importante destacar que el artículo sobre R1 no menciona la cantidad de cómputo utilizado. Esto no es casualidad: generar datos sintéticos para R1 después del entrenamiento requiere mucho cómputo, por no mencionar el aprendizaje por refuerzo. R1 es un modelo muy bueno, no lo negamos, y alcanzar la vanguardia en capacidades de razonamiento con tanta rapidez es admirable. DeepSeek es aún más impresionante al ser una empresa china que se ha puesto al día con aún menos recursos.

Sin embargo, algunos de los parámetros mencionados por R1 también son engañosos. Comparar R1 con o1 es complicado, ya que R1 omite intencionalmente los parámetros que no superan. Y si bien R1 es comparable a o1 en rendimiento de inferencia, en muchos casos no es el claro ganador en todas las métricas, y en muchos casos es peor que o1.

Ni siquiera hemos mencionado O3. O3 es muy superior tanto a R1 como a O1. De hecho, OpenAI compartió recientemente los resultados de O3, y la mejora en los benchmarks fue vertical. «El aprendizaje profundo se ha topado con un muro», pero este es un muro diferente.

  • ¿Es el modelo de inferencia de Google comparable a R1?

Si bien R1 generó mucha expectación, una empresa de 2.5 billones de dólares lanzó un modelo de inferencia más económico un mes antes: Gemini Flash 2.0 Thinking de Google. Este modelo ya está disponible y es mucho más económico que R1, aunque la longitud del contexto del modelo es mucho mayor gracias a la API.

En los benchmarks reportados, Flash 2.0 Thinking supera al R1, aunque estos no lo reflejan todo. Google solo ha publicado tres benchmarks, por lo que esta es una imagen incompleta. Aun así, creemos que el modelo de Google es sólido y se mantiene a la altura del R3 en muchos aspectos, a pesar de no haber generado tanta expectación. Esto podría deberse a la deficiente estrategia de lanzamiento al mercado de Google y a la mala experiencia de usuario, pero también a que el R1 fue una sorpresa desde China.

Para ser claros, nada de esto menoscaba el destacado logro de DeepSeek. DeepSeek merece reconocimiento por ser una startup dinámica, bien financiada, inteligente y centrada, capaz de superar a un gigante como Meta y lanzar un modelo de inferencia.

Innovación tecnológica de DeepSeek

DeepSeek ha descifrado el código del modelo de IA, lo que ha permitido innovaciones que los laboratorios líderes aún no han logrado. SemiAnalysis espera que cualquier mejora lanzada por DeepSeek sea replicada casi de inmediato por los laboratorios occidentales.

¿Cuáles son estas mejoras? La mayoría de los logros arquitectónicos se relacionan con la versión 3, que es el modelo base de la versión 1. A continuación, explicaremos estas innovaciones en detalle.

  • Entrenamiento (pre-entrenamiento y puesta a punto)

DeepSeek V3 utiliza la predicción multietiqueta (MTP) a una escala sin precedentes y añade módulos de atención que predicen las siguientes etiquetas en lugar de una sola. Esto mejora el rendimiento del modelo durante el entrenamiento y puede descartarse en la inferencia. Este es un ejemplo de innovación algorítmica que logra un mejor rendimiento con un menor esfuerzo computacional.

Hay otras consideraciones, como el uso de la precisión FP8 en el entrenamiento, pero los principales laboratorios estadounidenses llevan mucho tiempo implementando el entrenamiento FP8. DeepSeek V3 también es un modelo mixto de expertos, un modelo grande compuesto por muchos otros expertos más pequeños con habilidades diferentes, lo cual es un comportamiento emergente. Un desafío con los modelos mixtos de expertos es cómo determinar qué etiqueta debe asignarse a cada submodelo o "experto".

Mezcla de expertos

Mezcla de expertos

DeepSeek implementa una red de control para distribuir etiquetas a los expertos correctos de forma equilibrada sin afectar el rendimiento del modelo. Esto significa que el envío es muy eficiente y, durante el entrenamiento, solo se modifica una pequeña cantidad de parámetros para cada etiqueta en relación con el tamaño total del modelo. Esto aumenta la eficiencia del entrenamiento y reduce el coste de inferencia.

Si bien a algunos les preocupa que las mejoras en la eficiencia del MoE puedan reducir la inversión, Dario señala que los beneficios económicos de los modelos de IA más potentes son tan grandes que cualquier ahorro en costos se reinvierte rápidamente en la construcción de modelos más grandes. En lugar de reducir la inversión general, las mejoras en la eficiencia del MoE acelerarán los esfuerzos de escalado de la IA. Las empresas se centran en escalar los modelos a más recursos computacionales y hacerlos más eficientes algorítmicamente.

En el caso de R1, se benefició enormemente de contar con un modelo base sólido (V3). Esto se debe en parte al aprendizaje por refuerzo (AR). El AR se centra en dos aspectos: el formato (para garantizar la coherencia de los resultados) y la utilidad frente a la inocuidad (para garantizar la utilidad del modelo). Las capacidades de razonamiento surgen cuando el modelo se ajusta con precisión en un conjunto de datos sintéticos.

Es importante destacar que no se menciona el cómputo en el artículo R1, ya que mencionar la cantidad de cómputo utilizado sugeriría que tienen más GPU de las que afirman. El aprendizaje por refuerzo a esta escala requiere un alto consumo de cómputo, especialmente para generar datos sintéticos.

Además, una parte de los datos utilizados por DeepSeek parece provenir del modelo de OpenAI, lo que SemiAnalysis cree que afectará la política de extracción de información de los resultados. Esto ya es ilegal según los términos del servicio, pero de cara al futuro, una nueva tendencia podría ser alguna forma de KYC (conozca a su cliente) para evitar la extracción de información.

Hablando de extracción de información, quizás lo más interesante del artículo de R1 sea la capacidad de convertir modelos pequeños de no inferencia en modelos de inferencia, ajustándolos con la salida del modelo de inferencia. La curación del conjunto de datos incluye un total de 800,000 muestras, y ahora cualquiera puede usar la salida CoT de R1 para crear sus propios conjuntos de datos y usarla para crear modelos de inferencia. Es posible que veamos más modelos pequeños que demuestren capacidades de inferencia, mejorando así el rendimiento de los modelos pequeños.

  • Atención Multilatente (MLA)

MLA es una de las innovaciones clave de DeepSeek que reduce significativamente el coste de inferencia. Esto se debe a que MLA reduce la caché KV necesaria para cada consulta en aproximadamente un 93.3 % en comparación con la atención estándar. La caché KV es un mecanismo de memoria del modelo Transformer que se utiliza para almacenar datos que representan el contexto de la conversación y reducir los cálculos innecesarios.

MLA

MLA

A medida que crece el contexto de la conversación, la caché KV también crece, lo que puede generar limitaciones de memoria significativas. Reducir drásticamente la caché KV requerida para cada consulta puede reducir la cantidad de hardware necesario para cada consulta, lo que a su vez reduce los costos.

Sin embargo, SemiAnalysis cree que DeepSeek ofrece servicios de inferencia a precio de coste para ganar cuota de mercado en lugar de generar ingresos. El enfoque de Gemini Flash 2.0 de Google sigue siendo más económico, y es poco probable que Google ofrezca el servicio a precio de coste. MLA ha atraído especialmente la atención de muchos laboratorios líderes de EE. UU. MLA se introdujo en DeepSeek V2, lanzado en mayo de 2024. Gracias al mayor ancho de banda de memoria y capacidad de H20 que de H100, DeepSeek también ofrece mayor eficiencia en las cargas de trabajo de inferencia.

Actualmente, los requisitos de GPU de DeepSeek resaltan la necesidad de una planificación eficaz de la infraestructura de IA. Mediante la distribución inteligente de la carga de trabajo, la cuantificación y la asignación dinámica de GPU, las empresas pueden reducir significativamente los costos de computación a la vez que mantienen un alto rendimiento. Esta es también una razón importante por la que DeepSeek se considera un producto de "nivel nacional".

Deja un comentario

Ir al Inicio