Humai Blog
Publicado el

DeepSeek, cómputo y la estrategia de EE.UU. para frenar a China


cover
date
Feb 18, 2025
tags
Inteligencia Artificial
Machine Learning
Geopolítica
summary
DeepSeek ha demostrado que es posible desarrollar modelos de IA eficientes con menos recursos, pero sigue dependiendo de hardware de alto rendimiento, dominado por fabricantes estadounidenses como Nvidia. En respuesta a este avance, EE.UU. ha redoblado sus esfuerzos para restringir el acceso de China a chips avanzados, endureciendo los controles de exportación con el objetivo de frenar el progreso de la IA en su principal rival geopolítico. En este artículo, exploramos el impacto de la ballena DeepSeek.
slug
deepseek
status
Published
type
Post
author
Julio Santirachi
En nuestro artículo sobre leyes de escalado analizamos si el progreso de la inteligencia artificial enfrenta una “pared” infranqueable con el escalado tradicional y exploramos cómo el aumento del cómputo en inferencia está redefiniendo el desarrollo de modelos avanzados. Ahora, nos enfocamos en el papel del cómputo en la competencia global y cómo la irrupción de DeepSeek ha intensificado la batalla tecnológica entre China y EE.UU.
DeepSeek ha demostrado que es posible desarrollar modelos de IA eficientes con menos recursos, pero sigue dependiendo de hardware de alto rendimiento, dominado por fabricantes estadounidenses como Nvidia. En respuesta a este avance, EE.UU. ha redoblado sus esfuerzos para restringir el acceso de China a chips avanzados, endureciendo los controles de exportación con el objetivo de frenar el progreso de la IA en su principal rival geopolítico.

El momento Sputnik de la IA y la reacción del mercado

El mercado de valores se encuentra actualmente en una burbuja masiva, impulsada en gran medida por el “hype” en torno a la IA generativa. Según Bloomberg, se espera que este año tan solo Microsoft, Amazon, Oracle, Google y Meta gasten aproximadamente 274 miles de millones de dólares en infraestructura para inteligencia artificial.
notion image
DeepSeek ha emergido recientemente como un competidor destacado en el campo de la inteligencia artificial, especialmente en comparación con modelos estadounidenses consolidados como los de OpenAI, Meta y Anthropic.
El primer modelo que llamó fuertemente la atención es Deepseek-V3, lanzado en diciembre de 2024. DeepSeek-V3 es un modelo masivo de 671B de parámetros, destacable por su eficiencia en costos, al ser entrenado en solo 55 días por $5.5 millones de dólares, utilizando 2048 GPUs NVIDIA H800, en contraste con los $100 millones reportados para el entrenamiento de GPT-4o de OpenAI. En pruebas como Codeforces para programación competitiva, DeepSeek V3 ha superado a modelos como Llama 3.1 de Meta, GPT-4o de OpenAI e incluso Qwen 2.5 de Alibaba.
Como señaló en un tweet Andrej Karpathy, co-fundador de OpenIA y ex-director de IA en Tesla, Llama-3.1 405B (hasta ahora considerado el estándar de oro para el código abierto) utilizó 30.8 millones de horas de GPU, mientras que DeepSeek-V3 parece ser un modelo más sólido con solo 2.8 millones de horas de GPU (aproximadamente 11 veces menos cómputo).
El 20 de enero DeepSeek liberó sus modelos open source DeepSeek-R1, especializados en pensamiento prolongado y construidos sobre el modelo base DeepSeek-V3, con un rendimiento a la par de o1 de OpenAI en tareas de razonamiento complejo, matemáticas, programación y comprensión del lenguaje. También fue liberado el paper que contiene los detalles técnicos de su entrenamiento y se habilitó su uso gratuito mediante la web o la app de DeepSeek.
notion image
En menos de una semana, la app alcanzó el primer lugar como la aplicación gratuita mejor valorada en la App Store de Apple, desplazando a ChatGPT.
notion image
Uno de los principales motivos por los que DeepSeek se volvió viral fue porque se difundió en los medios la cifra de $6 millones de dólares como su costo total. Además, el surgimiento de DeepSeek ocurre mientras el gobierno de EE.UU. está imponiendo estrictas restricciones sobre semiconductores a China, que han limitado el acceso del país a los chips más potentes, como los H100 de Nvidia, incluyendo una serie de órdenes ejecutivas de última hora a finales de 2024. Por lo que DeepSeek habría sido construido sin los chips de IA más avanzados.
Como resultado, fue cuestionado uno de los supuestos centrales del auge de la IA: que construir sistemas de IA de vanguardia requerirá miles de millones en inversión adicional en hardware. ¿Los gigantes tecnológicos como Microsoft, Alphabet y Meta necesitan mantener su nivel actual de inversión en el hardware de Nvidia?
Los inversores globales vendieron acciones tecnológicas el lunes 27 de enero ante la preocupación de que el modelo chino de bajo costo amenazara el dominio de los líderes de IA como Nvidia. Así, las acciones de Nvidia se desplomaron cerca de un 17% ese mismo día, su mayor caída desde marzo de 2020, borrando $589 mil millones de su capitalización de mercado. Esto superó el récord anterior, una caída del 9% en septiembre que eliminó alrededor de $279 mil millones en valor, y se convirtió en la mayor pérdida en la historia del mercado de valores de EE.UU.
notion image
Esto llevó al Nasdaq (.IXIC), dominado por empresas tecnológicas, a caer un 3.1% el lunes 27 de enero. Nvidia fue el mayor lastre del índice. El segundo mayor lastre del Nasdaq fue el fabricante de chips Broadcom Inc. (AVGO.O), que cerró con una caída del 17.4%, seguido por Microsoft (MSFT.O), respaldador de ChatGPT, que bajó un 2.1%, y Alphabet (GOOGL.O), matriz de Google, que terminó con una pérdida del 4.2%.
Sin embargo, como se menciona explícitamente en el artículo técnico de DeepSeek V3 (el modelo base sobre el cual se entrenó a R1), $6 millones son tan solo el costo para una única ejecución de entrenamiento de DeepSeek V3. No es correcto señalar esa cifra como el costo total. Sería similar a señalar una parte específica de la lista de materiales de un producto y atribuirle el costo total.
Dario Amodei, CEO de Anthropic ha criticado la afirmación acerca de que “DeepSeek hace por 6 millones de dólares lo que a las empresas estadounidenses les cuesta miles de millones dólares”, afirmando que el modelo Claude 3.5 Sonnet ha tenido un costo de $10 millones solo para su entrenamiento. Si ese fuera el costo total que Anthropic necesitaba, entonces no recaudarían miles de millones de Google ni decenas de miles de millones de Amazon.
Según la estimación de SemiAnalysis, el gasto total en servidores (CapEx) de DeepSeek ronda los $1.6 mil millones, con un costo considerable de $944 millones asociado a la operación de sus clústeres de GPUs. Además, según el informe de SemiAnalysis, DeepSeek probablemente tiene acceso a 50000 GPUs Hopper, lo cual no es lo mismo que 50000 H100. Estiman que su inversión en hardware podría haber sido más cercana a $500 millones.
De todos modos, la eficiencia y resultados de DeepSeek afectan la tesis de inversión en infraestructura de IA que está teniendo lugar en los Estados Unidos. Un ejemplo de esta tesis de inversión es el reciente anuncio del Presidente de los Estados Unidos, Donald Trump, sobre una inversión del sector privado de $500 mil millones de dólares en infraestructura de IA, con el objetivo de superar a las naciones rivales en esta tecnología clave para los negocios. Trump afirmó que OpenAI, creador de ChatGPT, junto con SoftBank (9984.T) y Oracle (ORCL.N), están planeando una empresa conjunta llamada Stargate, que construirá centros de datos y creará más de 100,000 empleos en Estados Unidos.
notion image
Pocos días después del anuncio de Stargate, cuando DeepSeek sacudió los mercados, Trump, dijo que “el lanzamiento de DeepSeek, una IA de una empresa china, debería ser una llamada de atención para nuestras industrias: debemos estar totalmente enfocados en competir para ganar”.
"He estado leyendo sobre China y algunas de las empresas en China, en particular una que está desarrollando un método de IA más rápido y mucho menos costoso, y eso es bueno porque no tienes que gastar tanto dinero. Lo veo como algo positivo, como un activo", dijo Trump.
notion image
Marc Andreessen, el capitalista de riesgo de Silicon Valley, dijo en una publicación en X que el modelo R1 de DeepSeek era el "momento Sputnik" de la IA, en referencia al lanzamiento del satélite de la ex Unión Soviética que marcó el inicio de la carrera espacial a finales de la década de 1950. La aparición de DeepSeek representa un desafío para el dominio de las empresas occidentales de IA.

La paradoja de Jevons

Si ganamos en eficiencia y reducimos los costos de los grandes modelos de IA, ¿significa que cada vez necesitaremos menos cómputo (y hardware de Nvidia) para la IA? No necesariamente.
Por un lado, citar el apetito legendario y voraz que el Deep Learning tiene por el cómputo, como lo ha hecho Andrej Karpathy. Pero como explica en un tweet el investigador de IA François Chollet, creador de Keras y del benchmark ARC-AGI, la clave está en que la utilidad de la IA escala de manera logarítmica con el tiempo de inferencia y el cómputo. Actualmente, para muchos casos de uso, la cantidad de cómputo que necesitas para operar a nivel humano es tal que la IA no es económicamente viable para ese caso. Cuanto más eficiente en cómputo sea la IA, más casos de uso se volverán económicamente viables, más desplegaremos la IA y más cómputo necesitaremos.
Satya Nadella, CEO de Microsoft, también afirmó este efecto citando la paradoja de Jevons.
Esta paradoja puede entenderse de la siguiente manera. Si compras un auto que usa menos combustible por kilómetro, gastarás menos en combustible, ¿no? Parece intuitivo. Pero a veces, la economía se comporta de manera contraria a la intuición: mejorar la eficiencia en el uso de un recurso puede aumentar el consumo total de ese recurso en lugar de reducirlo. Es fácil centrarse en los ahorros directos, pero las personas suelen no predecir los nuevos o ampliados usos que surgen cuando los costos bajan.
La paradoja de Jevons ocurre entonces cuando los avances tecnológicos hacen que un recurso sea más eficiente de usar (reduciendo así la cantidad y costo necesario para una sola aplicación), y esto resulta en un aumento general de la demanda, lo que provoca un aumento en el consumo total del recurso.

La estrategia de los Estados Unidos para restringir la competencia de la inteligencia artificial china

La brecha de cómputo entre EE.UU. y China, ampliada aún más por los controles de exportación de chips de IA, sigue siendo la principal limitación de DeepSeek. El fundador de DeepSeek, Liang Wenfeng, reconoció abiertamente una desventaja de cómputo de 4x a pesar de sus avances en eficiencia. Wenfeng dijo en la misma entrevista que: "No tenemos planes de recaudar fondos a corto plazo. Nuestro problema nunca ha sido el financiamiento; es el embargo sobre los chips de alto rendimiento".
Lo que se espera es que Estados Unidos haga estos controles de exportación más fuertes, además de sumar otras medidas. El objetivo parece ser frenar la tasa de innovación de China, como lo expresó Gina Raimondo, la secretaria de Comercio de los Estados Unidos.
Dario Amodei, CEO de Anthropic, publicó recientemente un artículo donde expone un argumento para los controles de exportación. Primero, deja claro que la tendencia donde las compañías gastan más y más en entrenar modelos de IA poderosos continuará. Las innovaciones en eficiencia desarrolladas por DeepSeek pronto serán aplicadas tanto por laboratorios de EE.UU. como de China para entrenar modelos valuados en miles de millones de dólares. Estos modelos superarán a los que inicialmente planeaban entrenar, pero aún así seguirán gastando miles de millones. Esa cifra continuará aumentando hasta que alcancemos una IA más inteligente que casi todos los humanos en casi todas las tareas.
Crear una IA que sea más inteligente que casi todos los humanos en casi todas las cosas requerirá millones de chips, decenas de miles de millones de dólares (al menos), y lo más probable, dice Amodei, es que suceda en 2026-2027.
Esto, según el CEO de Anthropic, significa que en 2026-2027 podríamos terminar en uno de dos mundos radicalmente diferentes. El primero es un mundo bipolar, donde tanto EE.UU. como China tendrán modelos de IA poderosos que causarán avances extremadamente rápidos en ciencia y tecnología, con la posibilidad de que China pudiera dirigir más talento, capital y enfoque hacia aplicaciones militares de la tecnología y obtener una ventaja militar global. Este mundo bipolar, en opinión de Amodei, sería una amenaza para la seguridad nacional de EE.UU.
El segundo es un mundo unipolar, en el cual China no puede tener acceso a millones de chips, y donde solo EE.UU. y sus aliados tendrán modelos de IA poderosos.
Según Amodei, los controles de exportación bien aplicados son lo único que puede evitar que China obtenga millones de chips, y por lo tanto, son el factor más importante para determinar si terminamos en un mundo unipolar o bipolar.
También es posible que se incorporen más medidas para prohibir el uso de aplicaciones de IA chinas en los Estados Unidos. Fue noticia que muchos funcionarios de la administración Trump, legisladores y expertos en ciberseguridad expresaran su preocupación de que la tecnología pueda representar una amenaza para la seguridad nacional de EE. UU. Además, la Marina de EE. UU. prohibió el uso de DeepSeek debido a "preocupaciones de seguridad y ética".
Posiblemente restringiendo la competencia de este modo es como EE. UU. trate de acaparar la supremacía en IA mientras excluye a otras naciones. En 2014, Pether Thiel, fundador de PayPal y Palantir, y un empresario de alta influencia política en EE.UU., dio una charla en Stanford, invitado por Sam Altman, el actual CEO de OpenAI, en la que defendía los monopolios: "Competir es para los perdedores" es la frase acuñada por Peter Thiel.
 

Compartir este artículo