El alto costo del entrenamiento de los modelos de inteligencia artificial (IA) está bajo escrutinio. La irrupción del modelo chino DeepSeek y el sorprendente experimento con el modelo ‘s1’, desarrollado por investigadores de Stanford y la Universidad de Washington, han puesto en duda la viabilidad de las millonarias inversiones de gigantes como OpenAI, Google y Microsoft.
Los creadores de DeepSeek aseguran que su modelo fue entrenado con 2.048 chips H800 de NVIDIA y un costo de 5,6 millones de dólares. Sin embargo, el informe de SemiAnalysis cuestiona esta afirmación, señalando que la infraestructura utilizada habría requerido en realidad 50.000 GPU de NVIDIA, incluyendo al menos 10.000 H100 y 10.000 H800.
Mientras tanto, el modelo ‘s1’ ha causado un impacto aún mayor. Según un estudio publicado el 31 de enero en arXiv, los investigadores lograron entrenar un modelo de IA con capacidades de razonamiento comparables a o1 de OpenAI y R1 de DeepSeek con un costo inferior a 50 dólares. «A primera vista, parece imposible, pero lo logramos gracias a una estrategia innovadora», afirman los científicos.
Este modelo fue desarrollado a partir de Qwen2.5-32B, una IA gratuita creada por el laboratorio chino Qwen (Alibaba), y se inspiró en Gemini 2.0 Flash Thinking Experimental de Google. Además, todo el código y los datos utilizados están disponibles en GitHub, lo que abre la puerta a nuevas investigaciones.
La clave del bajísimo costo radica en dos factores: el uso de infraestructura de computación en la nube y una técnica de destilación. El entrenamiento se realizó en menos de 30 minutos con solo 16 chips H100 de NVIDIA, lo que explica el costo mínimo.
La destilación permite transferir el conocimiento de un modelo avanzado a otro más pequeño y eficiente, reduciendo drásticamente los recursos necesarios. «Este enfoque no crea modelos desde cero, pero sí permite entrenarlos con mucha menos inversión», explican los investigadores.
Más allá de la cifra de 50 dólares, lo realmente relevante es que estos experimentos están desafiando el modelo de negocio de las grandes tecnológicas. Si la destilación y el uso estratégico de modelos preentrenados se expanden, los costos de la IA podrían desplomarse, obligando a empresas como OpenAI y Google a replantear sus estrategias.