Los precios más altos de los tokens y las subvenciones en declive han obligado a los desarrolladores de IA a hacerse una pregunta simple: ¿realmente necesitan el modelo más poderoso para cada tarea? La respuesta parece estar cambiando hacia "no". Una oleada de toma de decisiones conscientes del costo está barriendo la industria, y el impacto podría ser profundo.
El cofundador de Coinbase, Brian Armstrong, presentó una previsión audaz en X, diciendo que el 80 por ciento de las cargas de trabajo de IA se ejecutarán en "modelos un 99 por ciento más baratos" dentro de los próximos 12 a 18 meses. Solo el 20 por ciento más exigente de los trabajos, agregó, permanecerá en sistemas de última generación donde la inteligencia máxima es importante.
Esta proyección desafía la suposición prevaleciente de que los modelos más grandes automáticamente entregan mejores resultados. Durante años, las empresas de IA han competido para entrenar arquitecturas cada vez más grandes, apostando a que los clientes elegirían el rendimiento raw sobre el precio. Los inversores vertieron dinero en la búsqueda, efectivamente subsidiando el costo de ejecutar los modelos más avanzados.
Pero el panorama financiero está cambiando. A medida que aumentan las tarifas de tokens, las empresas están sintiendo el apriete. Algunas están recortando el uso, enviando menos consultas, acortando las solicitudes o abandonando proyectos marginales. Otros están experimentando con modelos más pequeños y económicos.
La startup de tecnología legal Harvey recientemente se asoció con la plataforma de inferencia Fireworks AI para probar este enfoque. Al combinar Claude Opus con Fireworks' GLM 5.1 y delegar las tareas más intensivas al modelo más grande, Harvey redujo su gasto de inferencia en un factor de tres sin ninguna caída notable en la calidad de salida. El cofundador Gabe Pereyra le dijo a TechCrunch que "la calidad es lo primero, y en lo legal siempre lo será", pero agregó que la definición de calidad ahora incluye entregar la respuesta correcta de manera eficiente, no solo usar el modelo más grande.
El experimento subraya una tendencia más amplia: la división ya no está entre modelos de peso abierto y propietario, sino entre modelos grandes y pequeños, independientemente de su origen. Ya sea que una empresa elija DeepSeek's V4 Flash o una versión recortada de GPT-5, el objetivo es el mismo: reducir costos mientras se mantiene el rendimiento.
Este cambio amenaza la economía de los laboratorios de alto rendimiento como OpenAI y Anthropic, que han construido sus valoraciones en la promesa de modelos cada vez más grandes. Un movimiento hacia alternativas más baratas podría erosionar las corrientes de ingresos en las que estas empresas dependen, especialmente a medida que se acercan a las ofertas públicas iniciales de alta perfil.
Mientras tanto, se está gestando una guerra de precios entre la inferencia interna de los grandes laboratorios y los proveedores independientes que ofrecen modelos de peso abierto. A medida que los usuarios evalúan las opciones, el mercado puede ver una consolidación rápida alrededor de las soluciones más rentables, lo que redefine el panorama competitivo.
Si la industria abraza completamente los modelos más pequeños sigue siendo un tema de debate. Los resultados iniciales sugieren que muchas tareas pueden ser manejadas igual de bien por sistemas menos intensivos en cálculo, pero las empresas seguirán equilibrando el costo, la velocidad y la precisión a medida que trazan sus estrategias de IA.
Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.