Preços de token mais altos e subsídios em declínio forçaram os desenvolvedores de IA a fazer uma pergunta simples: eles realmente precisam do modelo mais poderoso para cada task? A resposta parece estar mudando para "não". Uma onda de tomada de decisão consciente dos custos está varrendo a indústria, e o impacto pode ser profundo.

O co-fundador da Coinbase, Brian Armstrong, apresentou uma previsão ousada no X, dizendo que 80 por cento das cargas de trabalho de IA serão executadas em "modelos 99 por cento mais baratos" dentro dos próximos 12 a 18 meses. Apenas 20 por cento das tarefas mais exigentes, acrescentou, permanecerão nos sistemas de ponta, onde a inteligência máxima importa.

Essa projeção desafia a suposição prevalecente de que modelos maiores automaticamente entregam melhores resultados. Durante anos, as empresas de IA competiram para treinar arquiteturas cada vez maiores, apostando que os clientes escolheriam o desempenho bruto sobre o preço. Os investidores injetaram dinheiro nessa busca, efetivamente subsidiando o custo de executar os modelos mais avançados.

No entanto, a paisagem financeira está mudando. À medida que as taxas de token aumentam, as empresas estão sentindo o aperto. Algumas estão reduzindo o uso - enviando menos consultas, encurtando prompts ou abandonando projetos marginais. Outras estão experimentando com modelos menores e mais econômicos.

A startup de legal-tech Harvey recentemente se associou à plataforma de inferência Fireworks AI para testar essa abordagem. Ao combinar Claude Opus com o GLM 5.1 da Fireworks e delegar as tarefas mais intensivas ao modelo maior, a Harvey reduziu seus gastos de inferência por um fator de três sem nenhuma queda notável na qualidade da saída. O co-fundador Gabe Pereyra disse à TechCrunch que "a qualidade vem primeiro, e na área jurídica sempre será", mas acrescentou que a definição de qualidade agora inclui fornecer a resposta certa de forma eficiente, e não apenas usar o modelo maior.

O experimento destaca uma tendência mais ampla: a divisão não é mais entre modelos de peso aberto e proprietário, mas entre modelos grandes e pequenos, independentemente de sua fonte. Seja qual for a opção da empresa - seja o V4 Flash da DeepSeek ou uma versão reduzida do GPT-5 - o objetivo é o mesmo: reduzir custos enquanto preserva o desempenho.

Essa mudança ameaça a economia dos laboratórios pesados, como a OpenAI e a Anthropic, que construíram suas avaliações com base na promessa de modelos cada vez maiores. Uma mudança para alternativas mais baratas pode erodir as receitas que essas empresas dependem, especialmente à medida que se aproximam de IPOs de alto perfil.

Enquanto isso, uma guerra de preços está se formando entre a inferência interna dos grandes laboratórios e os provedores independentes que oferecem modelos de peso aberto. À medida que os usuários avaliam as opções, o mercado pode ver uma consolidação rápida em torno das soluções mais rentáveis, redesenhando a paisagem competitiva.

Se a indústria realmente abraça os modelos menores, ainda está para ser visto. Os resultados iniciais sugerem que muitas tarefas podem ser tratadas com a mesma eficácia por sistemas menos intensivos em computação, mas as empresas continuarão a equilibrar custo, velocidade e precisão à medida que traçam suas estratégias de IA.

Questo articolo è stato scritto con l'assistenza dell'IA.
News Factory APP - notizie agentiche per potenziare il tuo SEO e AEO.