As empresas de tecnologia podem aprender a amar modelos de IA mais baratos? -

O boom da IA foi construído com base em uma suposição básica: modelos maiores são mais poderosos e os modelos mais poderosos vencem. Agora, a indústria está prestes a saber o que acontecerá se essa suposição começar a falhar.

Os custos de montagem já pressionaram os usuários a dar uma segunda olhada nos modelos menores e mais baratos. Esta compra de modelos consciente dos custos é nova e não está claro como afetará a indústria, mas o impacto provavelmente será significativo.

Uma previsão, melhor apresentada pelo cofundador da Coinbase, Brian Armstrong, é que isso resultará na grande maioria das tarefas mudando para modelos mais baratos.

“A demanda por inteligência é quase infinita, mas 80% das cargas de trabalho serão executadas em modelos 99% mais baratos dentro de 12 a 18 meses”, escreveu Armstrong no X. “20% das cargas de trabalho ainda serão executadas em modelos de última geração, onde maximizar o QI é importante.”

É difícil exagerar a mudança significativa que será para a indústria de IA se a previsão de Armstrong se concretizar.

Até agora, a maioria das empresas de IA competia em termos de qualidade, o que significava optar pelo modelo mais avançado disponível. Se esses mesmos trabalhos pudessem ser realizados por modelos mais baratos sem afectar a qualidade, isso significaria uma grande mudança na economia da IA. E, o que é fundamental, grande parte das poupanças sairia dos bolsos dos grandes laboratórios, enfrentando um golpe financeiro para a OpenAI e a Anthropic no momento em que se dirigem para os seus IPOs.

É uma mudança potencialmente sísmica na indústria, que assenta numa questão básica: estão as empresas preparadas para mudar para modelos mais pequenos?

Os testes iniciais sugerem que, quando o sistema é organizado corretamente, modelos mais baratos podem ser substituídos sem qualquer sacrifício de qualidade. Em um teste recente realizado pela ferramenta jurídica de IA Harvey, a empresa conseguiu reduzir os custos de inferência em 3x sem reduzir a qualidade. O teste, realizado em parceria com a plataforma de inferência Fireworks AI, combinou Claude Opus e GLM 5.1 do Fireworks, e mudou para o Opus para as tarefas mais intensivas. O resultado foi uma carga significativamente menor em termos de tempo de servidor e custo geral.

“A qualidade vem em primeiro lugar, e sempre estará no âmbito jurídico”, disse o cofundador da Harvey, Gabe Pereyra, ao TechCrunch, referindo-se aos serviços jurídicos de IA que sua startup oferece. “No entanto, a definição de qualidade está evoluindo do simples uso do modelo mais poderoso para tudo, para o uso do melhor modelo que obtém a resposta certa de forma mais eficiente.”

Esta tendência é muitas vezes enquadrada em termos de grandes laboratórios versus modelos chineses ou de peso aberto, mas isso ignora o ponto principal. A verdadeira divisão não está entre modelos proprietários e abertos; está entre modelos grandes e pequenos. Você pode economizar dinheiro mudando do GPT-5.5 para o Flash V4 do DeepSeek, mas mudar para o GPT-5.4-mini funciona da mesma forma.

Há uma guerra de preços ativa entre as inferências internas dos grandes laboratórios e os modelos de peso aberto fornecidos de forma independente. Para a questão mais ampla do pequeno versus o grande, realmente não importa que tipo de modelo pequeno vença.

Tudo isso pode parecer óbvio – é claro que você não deve usar mais computação do que o necessário – mas vai contra a abordagem de escalonamento que dominou o setor até agora. Inspirados pela amarga lição, os laboratórios se esforçaram bastante para treinar os modelos com maior uso intensivo de computação possível, ampliando a fronteira do que os modelos de IA podem fazer. Com os preços fortemente subsidiados pelos investidores, os clientes não tinham motivos para escolher outra coisa senão a opção mais avançada.

Com o aumento dos preços dos tokens e a desaceleração dos subsídios, os usuários enfrentam pela primeira vez pressão de custos. Não sabemos se a nova pressão de custos realmente levará os usuários corporativos a modelos menores. Eles poderiam facilmente economizar fazendo menos chamadas, usando menos contexto ou simplesmente desistindo das implantações menos promissoras.

Mas se se verificar que a maioria das implementações também pode ser executada num modelo mais pequeno, isso poderá prejudicar seriamente a crescente procura de inferência – e levantar novas questões sobre como justificar o custo de formação de um modelo de fronteira.

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Fuente