A conta do token está vencendo: dentro da luta da indústria para gerenciar os custos descontrolados da IA -

Em todo o setor, as empresas estão começando a recusar o preço da IA. O Uber estourou todo o seu orçamento de codificação de IA para 2026 em abril. A Microsoft revogou as licenças do Claude Code de seus desenvolvedores meses depois de ativá-las. A Priceline disse ao TechCrunch que uma renovação de contrato de rotina do Cursor voltou 4 a 5 vezes mais cara.

Embora os preços por token tenham caído, o impulso para uma maior adoção de IA e agentes cada vez mais autônomos aumentaram cada vez mais o consumo de tokens. As empresas que se empanturraram no início de 2025 com assinaturas à vontade estão agora a lutar para perceber para onde vai o seu dinheiro, reduzir os gastos e descobrir se conseguem recuperar algum ROI dos destroços dos seus orçamentos.

Enquanto isso, um mercado está se formando para atendê-los ali. Startups, fornecedores estabelecidos e um novo órgão de padronização estão todos correndo para fornecer às empresas as ferramentas e a linguagem para monitorar o que gastam.

“Seis meses atrás, eu conversava com um cliente e tudo girava em torno de ‘O que ele pode fazer? É bom o suficiente?'”, disse Alexander Embricos, chefe empresarial da OpenAI, ao TechCrunch em um evento na cidade de Nova York esta semana. “Nossas conversas nunca são sobre isso agora. Agora as conversas são sobre, ‘ei, estamos gastando tanto. Que visibilidade você tem? Que auditabilidade você tem? Quais controles de token você tem? Qual é a eficiência de seus modelos?'”

É neste contexto que a Linux Foundation revelou esta semana planos para a Tokenomics Foundation, um novo órgão de padrões que visa incutir a mesma disciplina de custos em torno dos tokens de IA que o FinOps fez para os gastos na nuvem.

“Em abril e maio, comecei a ouvir das empresas: ‘Meu Deus, ultrapassamos 3 vezes todo o nosso orçamento de tokens para 2026 e ainda é abril’”, disse JR Storment, diretor executivo da FinOps Foundation, um projeto da Linux Foundation, ao TechCrunch. “Começamos a ouvir crises existenciais, e toda a conversa mudou de tokenmaxxing e ‘vá rápido’ para ‘precisamos de grades de proteção, como podemos controlar isso?’”

Os gritos ouvidos em todo o mundo da tecnologia seguiram-se às exigências fervorosas dos CEO que pressionavam as suas equipas a utilizar os melhores modelos e a agir rapidamente, sem que os custos se danassem. Novos modelos lançados em novembro, como Claude Opus 4.5 da Anthropic, GPT-5.1 da OpenAI e Gemini 3 Pro do Google trouxeram melhorias significativas às ferramentas de agência, que multiplicaram o consumo. Foi assim que uma empresa supostamente se viu com uma conta de Claude de US$ 500 milhões depois de esquecer de estabelecer limites de uso para os funcionários.

“É como a epidemia de crack”, diz Chris Reed, diretor sênior de finanças de TI da Priceline, quando questionado sobre a questão do preço no uso da IA. “Eles deixaram você experimentar para ficar viciado, e agora você está meio que em dívida com isso.”

Vitaly Gordon, CEO da plataforma de operações de engenharia Faros AI, disse que conversou recentemente com um CTO que lhe disse: “Um dos meus engenheiros gastou US$ 40.000 em tokens no mês passado, e eu realmente não sei se devo impedi-lo ou devo dizer a todos para serem como ele”.

Uma pesquisa de março realizada por Faros descobriu que, entre 20 mil desenvolvedores, a produção estava aumentando, mas também os bugs e as reescritas. A Jellyfish, uma plataforma de gerenciamento de engenharia, também descobriu que os engenheiros que usavam mais tokens eram cerca de duas vezes mais produtivos do que aqueles que usavam menos IA, mas gastaram 10 vezes mais tokens para chegar lá.

Nicholas Arcolano, chefe de pesquisa da Jellyfish, disse ao TechCrunch por e-mail que os gastos com IA estão explodindo em grande parte devido aos recursos de agência, com o consumo por desenvolvedor aumentando cerca de 18,6x em nove meses. Em suma, estas estatísticas tornam o caso da produtividade mais obscuro do que os gastos sugerem.

“Se os gastos extremos compensam, depende do valor comercial final do código enviado (por exemplo, receita), que a maioria das empresas ainda não consegue medir”, disse Arcolano.

Pelo menos parte dessa questão de medição é a escala em que a IA está sendo usada hoje.

“Rastrear os custos da nuvem é um problema de dados que envolve centenas de milhões de linhas por mês”, disse Storment. “O rastreamento de custos de tokens é um problema de dados de trilhões de linhas por mês. Você não pode simplesmente inserir isso em qualquer planilha ou mesmo em uma ferramenta básica. Você precisa repensar fundamentalmente suas ferramentas, suas especificações e seus sistemas de contabilidade para fazer isso.”

Na Priceline, Reed já percebe discrepâncias. Ele observou problemas entre o uso relatado por um fornecedor e os dados internos da Priceline.

“Comecei minha carreira no gerenciamento de despesas de telecomunicações e estou vendo todos os mesmos paralelos, das telecomunicações à nuvem e à IA”, disse ele. “Sempre que você introduz algo novo, é propício para erros de faturamento e oportunidades de auditoria e otimização.”

Um mercado está começando a se formar em torno desse problema. Existem empresas puras, como a Pay-i, que rastreia, mede e otimiza os custos e o desempenho dos investimentos GenAI. Enquanto isso, o pago permite que os desenvolvedores rastreiem custos, avaliem o uso e faturem os usuários com base no valor real, em vez de taxas de assinatura.

Depois, há empresas como Jellyfish, Waydev e Faros AI, que fornecem monitoramento de agentes de IA para provar o ROI das ferramentas de desenvolvedor. Storment diz que a maioria dos 180 fornecedores da Fundação FinOps estão inclinados a esse espaço.

As empresas com distribuição existente também estão adicionando novos recursos para capitalizar neste novo mercado. A Ramp mudou recentemente para o gerenciamento de gastos com IA; Datadog e New Relic acrescentaram serviços como gerenciamento de custos em nuvem, observabilidade em nível de token e monitoramento de GPU. Na conferência FinOps X na próxima semana, espera-se que a AWS apresente novos recursos de gerenciamento financeiro voltados para gastos empresariais com IA.

Tiffany Luck, sócia da NEA, acredita que a eficiência e a observabilidade do token provavelmente serão adicionadas na “camada de aproveitamento ou aplicativo”. Ela apontou para a Factory, uma startup que fabrica agentes de IA para empresas, que lançou esta semana um modelo de roteador que escolhe automaticamente o modelo certo para cada tarefa.

Gordon espera que os laboratórios de fronteira e outros fornecedores de modelos adotem a otimização no estilo OpenRouter para direcionar as consultas para os modelos mais baratos – uma tendência que já está aparecendo nas contas corporativas de Claude.

“O relatório financeiro de quanto você gasta na Anthropic, mesmo se você chamar o modelo Opus, parte dos gastos será em Sonnet ou Haiku, porque eles são inteligentes o suficiente para fazer isso”, disse Gordan. “Acho que isso se tornará cada vez mais uma coisa.”

Mas todas essas ferramentas estão sendo construídas sem uma linguagem comum ou definições compartilhadas sobre quanto custa um token, o que ele produz e como comparar gastos entre fornecedores. É aí que a Fundação Tokenomics espera ser útil.

A Fundação está construindo uma definição canônica e uma estrutura para “tokenomics”; padrões abertos, especificações e métricas para uso e cobrança de tokens de IA; bem como novas métricas para a economia da IA, como custo por inteligência ou tokens por watt. Ela também planeja definir métricas entre a eficácia da fábrica de tokens e a eficiência do consumo. O grupo está planejando um lançamento formal em julho e prestes a anunciar mais membros na conferência FinOps X na próxima semana.

“A economia dos tokens é fundamentalmente mais abstrata e opaca do que qualquer coisa que gerenciamos nesta escala antes”, disse Nishant Gupta, diretor de disponibilidade da Salesforce, em comunicado. “Isso requer uma força operacional diferente daquela que a indústria construiu para a nuvem.”

Dito isto, a Goldman Sachs projeta que o uso global de tokens se multiplique em 24 vezes até 2030. As empresas que já ultrapassaram o orçamento precisam de soluções agora, e o primeiro resultado da fundação ainda está a meses de distância.

“Talvez tenhamos criado uma máquina a vapor, mas ainda não descobrimos a linha de montagem”, disse Gordon.

Segundo Arcolano, a jogada inteligente é a adoção ampla e moderada.

“O melhor ROI vem de mover o meio amplo de uso baixo para moderado, e não aumentar os usuários pesados”, disse ele.

Russell Brandom e Tim Fernholz contribuíram para este relatório.

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Fuente