Os agentes de IA estão prontos para o local de trabalho? Um novo benchmark levanta dúvidas.

janeiro 22, 2026

Já se passaram quase dois anos desde que o CEO da Microsoft, Satya Nadella, previu que a IA substituiria o trabalho do conhecimento – os empregos de colarinho branco ocupados por advogados, banqueiros de investimento, bibliotecários, contadores, TI e outros.

Mas, apesar do enorme progresso alcançado pelos modelos de base, a mudança no trabalho do conhecimento tem demorado a chegar. Os modelos dominaram a investigação aprofundada e o planeamento de agentes, mas, por alguma razão, a maior parte do trabalho de colarinho branco não foi relativamente afectada.

É um dos maiores mistérios da IA – e graças a novas pesquisas da gigante de dados de treinamento Mercor, finalmente estamos obtendo algumas respostas.

A nova pesquisa analisa como os principais modelos de IA se comportam na execução de tarefas reais de trabalho de colarinho branco, extraídas de consultoria, banco de investimento e direito. O resultado é um novo benchmark chamado Apex-Agents – e até agora, todos os laboratórios de IA estão recebendo nota baixa. Diante de dúvidas de profissionais reais, mesmo os melhores modelos tiveram dificuldade para acertar mais de um quarto das questões. Na grande maioria das vezes, o modelo voltava com uma resposta errada ou sem resposta alguma.

De acordo com o pesquisador Brendan Foody, que trabalhou no artigo, o maior obstáculo dos modelos foi rastrear informações em vários domínios – algo que é parte integrante da maior parte do trabalho de conhecimento realizado por humanos.

“Uma das grandes mudanças neste benchmark é que construímos todo o ambiente, modelado a partir de serviços profissionais reais”, disse Foody ao Techcrunch. “A maneira como fazemos nosso trabalho não é com um indivíduo nos fornecendo todo o contexto em um só lugar. Na vida real, você opera no Slack, no Google Drive e em todas essas outras ferramentas.” Para muitos modelos de IA de agência, esse tipo de raciocínio multidomínio ainda é um sucesso ou um fracasso.

Captura de tela

Os cenários foram todos elaborados por profissionais reais do mercado especializado da Mercor, que formularam as dúvidas e estabeleceram o padrão para uma resposta bem-sucedida. Analisar as perguntas, postadas publicamente no Hugging Face, dá uma ideia de quão complexas as tarefas podem se tornar.

Evento Techcrunch

São Francisco
|
13 a 15 de outubro de 2026

Uma pergunta na seção “Lei” diz:

Durante os primeiros 48 minutos da interrupção da produção na UE, a equipe de engenharia da Northstar exportou um ou dois conjuntos de logs de eventos de produção da UE contendo dados pessoais para o fornecedor de análise dos EUA…. De acordo com as próprias políticas da Northstar, ela pode razoavelmente tratar uma ou duas exportações de log como consistentes com o Artigo 49?

A resposta correta é sim, mas chegar lá requer uma avaliação aprofundada das políticas da própria empresa, bem como das leis de privacidade relevantes da UE.

Isso pode confundir até mesmo um ser humano bem informado, mas os pesquisadores estavam tentando modelar o trabalho realizado por profissionais da área. Se um LLM puder responder de forma confiável a essas perguntas, poderá efetivamente substituir muitos dos advogados que trabalham hoje. “Acho que este é provavelmente o tópico mais importante da economia”, disse Foody ao TechCrunch. “A referência reflete muito o trabalho real que essas pessoas realizam.”

A OpenAI também tentou medir as habilidades profissionais com seu benchmark GDPVal – mas o teste Apex Agents difere em aspectos importantes. Enquanto o GDPVal testa o conhecimento geral em uma ampla gama de profissões, o benchmark Apex Agents mede a capacidade do sistema de executar tarefas sustentadas em um conjunto restrito de profissões de alto valor. O resultado é mais difícil para os modelos, mas também está mais intimamente ligado à questão de saber se esses trabalhos podem ser automatizados.

Embora nenhum dos modelos tenha se mostrado pronto para assumir o papel de banqueiros de investimento, alguns estavam claramente mais próximos do alvo. Gemini 3 Flash teve o melhor desempenho do grupo com 24% de precisão one-shot, seguido de perto pelo GPT-5.2 com 23%. Abaixo disso, Opus 4.5, Gemini 3 Pro e GPT-5 pontuaram cerca de 18%.

Embora os resultados iniciais sejam insuficientes, o campo da IA tem um histórico de superar benchmarks desafiadores. Agora que o teste Apex é público, é um desafio aberto para os laboratórios de IA que acreditam que podem fazer melhor – algo que Foody espera plenamente nos próximos meses.

“Está melhorando muito rapidamente”, disse ele ao TechCrunch. “Neste momento, é justo dizer que é como um estagiário que acerta um quarto das vezes, mas no ano passado foi o estagiário que acertou cinco ou dez por cento das vezes. Esse tipo de melhoria ano após ano pode ter um impacto muito rapidamente.”

)

Fuente

RELATED ARTICLESMORE FROM AUTHOR

‘Frankenstein’ da Netflix ganha três Oscars, ‘KPop Demon Hunters’ ganha dois

Google, aceleradora Accel India escolhe 5 startups e nenhuma é ‘invólucro de IA’

Categorias

RELATED ARTICLES MORE FROM AUTHOR