Início Tecnologia Um novo desafio de codificação de IA acaba de publicar seus primeiros...

Um novo desafio de codificação de IA acaba de publicar seus primeiros resultados – e eles não são bonitos

34
0
Segurança de boi

Um novo desafio de codificação de IA apresentou seu primeiro vencedor e um novo bar para engenheiros de software orientados a IA.

Na quarta-feira, às 17h, o PST, o Instituto Laude sem fins lucrativos anunciou o primeiro vencedor do K Prêmio, um desafio de codificação de AI de várias rodadas que foi lançado pelo Data Tabricks e pelo co-fundador Andy Konwinski. O vencedor foi um engenheiro rápido brasileiro chamado Eduardo Rocha de Andrade, que recebe US $ 50.000 pelo prêmio. Mas mais surpreendente do que a vitória foi sua pontuação final: ele venceu com as respostas corretas para apenas 7,5% das perguntas no teste.

“Estamos felizes por termos construído uma referência que é realmente difícil”, disse Konwinski. “Os benchmarks devem ser difíceis se importantes”, continuou ele e acrescentou: “As pontuações seriam diferentes se os grandes laboratórios tivessem entrado em seus maiores modelos. Mas esse é um pouco o ponto. K Preço fica offline com cálculo limitado, por isso é a favor de modelos menores e abertos. Acho que é grande.

Konwinski prometeu US $ 1 milhão para o primeiro modelo de código aberto que pode marcar mais de 90% no teste.

Assim como o conhecido sistema SWE-Bank, o K-PRIJ modela contra o teste acentuado do GitHub Problems como um teste de como os modelos podem lidar com problemas de programação do mundo real. Mas, embora o SWE-Banch seja baseado em uma série fixa de problemas com os quais os modelos podem treinar, o preço K é projetado como uma “versão livre de poluição do SWE-banco”, usando um sistema instapal cronometrado para monitorar qualquer treinamento específico de referência. Para a primeira rodada, os modelos foram antes de 12 de março. Os organizadores do preço K construíram o teste com apenas problemas de github que foram marcados após essa data.

A pontuação máxima de 7,5% está em um contraste claro com o próprio SWE-banch, que atualmente está mostrando uma pontuação superior de 75% em seu teste ‘verificado’ mais fácil e 34% em seu teste mais difícil. Konwinski ainda não sabe ao certo se a desigualdade se deve à contaminação no banco do SWE ou apenas o desafio de reunir novos problemas no Github, mas ele espera que o projeto K-Prize responda a pergunta em breve.

“À medida que obtemos mais corridas, nos sentiremos melhor”, disse ele ao TechCrunch, “porque esperamos que as pessoas se adaptem à dinâmica que competam nisso a cada poucos meses”.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

Pode parecer um lugar estranho para ficar aquém, dada a ampla gama de ferramentas de codificação de IA que já estão disponíveis ao público -mas com benchmarks que estão se tornando fáceis demais, muitos críticos como o preço K são uma etapa necessária na direção do crescente problema de avaliação da IA.

“Sou muito otimista ao criar novos testes para os benchmarks existentes”, diz o pesquisador de Princeton Sayash Kapoor, que apresentou uma idéia semelhante em um artigo recente. “Sem tais experimentos, não podemos realmente dizer se o problema é infecção, ou mesmo focado apenas no swe-banch-liaderboard com uma pessoa no loop”.

Para Konwinski, não é apenas uma referência melhor, mas um desafio aberto para o resto da indústria. “Se você ouvir o hype, é como se devêssemos ver médicos de IA e advogados de IA e software de IA, e isso simplesmente não é verdade”, diz ele. “Se não conseguimos nem obter mais de 10% em um swe-bank sem contaminação, essa é a verificação da realidade para mim”.

Fuente