Início Tecnologia O Codex do OpenAI faz parte de uma nova coorte de ferramentas...

O Codex do OpenAI faz parte de uma nova coorte de ferramentas de codificação de agentes

23
0
Two people at laptops, coding

Na sexta -feira passada, o OpenAI introduziu um novo sistema de codificação chamado Codex, projetado para executar tarefas complexas de programação a partir de atribuições de linguagem natural. O Codex se move o OpenAI para uma nova coorte de ferramentas de codificação Agentic que estão apenas começando a obter.

Do copiloto inicial do Github às ferramentas contemporâneas, como cursor e windsurf, a maioria dos assistentes de codificação de IA trabalha como uma forma excepcionalmente inteligente de preenchimento automático. As ferramentas geralmente vivem em um ambiente de desenvolvimento integrado e os usuários se comunicam diretamente com o código gerado pela IA. A perspectiva de atribuir facilmente uma tarefa e retornar quando for concluída está em grande parte fora de alcance.

Mas essas novas ferramentas de codificação Agentic, lideradas por produtos como Devin, SWE Agent, OpenHands e o Codex OpenAI acima mencionado, foram projetados para funcionar sem que os usuários tenham que ver o código. O objetivo é trabalhar como gerente de uma equipe de engenharia, alocar problemas por meio de sistemas de trabalho como asana ou folga e fazer o check -in quando uma solução for alcançada.

Para os crentes nas formas de IA muito capaz, é a próxima etapa lógica em uma progressão natural da automação que está assumindo cada vez mais trabalho de software.

“No começo, as pessoas acabaram de escrever código pressionando cada ataque de teste”, explica Kilian Lieret, pesquisadora de Princeton e membro da equipe do SWE-Agent. “O Github Copilot foi o primeiro produto que realmente ofereceu um complemento automático, o que é uma espécie de fase dois. Você ainda está absolutamente no circuito, mas às vezes pode levar um atalho”.

O objetivo dos sistemas de agentes é ir além do que os ambientes de desenvolvedor, em vez disso, apresentar agentes de codificação com um problema e resolvê -los eles mesmos. “Retiramos as coisas para a camada de gerenciamento, onde acabei de atribuir um relatório de bug e o osso tenta resolvê -lo completamente autonomamente”, diz Lieret.

É um objetivo ambicioso e, até agora, provou ser difícil.

Depois que Devin estava geralmente disponível no final de 2024, as críticas destrutivas aos especialistas do YouTube, bem como uma crítica mais medida de um cliente inicial em resposta. A impressão geral era um bem conhecido para veteranos atmosféricos: com tantos erros, a supervisão dos modelos leva a mesma quantidade de trabalho que executando a tarefa manualmente. (Embora o lançamento de Devin tenha sido um pouco rochoso, ele não impediu que a captação de recursos reconhecesse o potencial – em março, a empresa controladora de Devin, a Cognition AI, teria coletado centenas de milhões de dólares a uma classificação de US $ 4 bilhões.)

Até os proponentes da tecnologia alertam contra a não supervisão que a atmosfera codifica e vê os novos agentes de codificação como elementos poderosos em um processo de desenvolvimento de seres humanos.

“No momento, e eu diria que, para o futuro próximo, uma pessoa no tempo de avaliação do código deve intervir para analisar o código escrito”, diz Robert Brennan, CEO da todas as mãos Ai, que mantém os Openhands. “Vi várias pessoas trabalhando em uma bagunça simplesmente aprovando automaticamente todos os códigos que o agente escreve. Ele fica fora de controle rapidamente”.

As alucinações também são um problema constante. Brennan se lembra de um incidente no qual, quando foi solicitado uma API que foi divulgada após o fechamento dos dados do treinamento do agente do OpenHands, o agente fabricou detalhes de uma API que se adequava à descrição. Todas as mãos ai dizem que funciona em sistemas para capturar essas alucinações antes que possam causar danos, mas não há solução simples.

Sem dúvida, a melhor medida para o progresso da programação de agentes são as tabelas de classificação do SWE-banco, onde os desenvolvedores podem testar seus modelos em uma série de problemas não resolvidos de repositórios abertos do GitHub. Atualmente, o OpenHands contém a posição superior na classificação verificada e resolve 65,8% do conjunto de problemas. O OpenAI afirma que um dos modelos que o Codex, Codex-1 pode fazer melhor, uma pontuação de 72,1% em seu anúncio contém a pontuação com algumas reservas e não foi verificada.

O cuidado entre muitos no setor técnico é que as pontuações de alta benchmark não se traduzem necessariamente em codificação de agentes reais. Se os codificadores do agente só puderem resolver três dos quatro problemas, eles exigirão uma supervisão considerável de desenvolvedores humanos – especialmente ao combater sistemas complexos com várias fases.

Como a maioria das ferramentas de IA, a esperança de que as melhorias nos modelos de fundação ocorram em um ritmo constante, para que os sistemas de codificação agênticos possam se transformar em ferramentas de desenvolvedor confiáveis. Mas encontrar maneiras de gerenciar alucinações e outros problemas de confiabilidade são cruciais para chegar lá.

“Acho que há um efeito de barreira sonora”, diz Brennan. “A questão é: quanta confiança você pode mudar para os agentes, para que eles tirem mais da sua carga de trabalho no final do dia?”

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here