O Codex da OpenAI faz parte de uma nova geração de ferramentas de codificação autônomas.

Na última sexta-feira, a OpenAI apresentou um novo sistema de programação chamado Codex, projetado para realizar tarefas de programação complexas a partir de comandos em linguagem natural. O Codex coloca a OpenAI em uma nova categoria de ferramentas de codificação agentivas que está apenas começando a se formar.

Desde o Copilot da GitHub até ferramentas contemporâneas como Cursor e Windsurf, a maioria dos assistentes de codificação baseados em IA opera como uma forma excepcionalmente inteligente de autocomplete. Essas ferramentas geralmente residem em um ambiente de desenvolvimento integrado, e os usuários interagem diretamente com o código gerado pela IA. A perspectiva de simplesmente atribuir uma tarefa e retornar quando estiver concluída está, em grande parte, fora de alcance.

Mas essas novas ferramentas de codificação agentivas, lideradas por produtos como Devin, SWE-Agent, OpenHands e o mencionado OpenAI Codex, são projetadas para funcionar sem que os usuários precisem ver o código. O objetivo é operar como o gerente de uma equipe de engenharia, atribuindo problemas por meio de sistemas de trabalho como Asana ou Slack e verificando quando uma solução foi alcançada.

Para os crentes em formas de IA altamente capazes, é o próximo passo lógico em uma progressão natural de automação que está assumindo cada vez mais trabalho de software.

“No início, as pessoas escreviam código pressionando cada tecla,” explica Kilian Lieret, um pesquisador de Princeton e membro da equipe do SWE-Agent. “O GitHub Copilot foi o primeiro produto que ofereceu um verdadeiro auto-complete, que é meio que o estágio dois. Você ainda está absolutamente por dentro, mas às vezes pode tomar um atalho.”

O objetivo dos sistemas agentivos é ir além dos ambientes de desenvolvedores, apresentando aos agentes de codificação um problema e deixando-os resolvê-lo autonomamente. “Nós trazemos as coisas de volta para a camada de gerenciamento, onde eu apenas atribuo um relatório de bug e o bot tenta corrigir totalmente de forma autônoma,” diz Lieret.

É uma meta ambiciosa, e até agora, tem se mostrado difícil.

Depois que o Devin se tornou disponível ao público no final de 2024, recebeu críticas severas de comentaristas do YouTube, assim como uma crítica mais moderada de um cliente inicial da Answer.AI. A impressão geral era a familiar para os veteranos da vibe-coding: com tantos erros, supervisionar os modelos exige tanto trabalho quanto fazer a tarefa manualmente. (Embora o lançamento do Devin tenha sido um pouco conturbado, isso não impediu que os investidores reconhecessem o potencial – em março, a empresa-mãe do Devin, Cognition AI, supostamente levantou centenas de milhões de dólares em uma avaliação de 4 bilhões de dólares.)

Até mesmo os apoiadores da tecnologia alertam contra a codificação vibe-autônoma, vendo os novos agentes de codificação como elementos poderosos em um processo de desenvolvimento supervisionado por humanos.

“Neste momento, e diria que, para o futuro previsível, um humano tem que intervir na hora da revisão do código para olhar o código que foi escrito,” diz Robert Brennan, CEO da All Hands AI, que mantém o OpenHands. “Eu vi várias pessoas se enredarem em um problema ao simplesmente aprovar automaticamente cada trecho de código que o agente escreve. Isso sai do controle rapidamente.”

As alucinações também são um problema contínuo. Brennan lembra de um incidente em que, quando questionado sobre uma API que foi lançada após o corte de dados de treinamento do agente OpenHands, o agente fabricou detalhes de uma API que se encaixavam na descrição. A All Hands AI afirma que está trabalhando em sistemas para detectar essas alucinações antes que possam causar danos, mas não há uma solução simples.

Arguivelmente, a melhor medida do progresso da programação agentiva são os rankings do SWE-Bench, onde os desenvolvedores podem testar seus modelos contra um conjunto de problemas não resolvidos de repositórios públicos do GitHub. O OpenHands atualmente ocupa o primeiro lugar na tabela verificada, resolvendo 65,8% do conjunto de problemas. A OpenAI afirma que um dos modelos que alimenta o Codex, o codex-1, pode fazer melhor, listando uma pontuação de 72,1% em seu anúncio – embora a pontuação tenha vindo acompanhada de algumas ressalvas e não tenha sido verificada de forma independente.

A preocupação entre muitos na indústria de tecnologia é que altas pontuações de referência não se traduzem necessariamente em codificação agentiva realmente sem supervisão. Se os codificadores agentivos só conseguem resolver três de cada quatro problemas, eles precisarão de supervisão significativa de desenvolvedores humanos – particularmente ao lidar com sistemas complexos com múltiplas etapas.

Como a maioria das ferramentas de IA, a esperança é que melhorias nos modelos fundamentais cheguem a um ritmo constante, eventualmente permitindo que os sistemas de codificação agentiva se tornem ferramentas confiáveis para desenvolvedores. Mas encontrar maneiras de gerenciar alucinações e outros problemas de confiabilidade será crucial para chegar lá.

“Acho que há um efeito de barreira sonora,” diz Brennan. “A questão é, quanta confiança você pode transferir para os agentes, para que eles retirem mais do seu trabalho no final do dia?”