Modelos de IA ainda têm dificuldades para depurar software, mostra estudo da Microsoft.

Modelos de IA da OpenAI, Anthropic e outros principais laboratórios de IA estão sendo cada vez mais utilizados para auxiliar em tarefas de programação. O CEO do Google, Sundar Pichai disse em outubro que 25% do novo código da empresa é gerado por IA, e o CEO do Meta, Mark Zuckerberg expressou ambições de implantar modelos de codificação de IA amplamente dentro da gigante das redes sociais.

No entanto, até mesmo alguns dos melhores modelos de hoje enfrentam dificuldades em resolver bugs de software que não causariam problemas a desenvolvedores experientes.

Um novo estudo da Microsoft Research, a divisão de P&D da Microsoft, revela que modelos, incluindo o Claude 3.7 Sonnet da Anthropic e o o3-mini da OpenAI, falharam em depurar muitas questões em um benchmark de desenvolvimento de software chamado SWE-bench Lite. Os resultados são um lembrete preocupante de que, apesar de afirmações ousadas declaradas por empresas como a OpenAI, a IA ainda não é páreo para especialistas humanos em domínios como a programação.

Os co-autores do estudo testaram nove modelos diferentes como a base para um “agente baseado em um único prompt” que tinha acesso a várias ferramentas de depuração, incluindo um depurador Python. Eles desafiaram esse agente a resolver um conjunto selecionado de 300 tarefas de depuração de software do SWE-bench Lite.

De acordo com os co-autores, mesmo quando equipados com modelos mais fortes e recentes, seu agente raramente completou mais da metade das tarefas de depuração com sucesso. O Claude 3.7 Sonnet teve a maior taxa média de sucesso (48,4%), seguido pelo o1 da OpenAI (30,2%) e o o3-mini (22,1%).

Benchmark de depuração da IA da Microsoft — Um gráfico do estudo. O “aumento relativo” refere-se ao impulso que os modelos receberam por serem equipados com ferramentas de depuração.Créditos da Imagem:Microsoft

Por que o desempenho decepcionante? Alguns modelos tiveram dificuldade em usar as ferramentas de depuração disponíveis e em entender como diferentes ferramentas poderiam ajudar com diferentes problemas. O problema maior, no entanto, foi a escassez de dados, de acordo com os co-autores. Eles especulam que não há dados suficientes representando “processos de tomada de decisão sequenciais” — ou seja, rastros de depuração humano — nos dados de treinamento dos modelos atuais.

“Acreditamos firmemente que treinar ou aprimorar [modelos] pode torná-los melhores depuradores interativos,” escreveram os co-autores em seu estudo. “No entanto, isso exigirá dados especializados para atender a esse treinamento de modelo, por exemplo, dados de trajetória que registram agentes interagindo com um depurador para coletar as informações necessárias antes de sugerir uma correção de bug.”

As descobertas não são exatamente surpreendentes. Muitos estudos já mostraram que a IA geradora de código tende a introduzir vulnerabilidades de segurança e erros, devido a fraquezas em áreas como a capacidade de entender a lógica da programação. Uma avaliação recente do Devin, uma ferramenta de codificação de IA popular, descobriu que ela só conseguiu completar três de 20 testes de programação.

Mas o trabalho da Microsoft é uma das análises mais detalhadas até agora sobre uma área problemática persistente para os modelos. Isso provavelmente não diminuirá o entusiasmo dos investidores por ferramentas de codificação assistidas por IA, mas, com sorte, fará os desenvolvedores — e seus superiores — pensarem duas vezes antes de deixar a IA assumir o controle da programação.

Para o que vale, um número crescente de líderes de tecnologia contestou a noção de que a IA eliminará empregos de programação. O cofundador da Microsoft, Bill Gates disse que acredita que a programação como profissão está longe de acabar. O mesmo afirmaram o CEO da Replit, Amjad Masad, o CEO da Okta, Todd McKinnon, e o CEO da IBM, Arvind Krishna.