OpenAI lança prévia do agente Codex AI SWE para desenvolvedores

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA da indústria líder. Saiba mais

Surpresa! Apenas dias após relatos sugerirem que a OpenAI estava adquirindo a startup de codificação em alta, Windsurf, a primeira empresa parece estar lançando seu próprio serviço concorrente como uma prévia de pesquisa sob a marca Codex, enfrentando Windsurf, Cursor e a crescente lista de ferramentas de codificação AI oferecidas por startups e grandes empresas de tecnologia, incluindo Microsoft e Amazon.

Diferente do modelo anterior de IA de conclusão de código Codex da OpenAI, a nova versão é um agente de software de engenharia (SWE) totalmente baseado em nuvem, construído sobre uma versão ajustada do modelo de raciocínio o3 da OpenAI, que pode executar múltiplas tarefas de desenvolvimento em paralelo.

A partir de hoje, estará disponível para usuários do ChatGPT Pro, Enterprise e Team, com suporte para usuários Plus e Edu esperado em breve.

A evolução do Codex: de modelo a agente de codificação autônomo

Este lançamento marca um avanço significativo no desenvolvimento do Codex. O Codex original estreou em 2021 como um modelo para traduzir linguagem natural em código disponível através da API inicial da OpenAI.

Ele foi o motor por trás do GitHub Copilot, o popular assistente de codificação estilo autocomplete projetado para trabalhar dentro de IDEs como o Visual Studio Code.

Aquela iteração inicial focou na geração e conclusão de código, treinada em bilhões de linhas de código-fonte público.

No entanto, a versão inicial veio com limitações. Era propensa a erros sintáticos, sugestões de código inseguras e preconceitos embutidos em seus dados de treinamento. O Codex ocasionalmente propunha código superficialmente correto que falhava funcionalmente e, em alguns casos, fazia associações problemáticas baseadas em solicitações.

Apesar dessas falhas, mostrou potencial suficiente para estabelecer ferramentas de codificação AI como uma categoria de produto em rápido crescimento. Esse modelo original foi posteriormente descontinuado e transformado no nome de um novo conjunto de produtos, de acordo com um porta-voz da OpenAI.

O GitHub Copilot oficialmente se desvinculou do modelo Codex da OpenAI em março de 2023, adotando o GPT-4 como parte da sua atualização Copilot X para permitir melhor integração com IDEs, capacidades de chat e sugestões de código mais conscientes do contexto.

Visões agentivas

O novo Codex vai muito além de seu predecessor. Agora, construído para atuar de forma autônoma por períodos mais longos, o Codex pode escrever funcionalidades, corrigir bugs, responder a perguntas específicas de código, rodar testes e propor pull requests—cada tarefa sendo executada em um ambiente seguro e isolado na nuvem.

O design reflete a ambição mais ampla da OpenAI de ir além de respostas rápidas e entrar em um trabalho colaborativo.

Josh Tobin, que lidera a equipe de Pesquisa de Agentes na OpenAI, disse durante um briefing recente: “Pensamos em agentes como sistemas de IA que podem operar em seu nome por um período mais longo para realizar grandes pedaços de trabalho interagindo com o mundo real.” O Codex se encaixa claramente nessa definição. “Nossa visão é que o ChatGPT se torne quase como um colega virtual—não apenas respondendo a perguntas rápidas, mas colaborando em trabalho substancial em uma variedade de tarefas,” acrescentou.

Números divulgados pela OpenAI mostram que o novo agente Codex-1 SWE supera todos os últimos modelos de raciocínio da OpenAI em tarefas internas de SWE.

Novas capacidades, nova interface, novos fluxos de trabalho

Tarefas do Codex são iniciadas através de uma interface de painel lateral no ChatGPT, permitindo que os usuários solicitem ao agente tarefas ou perguntas.

O agente processa cada solicitação em um ambiente isolado carregado com o repositório do usuário e configurado para espelhar a configuração de desenvolvimento. Ele registra suas ações, cita saídas de testes e resume mudanças—tornando seu trabalho rastreável e revisável.

Alexander Embiricos, chefe da equipe de Desktop e Agentes da OpenAI (e ex-CEO e co-fundador da startup de colaboração screenshare Multi, que a OpenAI adquiriu por um valor não divulgado no ano passado) disse em um briefing com jornalistas que “o agente Codex é um agente de software de engenharia baseado em nuvem que pode trabalhar em muitas tarefas em paralelo, com seu próprio computador para operar de forma segura e independente.”

Internamente, ele disse que engenheiros já o usam “como uma lista de tarefas matinais—delegar tarefas ao Codex e retornar a um lote de soluções draft prontas para revisão ou fusão.”

O Codex também suporta configuração através de arquivos AGENTS.md—guias em nível de projeto que ensinam o agente a navegar em um código-fonte, executar testes específicos e seguir estilos de codificação da casa.

“Treinamos nosso modelo para ler código e inferir estilo—como usar ou não uma vírgula de Oxford—porque o estilo de código é tão importante quanto a correção,” disse Embiricos.

Segurança e uso prático

O Codex executa tarefas sem acesso à internet, baseando-se apenas em código e dependências fornecidas pelo usuário. Esse design garante uma operação segura e minimiza o potencial de uso indevido.

“Isso é mais do que apenas uma API de modelo,” disse Embiricos. “Porque opera em um ambiente isolado com revisão humana, podemos dar muito mais liberdade ao modelo com segurança.”

A OpenAI também relata casos de uso externos iniciais. A Cisco está avaliando o Codex para acelerar o trabalho de engenharia em suas linhas de produtos. A Temporal o usa para executar tarefas em segundo plano como depuração e escrita de testes. A Superhuman aproveita o Codex para melhorar a cobertura de testes e permitir que não engenheiros sugiram mudanças leves de código. A Kodiak, uma empresa de veículos autônomos, aplica-o para melhorar a confiabilidade do código e obter insights sobre componentes desconhecidos do stack.

A OpenAI também está lançando atualizações para o Codex CLI, seu agente terminal leve para desenvolvimento local. O CLI agora utiliza um modelo menor—codex-mini-latest—otimizado para edição de baixa latência e Q&A.

Os preços estão definidos em $1,50 por milhão de tokens de entrada e $6 por milhão de tokens de saída, com um desconto de 75% em cache. O Codex está atualmente gratuito durante o período de lançamento, com limites de taxa e opções de preços sob demanda planejadas.

Isso significa que a OpenAI NÃO está comprando a Windsurf? *Emoji de rosto pensativo*

O lançamento do Codex ocorre em meio a uma crescente concorrência no espaço de ferramentas de codificação AI—e sinaliza que a OpenAI está decidida a construir, ao invés de comprar, sua próxima fase de produtos.

De acordo com dados recentes da SimilarWeb, o tráfego para ferramentas de IA voltadas a desenvolvedores disparou 75% nas últimas 12 semanas, sublinhando a demanda crescente por assistentes de codificação como infraestrutura essencial, e não como complementos experimentais.

Relatórios do TechCrunch e Bloomberg sugerem que a OpenAI teve conversas de aquisição com startups de ferramentas de desenvolvimento de IA em rápido crescimento, como a Cursor e a Windsurf. A Cursor supostamente se retirou da mesa; a Windsurf teria concordado, em princípio, em ser adquirida pela OpenAI por um preço de $3 bilhões, embora nenhum acordo tenha sido oficialmente confirmado por ambas as partes.

Apenas ontem, de fato, a Windsurf estreou sua própria família de modelos de base focados em codificação, SWE-1, projetados especificamente para suportar todo o ciclo de vida da engenharia de software, desde depuração até manutenção de projetos de longa duração. Os modelos SWE-1 foram relatados como feitos sob medida, treinados inteiramente internamente usando um novo modelo de dados sequencial ajustado para fluxos de trabalho de desenvolvimento do mundo real.

Muitas coisas podem estar acontecendo nos bastidores entre as duas empresas, mas, para mim, o tempo do lançamento do modelo de fundação de codificação da Windsurf — em vez de sua estratégia até agora de usar variantes do Llama e dar aos usuários a opção de encaixar modelos da OpenAI e da Anthropic — seguido um dia depois pelo lançamento do seu próprio concorrente Windsurf, parece sugerir que as duas não estão se alinhando tão cedo.

Por outro lado, o fato de que este novo agente Codex AI SWE está em “prévia de pesquisa” para começar pode ser uma forma da OpenAI pressionar a Windsurf ou Cursor ou qualquer outra pessoa a se sentar à mesa de negociação e fechar um acordo. Perguntado sobre a possibilidade de uma aquisição da Windsurf e relatos a respeito, um porta-voz da OpenAI disse ao VentureBeat que não tinham nada a compartilhar sobre esse assunto.

De qualquer forma, Embiricos vê o Codex como muito mais do que uma mera ferramenta de código ou assistente.

“Estamos prestes a passar por uma mudança sísmica na forma como os desenvolvedores trabalham com agentes—não apenas interagindo com eles em tempo real, mas delegando totalmente tarefas,” disse ele. “Os primeiros experimentos eram apenas modelos de raciocínio com acesso ao terminal. A experiência era mágica—eles começaram a fazer coisas por nós.”

Construído para equipes de desenvolvedores, não apenas para desenvolvedores solitários

O Codex é projetado pensando em desenvolvedores profissionais, mas Embiricos observou que até gerentes de produto acharam útil para sugerir ou validar mudanças antes de envolver engenheiros de software humanos. Essa versatilidade reflete a estratégia da OpenAI de construir ferramentas que aumentem a produtividade em equipes técnicas.

Trini, um líder de engenharia do projeto, resumiu a ambição mais ampla por trás do Codex: “Esta é uma mudança transformadora na forma como os engenheiros de software interagem com IA e computadores em geral. Isso amplifica o potencial de cada pessoa.”

A OpenAI imagina o Codex como o centro de um novo fluxo de trabalho de desenvolvimento onde engenheiros atribuem tarefas de alto nível a agentes e colaboram com eles de forma assíncrona. A empresa está construindo em direção a integrações mais profundas entre GitHub, ChatGPT Desktop, rastreadores de problemas e sistemas de CI. O objetivo de longo prazo é misturar pareamento em tempo real e delegação de tarefas de longo prazo em uma experiência de desenvolvimento perfeita.

Como Josh Tobin colocou, “A codificação é a base de tantas coisas úteis através da economia. Acelerar a codificação é uma maneira particularmente eficaz de distribuir os benefícios da IA para a humanidade, incluindo nós mesmos.”

Se a OpenAI fechou ou não negócios com concorrentes, a mensagem é clara: o Codex está aqui, e a OpenAI está apostando em seus próprios agentes para liderar o próximo capítulo na produtividade dos desenvolvedores.