Bolt42

O ChatGPT da OpenAI está começando a interagir com outros aplicativos no seu computador.

Na quinta-feira, a startup anunciou que o aplicativo ChatGPT para MacOS agora pode ler código em uma seleção de aplicativos de codificação voltados para desenvolvedores, como VS Code, Xcode, TextEdit, Terminal e iTerm2.

Isso significa que os desenvolvedores não precisarão mais copiar e colar seu código no ChatGPT, um método comum de interação com o chatbot. Agora, quando a funcionalidade estiver habilitada, a OpenAI enviará automaticamente a seção de código em que você está trabalhando pelo seu chatbot como contexto, juntamente com seu prompt.

No entanto, diferentemente de ferramentas populares de codificação por IA, como Cursor ou GitHub Copilot, o ChatGPT atualmente não consegue escrever código diretamente em aplicativos de desenvolvimento em seu nome.

A funcionalidade, chamada Trabalhar com Aplicativos, está longe de ser um agente de IA, mas a OpenAI afirma que fazer o ChatGPT entender outros aplicativos é um “bloco de construção crucial” para criar sistemas autônomos. Um dos maiores desafios enfrentados pelos agentes de IA hoje é conseguir que eles compreendam o restante da tela do seu computador, em vez de apenas prompts ou suas próprias respostas.

A OpenAI afirma que está focando essa funcionalidade em aplicativos de codificação inicialmente; isso provavelmente se deve ao fato de que assistentes de codificação por IA se tornaram um dos casos de uso mais populares para LLMs. A funcionalidade está disponível para usuários Plus e Teams hoje, e será disponibilizada para Enterprise e Edu nas próximas semanas. A OpenAI informa que o ChatGPT poderá trabalhar com outros tipos de aplicativos no futuro, especificamente com aplicativos baseados em texto que podem ser utilizados para tarefas de escrita.

Agora você pode selecionar alguns aplicativos de codificação para o ChatGPT trabalhar (Imagem: OpenAI)

Em uma demonstração com o TechCrunch, um funcionário da OpenAI abriu o aplicativo ChatGPT e um ambiente Xcode contendo um projeto simples que modelava o sistema solar – embora estivesse faltando a Terra. O funcionário selecionou uma guia do Xcode dentro do ChatGPT, o que informa o chatbot de IA para observar o aplicativo, e solicitou ao chatbot para “adicionar os planetas que estavam faltando.” O chatbot foi capaz de concluir a tarefa, escrevendo uma linha de código para representar a Terra que se encaixava no formato do restante do projeto. No entanto, eles ainda precisaram colar a resposta do ChatGPT de volta em seu ambiente.

Para ler diferentes aplicativos, a OpenAI está contando principalmente com a API de Acessibilidade do MacOS para ler o texto e traduzi-lo para o ChatGPT, de acordo com o líder do produto desktop da OpenAI, Alexander Embiricos. O leitor de tela do MacOS, que ajuda a funcionar com o recurso VoiceOver da Apple, existe há quase duas décadas. Geralmente é considerado bastante confiável para a maioria dos aplicativos comuns, mas não para todos.

Para alguns aplicativos, como o VS Code da Microsoft, Trabalhar com Aplicativos exige que os usuários instalem uma extensão especial para consultar o conteúdo. E, como o nome sugere, o leitor de tela da Apple pode apenas ler texto, portanto, não pode ajudar o ChatGPT a entender elementos visuais – como fotos, a orientação de objetos ou vídeos.

O Trabalhar com Aplicativos enviará suas últimas 200 linhas de código pelo ChatGPT juntamente com cada prompt para determinados aplicativos. Para outros, todo o código na sua janela principal será usado como entrada para o chatbot. Você pode destacar seções de código ou texto para ajudar o ChatGPT a se concentrar na parte certa do projeto, mas o ChatGPT também incluirá o texto ao redor. Tudo isso parece que usará muitos tokens de entrada.

ChatGPT trabalhando com Xcode (Imagem: OpenAI)

Não está claro como a OpenAI planeja expandir essa funcionalidade para outros aplicativos que não são compatíveis com o leitor de tela da Apple. A Anthropic, uma das concorrentes da OpenAI, lançou um sistema de IA que analisa capturas de tela da área de trabalho do usuário para entender e usar outros aplicativos. Para ser franco, a abordagem da Anthropic deixa muito a desejar em seu estado atual: é lenta e comete muitos erros. No entanto, é uma versão mais geral de um agente de IA que não depende de APIs e pode fazer mais do que apenas ler texto em outra janela.

“Isso não é meant to ser um agente, é uma forma de colaborar com ferramentas de codificação por enquanto, e mais ferramentas estarão disponíveis em breve”, disse Embiricos em um briefing com o TechCrunch. “Do lado dos agentes, eu acho que isso é um bloco de construção realmente importante. Esta ideia de que o ChatGPT entende ou pode trabalhar com todo o conteúdo que você possui para poder ajudar com isso.”

Esse avanço em direção a agentes é especialmente notável, dado os recentes relatos de que a OpenAI está próxima do lançamento de um agente de IA de propósito geral, codinome “Operator”, de acordo com Bloomberg. O ferramenta deve ser lançada no início de 2025, e rivalizaria com outras tentativas iniciais de agentes de IA de propósito geral, como o uso de computador da Anthropic ou o agente “Jarvis” da Google.

A OpenAI está lançando essas funcionalidades primeiro no MacOS, pouco antes de a Apple lançar uma integração com o ChatGPT em dezembro. Não está claro quando o Trabalhar com Aplicativos será disponibilizado para o Windows, o sistema operacional criado pelo maior apoiador da OpenAI, a Microsoft.


    8 + 8 =

    Bolt42