A função de geração de imagens do ChatGPT recebe uma atualização

Durante uma transmissão ao vivo na terça-feira, o CEO da OpenAI, Sam Altman, anunciou a primeira grande atualização das capacidades de geração de imagens do ChatGPT em mais de um ano.

Agora, o ChatGPT pode aproveitar o modelo GPT-4o da empresa para criar e modificar imagens e fotos de forma nativa. O GPT-4o há muito sustenta a plataforma de chatbot alimentada por IA, mas, até agora, o modelo só era capaz de gerar e editar texto — não imagens.

Altman afirmou que a geração de imagens nativa do GPT-4o está disponível hoje no ChatGPT e Sora, o produto de geração de vídeo da OpenAI, para assinantes do plano Pro da empresa, que custa $200 por mês. A OpenAI diz que o recurso será disponibilizado em breve para usuários Plus e gratuitos do ChatGPT, bem como para desenvolvedores que utilizam o serviço de API da empresa.

O GPT-4o com saída de imagem “pensa” um pouco mais do que o modelo de geração de imagens que ele efetivamente substitui, o DALL-E 3, para criar o que a OpenAI descreve como imagens mais precisas e detalhadas. O GPT-4o pode editar imagens existentes, incluindo aquelas com pessoas, transformando-as ou “inpainting” detalhes como objetos em primeiro e segundo plano.

Para ativar o novo recurso de imagem, a OpenAI disse ao Wall Street Journal que treinou o GPT-4o em “dados disponíveis publicamente”, bem como em dados proprietários de suas parcerias com empresas como a Shutterstock.

Muitos fornecedores de IA generativa veem os dados de treinamento como uma vantagem competitiva, por isso os mantêm e todas as informações relacionadas a isso em segredo. No entanto, os detalhes sobre os dados de treinamento também são uma fonte potencial de processos relacionados à propriedade intelectual, outro desincentivo para as empresas revelarem muito.

“Estamos respeitando os direitos dos artistas em termos de como realizamos a saída e temos políticas em vigor que nos impedem de gerar imagens que imitem diretamente o trabalho de qualquer artista vivo”, disse Brad Lightcap, diretor de operações da OpenAI, em uma declaração ao Journal.

A OpenAI oferece um formulário de exclusão que permite aos criadores solicitar que suas obras sejam removidas de seus conjuntos de dados de treinamento. A empresa também afirma que respeita pedidos para impedir que seus bots de coleta da web capturem dados de treinamento, incluindo imagens, de sites.

O recurso aprimorado de geração de imagens do ChatGPT vem logo após a saída da Google de um recurso experimental de geração de imagens nativa para o Gemini 2.0 Flash, um dos principais modelos da empresa. O poderoso recurso se tornou viral nas redes sociais — mas não necessariamente pelos melhores motivos. O componente de imagem do Gemini 2.0 Flash revelou ter poucas barreiras, permitindo que as pessoas removam marcas d’água e criem imagens que retratam personagens com direitos autorais.

Este artigo foi atualizado às 12h PT para incluir a declaração da OpenAI ao Wall Street Journal sobre os dados de treinamento do GPT-4o.