Durante uma transmissão ao vivo na terça-feira, o CEO da OpenAI, Sam Altman, anunciou a primeira grande atualização das capacidades de geração de imagens do ChatGPT em mais de um ano.
Agora, o ChatGPT pode aproveitar o modelo GPT-4o da empresa para criar e modificar imagens e fotos de forma nativa. O GPT-4o há muito sustenta a plataforma de chatbot alimentada por IA, mas, até agora, o modelo só era capaz de gerar e editar texto — não imagens.
Altman afirmou que a geração de imagens nativa do GPT-4o está disponível hoje no ChatGPT e Sora, o produto de geração de vídeo da OpenAI, para assinantes do plano Pro da empresa, que custa $200 por mês. A OpenAI diz que o recurso será disponibilizado em breve para usuários Plus e gratuitos do ChatGPT, bem como para desenvolvedores que utilizam o serviço de API da empresa.
O GPT-4o com saída de imagem “pensa” um pouco mais do que o modelo de geração de imagens que ele efetivamente substitui, o DALL-E 3, para criar o que a OpenAI descreve como imagens mais precisas e detalhadas. O GPT-4o pode editar imagens existentes, incluindo aquelas com pessoas, transformando-as ou “inpainting” detalhes como objetos em primeiro e segundo plano.
Para ativar o novo recurso de imagem, a OpenAI disse ao Wall Street Journal que treinou o GPT-4o em “dados disponíveis publicamente”, bem como em dados proprietários de suas parcerias com empresas como a Shutterstock.
Muitos fornecedores de IA generativa veem os dados de treinamento como uma vantagem competitiva, por isso os mantêm e todas as informações relacionadas a isso em segredo. No entanto, os detalhes sobre os dados de treinamento também são uma fonte potencial de processos relacionados à propriedade intelectual, outro desincentivo para as empresas revelarem muito.
“Estamos respeitando os direitos dos artistas em termos de como realizamos a saída e temos políticas em vigor que nos impedem de gerar imagens que imitem diretamente o trabalho de qualquer artista vivo”, disse Brad Lightcap, diretor de operações da OpenAI, em uma declaração ao Journal.
A OpenAI oferece um formulário de exclusão que permite aos criadores solicitar que suas obras sejam removidas de seus conjuntos de dados de treinamento. A empresa também afirma que respeita pedidos para impedir que seus bots de coleta da web capturem dados de treinamento, incluindo imagens, de sites.
O recurso aprimorado de geração de imagens do ChatGPT vem logo após a saída da Google de um recurso experimental de geração de imagens nativa para o Gemini 2.0 Flash, um dos principais modelos da empresa. O poderoso recurso se tornou viral nas redes sociais — mas não necessariamente pelos melhores motivos. O componente de imagem do Gemini 2.0 Flash revelou ter poucas barreiras, permitindo que as pessoas removam marcas d’água e criem imagens que retratam personagens com direitos autorais.
Este artigo foi atualizado às 12h PT para incluir a declaração da OpenAI ao Wall Street Journal sobre os dados de treinamento do GPT-4o.
Conteúdo relacionado
Experiência Prática com o Gemini 2.5 Pro: Por que pode ser o modelo de raciocínio mais útil até agora
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA líder do setor. Saiba mais…
Elon Musk diz que a xAI adquiriu a X.
[the_ad id="145565"] A startup de IA de Elon Musk, xAI, adquiriu sua plataforma de mídia social X, anteriormente conhecida como Twitter, em um acordo de ações, ele anunciou em…
Cientistas da Anthropic revelam como a IA realmente ‘pensa’ — e descobrem que ela planeja em segredo e às vezes mente.
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais…