"Impressionante": OpenAI apresenta geração de imagens nativa do GPT-4o e já está surpreendendo usuários.

Inscreva-se em nossos boletins diários e semanais para atualizações mais recentes e conteúdos exclusivos sobre a cobertura de IA líder da indústria. Saiba mais

Estamos nos aproximando do primeiro aniversário desde que a OpenAI lançou seu primeiro modelo “omni” ou multimodal, o GPT-4o, em maio de 2024, mas esse clássico ainda tem algumas cartas na manga.

Por exemplo, hoje a OpenAI finalmente habilitou as capacidades nativas de geração de imagens multimodais do GPT-4o para os usuários de seu popular chatbot ChatGPT nos níveis Plus, Pro, Team e Free, embora a empresa tenha dito que isso também estará disponível em breve para Enterprise, Edu e através de sua interface de programação de aplicativos (API).

Diferente do modelo anterior de IA generativa de imagens disponível no ChatGPT — o DALL-E 3 da OpenAI, um modelo de difusão clássica que foi treinado para reconstruir imagens a partir de prompts de texto removendo ruídos dos pixels — este novo gerador de imagens faz parte do mesmo modelo que gera texto e código, já que a OpenAI treinou todo o modelo para entender todas essas formas de mídia simultaneamente.

O presidente da OpenAI, Greg Brockman, havia previsto há muito tempo essa capacidade nativa do GPT-4o, em maio de 2024, mas por razões que ainda permanecem desconhecidas publicamente, a empresa reteve essa funcionalidade até agora — após o lançamento público de um recurso semelhante visto por muitos usuários avançados de IA no Google AI Studio com seu modelo experimental Gemini 2 Flash.

Isso resultou em um gerador de imagens de qualidade muito superior, que produz imagens muito mais realistas e texto incorporado com precisão, já impressionando os usuários — um deles descreveu a qualidade como “insana.”

Por outro lado (trocadilho intencional), a OpenAI ainda não informou precisamente com quais dados as capacidades de geração de imagens do GPT-4o foram treinadas — e dado o histórico da empresa e de outros provedores de modelos, é provável que inclua muitas obras de arte extraídas da web, algumas das quais presumivelmente são protegidas por direitos autorais, o que pode irritar os artistas responsáveis por elas.

Trazendo Geração de Imagens para ChatGPT e Sora

A OpenAI sempre buscou tornar a geração de imagens uma capacidade central de seus modelos de IA. Com o GPT-4o, os usuários agora podem gerar imagens diretamente no ChatGPT, refinando-as através da conversa e ajustando detalhes em tempo real.

O modelo também se integra ao Sora, a plataforma de geração de vídeo da OpenAI, expandindo ainda mais as capacidades multimodais.

Em um anúncio no X, a OpenAI confirmou que a geração de imagens do GPT-4o foi projetada para:

Renderizar texto com precisão dentro das imagens, permitindo a criação de placas, menus, convites e infográficos.
Seguir prompts complexos com precisão, mantendo alta fidelidade mesmo em composições detalhadas.
Construir sobre imagens e textos anteriores, garantindo consistência visual em múltiplas interações.
Suportar diversos estilos artísticos, desde fotorrealismo até ilustrações estilizadas.

Os usuários podem descrever uma imagem no ChatGPT, especificando detalhes como proporção, esquemas de cores (códigos hexadecimais) ou transparência, e o GPT-4o a gerará em menos de um minuto.

Como escreveu a consultora independente de IA, Allie K. Miller, no X, é um “grande avanço na geração de texto” e é “o melhor” modelo de geração de imagem em IA que ela já viu.

Principais capacidades e casos de uso

O GPT-4o foi projetado para tornar a geração de imagens não apenas visualmente impressionante, mas também prática. Algumas das principais aplicações incluem:

Design & Branding – Gerar logotipos, pôsteres e anúncios com posicionamento preciso do texto.
Educação & Visualização – Criar diagramas científicos, infográficos e imagens históricas para aprendizado.
Desenvolvimento de Jogos – Manter a consistência de personagens em diferentes iterações de design.
Marketing & Criação de Conteúdo – Produzir ativos para mídias sociais, convites para eventos e ilustrações digitais adaptadas às necessidades da marca.

Como o GPT-4o melhora as imagens geradas em relação ao DALL-E

De acordo com o comunicado oficial da OpenAI no X, o GPT-4o introduz várias melhorias em relação aos modelos anteriores:

Melhor integração de texto: Diferente de modelos de IA anteriores que enfrentavam dificuldades com texto legível e bem posicionado, o GPT-4o agora pode incorporar palavras com precisão nas imagens.
Compreensão contextual aprimorada: O GPT-4o utiliza o histórico de chat, permitindo que os usuários refinem as imagens interativamente e mantenham coerência em várias gerações.
Melhor associação de múltiplos objetos: Enquanto modelos anteriores tinham dificuldade em posicionar corretamente muitos objetos distintos em uma cena, o GPT-4o agora pode lidar com até 10-20 objetos ao mesmo tempo.
Adaptação de estilo versátil: O modelo pode gerar ou transformar imagens em uma variedade de estilos, desde esboços à mão até fotorrealismo de alta resolução.

Limitações

Apesar de seus avanços, o GPT-4o ainda apresenta alguns desafios conhecidos:

Problemas de recorte: Imagens grandes, como pôsteres, podem ser recortadas de forma excessivamente apertada.
Precisão do texto em scripts não latinos: Alguns caracteres que não são em inglês podem não ser renderizados corretamente.
Retenção de detalhes em texto pequeno: Texto altamente detalhado ou com fontes pequenas pode perder clareza.
Precisão na edição: Modificar partes específicas de uma imagem pode afetar inadvertidamente outros elementos.

A OpenAI está trabalhando ativamente para resolver esses problemas por meio de refinamentos contínuos do modelo.

Medidas de segurança e rotulagem

Como parte do compromisso da OpenAI com o desenvolvimento responsável de IA, todas as imagens geradas pelo GPT-4o incluem metadados C2PA, permitindo que os usuários verifiquem sua origem em IA.

Além disso, a OpenAI construiu uma ferramenta interna de busca para ajudar a detectar imagens geradas por IA.

Proteções rigorosas estão em vigor para bloquear conteúdo nocivo e prevenir abusos, como proibir imagens explícitas, enganosas ou prejudiciais.

A OpenAI também garante que imagens com pessoas reais estejam sujeitas a restrições mais rigorosas.

O CEO da OpenAI, Sam Altman, descreveu o lançamento como um “novo marco para a liberdade criativa”, enfatizando que os usuários poderão criar uma ampla gama de visuais, com a OpenAI observando e refinando sua abordagem com base no uso no mundo real.

À medida que as imagens geradas por IA se tornam mais precisas e acessíveis, o GPT-4o representa um passo significativo na popularização da geração de imagem a partir de texto como uma ferramenta para comunicação, criatividade e produtividade.

Insights diários sobre casos de uso empresarial com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo que você precisa. Damos a você a informação privilegiada sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar insights para o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.