Inscreva-se em nossos boletins diários e semanais para atualizações mais recentes e conteúdos exclusivos sobre a cobertura de IA líder da indústria. Saiba mais
Estamos nos aproximando do primeiro aniversário desde que a OpenAI lançou seu primeiro modelo “omni” ou multimodal, o GPT-4o, em maio de 2024, mas esse clássico ainda tem algumas cartas na manga.
Por exemplo, hoje a OpenAI finalmente habilitou as capacidades nativas de geração de imagens multimodais do GPT-4o para os usuários de seu popular chatbot ChatGPT nos níveis Plus, Pro, Team e Free, embora a empresa tenha dito que isso também estará disponível em breve para Enterprise, Edu e através de sua interface de programação de aplicativos (API).
Diferente do modelo anterior de IA generativa de imagens disponível no ChatGPT — o DALL-E 3 da OpenAI, um modelo de difusão clássica que foi treinado para reconstruir imagens a partir de prompts de texto removendo ruídos dos pixels — este novo gerador de imagens faz parte do mesmo modelo que gera texto e código, já que a OpenAI treinou todo o modelo para entender todas essas formas de mídia simultaneamente.
O presidente da OpenAI, Greg Brockman, havia previsto há muito tempo essa capacidade nativa do GPT-4o, em maio de 2024, mas por razões que ainda permanecem desconhecidas publicamente, a empresa reteve essa funcionalidade até agora — após o lançamento público de um recurso semelhante visto por muitos usuários avançados de IA no Google AI Studio com seu modelo experimental Gemini 2 Flash.
Isso resultou em um gerador de imagens de qualidade muito superior, que produz imagens muito mais realistas e texto incorporado com precisão, já impressionando os usuários — um deles descreveu a qualidade como “insana.”

Por outro lado (trocadilho intencional), a OpenAI ainda não informou precisamente com quais dados as capacidades de geração de imagens do GPT-4o foram treinadas — e dado o histórico da empresa e de outros provedores de modelos, é provável que inclua muitas obras de arte extraídas da web, algumas das quais presumivelmente são protegidas por direitos autorais, o que pode irritar os artistas responsáveis por elas.
Trazendo Geração de Imagens para ChatGPT e Sora
A OpenAI sempre buscou tornar a geração de imagens uma capacidade central de seus modelos de IA. Com o GPT-4o, os usuários agora podem gerar imagens diretamente no ChatGPT, refinando-as através da conversa e ajustando detalhes em tempo real.
O modelo também se integra ao Sora, a plataforma de geração de vídeo da OpenAI, expandindo ainda mais as capacidades multimodais.
Em um anúncio no X, a OpenAI confirmou que a geração de imagens do GPT-4o foi projetada para:
- Renderizar texto com precisão dentro das imagens, permitindo a criação de placas, menus, convites e infográficos.
- Seguir prompts complexos com precisão, mantendo alta fidelidade mesmo em composições detalhadas.
- Construir sobre imagens e textos anteriores, garantindo consistência visual em múltiplas interações.
- Suportar diversos estilos artísticos, desde fotorrealismo até ilustrações estilizadas.
Os usuários podem descrever uma imagem no ChatGPT, especificando detalhes como proporção, esquemas de cores (códigos hexadecimais) ou transparência, e o GPT-4o a gerará em menos de um minuto.
Como escreveu a consultora independente de IA, Allie K. Miller, no X, é um “grande avanço na geração de texto” e é “o melhor” modelo de geração de imagem em IA que ela já viu.

Principais capacidades e casos de uso
O GPT-4o foi projetado para tornar a geração de imagens não apenas visualmente impressionante, mas também prática. Algumas das principais aplicações incluem:
- Design & Branding – Gerar logotipos, pôsteres e anúncios com posicionamento preciso do texto.
- Educação & Visualização – Criar diagramas científicos, infográficos e imagens históricas para aprendizado.
- Desenvolvimento de Jogos – Manter a consistência de personagens em diferentes iterações de design.
- Marketing & Criação de Conteúdo – Produzir ativos para mídias sociais, convites para eventos e ilustrações digitais adaptadas às necessidades da marca.
Como o GPT-4o melhora as imagens geradas em relação ao DALL-E
De acordo com o comunicado oficial da OpenAI no X, o GPT-4o introduz várias melhorias em relação aos modelos anteriores:
- Melhor integração de texto: Diferente de modelos de IA anteriores que enfrentavam dificuldades com texto legível e bem posicionado, o GPT-4o agora pode incorporar palavras com precisão nas imagens.
- Compreensão contextual aprimorada: O GPT-4o utiliza o histórico de chat, permitindo que os usuários refinem as imagens interativamente e mantenham coerência em várias gerações.
- Melhor associação de múltiplos objetos: Enquanto modelos anteriores tinham dificuldade em posicionar corretamente muitos objetos distintos em uma cena, o GPT-4o agora pode lidar com até 10-20 objetos ao mesmo tempo.
- Adaptação de estilo versátil: O modelo pode gerar ou transformar imagens em uma variedade de estilos, desde esboços à mão até fotorrealismo de alta resolução.
Limitações
Apesar de seus avanços, o GPT-4o ainda apresenta alguns desafios conhecidos:
- Problemas de recorte: Imagens grandes, como pôsteres, podem ser recortadas de forma excessivamente apertada.
- Precisão do texto em scripts não latinos: Alguns caracteres que não são em inglês podem não ser renderizados corretamente.
- Retenção de detalhes em texto pequeno: Texto altamente detalhado ou com fontes pequenas pode perder clareza.
- Precisão na edição: Modificar partes específicas de uma imagem pode afetar inadvertidamente outros elementos.
A OpenAI está trabalhando ativamente para resolver esses problemas por meio de refinamentos contínuos do modelo.
Medidas de segurança e rotulagem
Como parte do compromisso da OpenAI com o desenvolvimento responsável de IA, todas as imagens geradas pelo GPT-4o incluem metadados C2PA, permitindo que os usuários verifiquem sua origem em IA.
Além disso, a OpenAI construiu uma ferramenta interna de busca para ajudar a detectar imagens geradas por IA.
Proteções rigorosas estão em vigor para bloquear conteúdo nocivo e prevenir abusos, como proibir imagens explícitas, enganosas ou prejudiciais.
A OpenAI também garante que imagens com pessoas reais estejam sujeitas a restrições mais rigorosas.
O CEO da OpenAI, Sam Altman, descreveu o lançamento como um “novo marco para a liberdade criativa”, enfatizando que os usuários poderão criar uma ampla gama de visuais, com a OpenAI observando e refinando sua abordagem com base no uso no mundo real.
À medida que as imagens geradas por IA se tornam mais precisas e acessíveis, o GPT-4o representa um passo significativo na popularização da geração de imagem a partir de texto como uma ferramenta para comunicação, criatividade e produtividade.
Insights diários sobre casos de uso empresarial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo que você precisa. Damos a você a informação privilegiada sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais boletins do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
A TAO dos dados: Como o Databricks está otimizando o ajuste fino de LLMs de IA sem rótulos de dados
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de liderança no setor. Saiba…
A OpenAI almeja a AGI, mas aterrissa na Studio Ghibli
[the_ad id="145565"] A OpenAI está reportadamente prestes a concluir uma imensa rodada de financiamento de $40 bilhões, liderada pela SoftBank. Mas esta semana, não foram…
O que a IA está nos ensinando sobre civilizações antigas
[the_ad id="145565"] Embora ensinar os humanos sobre suas civilizações antigas possa parecer um trabalho estranho para a inteligência artificial, isso tem potencial.…