A OpenAI disponibiliza seu gerador de imagens aprimorado para desenvolvedores.

Na quarta-feira, a OpenAI trouxe a tecnologia por trás de seu novo e aprimorado recurso de geração de imagens no ChatGPT para sua API, permitindo que desenvolvedores integrem essa funcionalidade em seus aplicativos e serviços.

O novo gerador de imagens da OpenAI, que foi lançado para a maioria dos usuários do ChatGPT no final de março, viralizou por sua capacidade de criar fotos realistas ao estilo Ghibli e “figuras de ação AI.” Tem sido uma bênção mista para a OpenAI, resultando em milhões de novas inscrições para o ChatGPT, mas também sobrecarregando significativamente a capacidade da empresa. Mais de 130 milhões de usuários do ChatGPT geraram mais de 700 milhões de imagens apenas na primeira semana de disponibilidade da ferramenta, de acordo com a empresa.

Na API da OpenAI, a capacidade de geração de imagens é alimentada por um modelo de IA chamado “gpt-image-1.” Um modelo nativamente multimodal, gpt-image-1 pode criar imagens em diferentes estilos, seguir diretrizes personalizadas, aproveitar o conhecimento do mundo e renderizar texto.

Os desenvolvedores podem gerar várias imagens ao mesmo tempo usando gpt-image-1 e controlar a qualidade da geração — e, portanto, a velocidade.

De acordo com a OpenAI, o gpt-image-1 emprega as mesmas barreiras de segurança que a geração de imagens no ChatGPT, incluindo salvaguardas que impedem o modelo de gerar conteúdo que viole as políticas da empresa. Os desenvolvedores podem controlar a sensibilidade da moderação, que pode ser definida como “auto” para filtragem padrão ou “baixa” para uma filtragem menos restritiva. A filtragem baixa limita menos categorias de conteúdo potencialmente inadequado para a idade, segundo a documentação da OpenAI fornecida ao TechCrunch.

A OpenAI também afirma que todas as imagens criadas com o gpt-image-1 são marcadas com metadados C2PA, de forma que possam ser identificadas como geradas por IA por plataformas e aplicativos compatíveis.

Os preços são de $5 por milhão de tokens de entrada para texto e $10 por milhão de tokens de entrada para imagens, além de $40 por milhão de tokens de saída para imagens. (Tokens são os bits brutos de dados que o modelo processa.) Isso se traduz em cerca de 2 centavos, 7 centavos e 19 centavos por imagem gerada de baixa, média e alta qualidade, respectivamente, segundo a OpenAI.

A OpenAI afirma que empresas, incluindo Adobe, Airtable, Wix, Instacart, GoDaddy, Canva e Figma, já estão utilizando ou experimentando o gpt-image-1. A plataforma Figma Design da Figma, por exemplo, agora permite que usuários gerem e editem imagens via gpt-image-1, enquanto a Instacart está testando o modelo para imagens de receitas e listas de compras.