Na quarta-feira, a OpenAI trouxe a tecnologia por trás de seu novo e aprimorado recurso de geração de imagens no ChatGPT para sua API, permitindo que desenvolvedores integrem essa funcionalidade em seus aplicativos e serviços.
O novo gerador de imagens da OpenAI, que foi lançado para a maioria dos usuários do ChatGPT no final de março, viralizou por sua capacidade de criar fotos realistas ao estilo Ghibli e “figuras de ação AI.” Tem sido uma bênção mista para a OpenAI, resultando em milhões de novas inscrições para o ChatGPT, mas também sobrecarregando significativamente a capacidade da empresa. Mais de 130 milhões de usuários do ChatGPT geraram mais de 700 milhões de imagens apenas na primeira semana de disponibilidade da ferramenta, de acordo com a empresa.
Na API da OpenAI, a capacidade de geração de imagens é alimentada por um modelo de IA chamado “gpt-image-1.” Um modelo nativamente multimodal, gpt-image-1 pode criar imagens em diferentes estilos, seguir diretrizes personalizadas, aproveitar o conhecimento do mundo e renderizar texto.
Os desenvolvedores podem gerar várias imagens ao mesmo tempo usando gpt-image-1 e controlar a qualidade da geração — e, portanto, a velocidade.
De acordo com a OpenAI, o gpt-image-1 emprega as mesmas barreiras de segurança que a geração de imagens no ChatGPT, incluindo salvaguardas que impedem o modelo de gerar conteúdo que viole as políticas da empresa. Os desenvolvedores podem controlar a sensibilidade da moderação, que pode ser definida como “auto” para filtragem padrão ou “baixa” para uma filtragem menos restritiva. A filtragem baixa limita menos categorias de conteúdo potencialmente inadequado para a idade, segundo a documentação da OpenAI fornecida ao TechCrunch.
A OpenAI também afirma que todas as imagens criadas com o gpt-image-1 são marcadas com metadados C2PA, de forma que possam ser identificadas como geradas por IA por plataformas e aplicativos compatíveis.
Os preços são de $5 por milhão de tokens de entrada para texto e $10 por milhão de tokens de entrada para imagens, além de $40 por milhão de tokens de saída para imagens. (Tokens são os bits brutos de dados que o modelo processa.) Isso se traduz em cerca de 2 centavos, 7 centavos e 19 centavos por imagem gerada de baixa, média e alta qualidade, respectivamente, segundo a OpenAI.
A OpenAI afirma que empresas, incluindo Adobe, Airtable, Wix, Instacart, GoDaddy, Canva e Figma, já estão utilizando ou experimentando o gpt-image-1. A plataforma Figma Design da Figma, por exemplo, agora permite que usuários gerem e editem imagens via gpt-image-1, enquanto a Instacart está testando o modelo para imagens de receitas e listas de compras.
Conteúdo relacionado
O Google transfere notícias do Android para um evento virtual antes de sua conferência para desenvolvedores I/O
[the_ad id="145565"] As notícias sobre o Android estão sendo relegadas a um evento secundário na conferência anual de desenvolvedores do Google, Google I/O, no próximo mês. Na…
Corrigindo a Compreensão Limitada de Modelos de Difusão sobre Espelhos e Reflexos
[the_ad id="145565"] Desde que a IA generativa começou a atrair o interesse do público, a área de pesquisa em visão computacional aprofundou seu interesse no desenvolvimento de…
Lightrun capta US$ 70 milhões utilizando IA para depurar código em produção.
[the_ad id="145565"] A programação baseada em IA se popularizou rapidamente, prometendo tornar o trabalho dos desenvolvedores mais ágil e fácil. Contudo, isso também resultou…