O CEO da OpenAI, Sam Altman, diz que a falta de capacidade de computação está atrasando os produtos da empresa.

Em um AMA no Reddit, o CEO da OpenAI, Sam Altman, admitiu que a falta de capacidade de computação é um dos principais fatores que impedem a empresa de lançar produtos com a frequência que gostaria.

“Todos esses modelos se tornaram bastante complexos”, ele escreveu em resposta a uma pergunta sobre por que os próximos modelos de IA da OpenAI estão demorando tanto. “Nós também enfrentamos muitas limitações e decisões difíceis sobre [como] alocamos nossa computação em muitas ideias brilhantes.”

Muitos relatórios sugerem que a OpenAI teve dificuldades em garantir infraestrutura de computação suficiente para rodar e treinar seus modelos generativos. Apenas esta semana, notícias da Reuters, citando fontes, disseram que a OpenAI está há meses trabalhando com a Broadcom para criar um chip de IA para rodar modelos, que pode chegar tão cedo quanto 2026.

Em parte como resultado da capacidade restrita, Altman afirmou que o recurso de conversação realista do ChatGPT, Modo de Voz Avançado, não receberá as funcionalidades de visão que foram anunciadas em abril tão cedo. Em seu evento de imprensa em abril, a OpenAI mostrou o aplicativo ChatGPT rodando em um smartphone e respondendo a sinais visuais, como as roupas que alguém estava vestindo, dentro da visão da câmera do telefone.

Relatos da Fortune mais tarde revelaram que a demonstração foi apressada para roubar atenção da conferência de desenvolvedores I/O do Google, que estava ocorrendo na mesma semana. Muitos dentro da OpenAI não acreditavam que o GPT-4o estava pronto para ser revelado. Notavelmente, a versão apenas com voz do Modo de Voz Avançado foi atrasada por meses.

No AMA, Altman indicou que o próximo grande lançamento do gerador de imagens da OpenAI, DALL-E, não tem um cronograma de lançamento. (“Ainda não temos um plano de lançamento,” disse ele.) Enquanto isso, Sora, a ferramenta de geração de vídeo da OpenAI, tem sido atrasada pela “necessidade de aperfeiçoar o modelo, acertar segurança/imitação/outros aspectos e escalar a computação”, escreveu Kevin Weil, diretor de produtos da OpenAI, que também participou do AMA.

Sora enfrentou supostamente retrocessos técnicos que a posicionam mal em comparação com sistemas rivais da Luma, Runway e outros. De acordo com The Information, o sistema original, revelado em fevereiro, levou mais de 10 minutos de tempo de processamento para criar um clipe de vídeo de 1 minuto.

Em outubro, um dos co-líderes do Sora, Tim Brooks, deixou a OpenAI para se juntar ao Google.

Mais tarde no AMA, Altman disse que a OpenAI ainda está considerando permitir conteúdo “NSFW” no ChatGPT “algum dia” (“nós realmente acreditamos em tratar usuários adultos como adultos”, escreveu ele), e que a principal prioridade da empresa é melhorar sua série o1 de modelos de “raciocínio” e seus sucessores. A OpenAI apresentou várias funcionalidades que estão por vir na o1 em sua conferência DevDay em Londres nesta semana, incluindo compreensão de imagens.

“Temos alguns lançamentos muito bons programados para o final deste ano,” escreveu Altman. “Nada que vamos chamar de GPT-5, porém.”