Em um AMA no Reddit, o CEO da OpenAI, Sam Altman, admitiu que a falta de capacidade de computação é um dos principais fatores que impedem a empresa de lançar produtos com a frequência que gostaria.
“Todos esses modelos se tornaram bastante complexos”, ele escreveu em resposta a uma pergunta sobre por que os próximos modelos de IA da OpenAI estão demorando tanto. “Nós também enfrentamos muitas limitações e decisões difíceis sobre [como] alocamos nossa computação em muitas ideias brilhantes.”
Muitos relatórios sugerem que a OpenAI teve dificuldades em garantir infraestrutura de computação suficiente para rodar e treinar seus modelos generativos. Apenas esta semana, notícias da Reuters, citando fontes, disseram que a OpenAI está há meses trabalhando com a Broadcom para criar um chip de IA para rodar modelos, que pode chegar tão cedo quanto 2026.
Em parte como resultado da capacidade restrita, Altman afirmou que o recurso de conversação realista do ChatGPT, Modo de Voz Avançado, não receberá as funcionalidades de visão que foram anunciadas em abril tão cedo. Em seu evento de imprensa em abril, a OpenAI mostrou o aplicativo ChatGPT rodando em um smartphone e respondendo a sinais visuais, como as roupas que alguém estava vestindo, dentro da visão da câmera do telefone.
Relatos da Fortune mais tarde revelaram que a demonstração foi apressada para roubar atenção da conferência de desenvolvedores I/O do Google, que estava ocorrendo na mesma semana. Muitos dentro da OpenAI não acreditavam que o GPT-4o estava pronto para ser revelado. Notavelmente, a versão apenas com voz do Modo de Voz Avançado foi atrasada por meses.
No AMA, Altman indicou que o próximo grande lançamento do gerador de imagens da OpenAI, DALL-E, não tem um cronograma de lançamento. (“Ainda não temos um plano de lançamento,” disse ele.) Enquanto isso, Sora, a ferramenta de geração de vídeo da OpenAI, tem sido atrasada pela “necessidade de aperfeiçoar o modelo, acertar segurança/imitação/outros aspectos e escalar a computação”, escreveu Kevin Weil, diretor de produtos da OpenAI, que também participou do AMA.
Sora enfrentou supostamente retrocessos técnicos que a posicionam mal em comparação com sistemas rivais da Luma, Runway e outros. De acordo com The Information, o sistema original, revelado em fevereiro, levou mais de 10 minutos de tempo de processamento para criar um clipe de vídeo de 1 minuto.
Em outubro, um dos co-líderes do Sora, Tim Brooks, deixou a OpenAI para se juntar ao Google.
Mais tarde no AMA, Altman disse que a OpenAI ainda está considerando permitir conteúdo “NSFW” no ChatGPT “algum dia” (“nós realmente acreditamos em tratar usuários adultos como adultos”, escreveu ele), e que a principal prioridade da empresa é melhorar sua série o1 de modelos de “raciocínio” e seus sucessores. A OpenAI apresentou várias funcionalidades que estão por vir na o1 em sua conferência DevDay em Londres nesta semana, incluindo compreensão de imagens.
“Temos alguns lançamentos muito bons programados para o final deste ano,” escreveu Altman. “Nada que vamos chamar de GPT-5, porém.”
Conteúdo relacionado
Como um “você” digital pode participar das suas agonizantes chamadas de conferência na web
[the_ad id="145565"] Agora você pode parecer estar em uma chamada do Zoom no seu escritório, mesmo quando está saboreando uma margarita em uma rede longe, bem longe. Graças a…
A Amazon reforça seu investimento na Anthropic, se posicionando como um protagonista na corrida pela inteligência artificial
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas novidades e conteúdo exclusivo sobre a cobertura de IA de ponta da indústria. Saiba mais…
Conheça três novos parlamentares da UE responsáveis por áreas-chave de política tecnológica
[the_ad id="145565"] A União Europeia parece ter alcançado um acordo político sobre a equipe de 26 comissários que implementarão o plano de políticas da presidente Ursula von…