Em um AMA no Reddit, o CEO da OpenAI, Sam Altman, admitiu que a falta de capacidade de computação é um dos principais fatores que impedem a empresa de lançar produtos com a frequência que gostaria.
“Todos esses modelos se tornaram bastante complexos”, ele escreveu em resposta a uma pergunta sobre por que os próximos modelos de IA da OpenAI estão demorando tanto. “Nós também enfrentamos muitas limitações e decisões difíceis sobre [como] alocamos nossa computação em muitas ideias brilhantes.”
Muitos relatórios sugerem que a OpenAI teve dificuldades em garantir infraestrutura de computação suficiente para rodar e treinar seus modelos generativos. Apenas esta semana, notícias da Reuters, citando fontes, disseram que a OpenAI está há meses trabalhando com a Broadcom para criar um chip de IA para rodar modelos, que pode chegar tão cedo quanto 2026.
Em parte como resultado da capacidade restrita, Altman afirmou que o recurso de conversação realista do ChatGPT, Modo de Voz Avançado, não receberá as funcionalidades de visão que foram anunciadas em abril tão cedo. Em seu evento de imprensa em abril, a OpenAI mostrou o aplicativo ChatGPT rodando em um smartphone e respondendo a sinais visuais, como as roupas que alguém estava vestindo, dentro da visão da câmera do telefone.
Relatos da Fortune mais tarde revelaram que a demonstração foi apressada para roubar atenção da conferência de desenvolvedores I/O do Google, que estava ocorrendo na mesma semana. Muitos dentro da OpenAI não acreditavam que o GPT-4o estava pronto para ser revelado. Notavelmente, a versão apenas com voz do Modo de Voz Avançado foi atrasada por meses.
No AMA, Altman indicou que o próximo grande lançamento do gerador de imagens da OpenAI, DALL-E, não tem um cronograma de lançamento. (“Ainda não temos um plano de lançamento,” disse ele.) Enquanto isso, Sora, a ferramenta de geração de vídeo da OpenAI, tem sido atrasada pela “necessidade de aperfeiçoar o modelo, acertar segurança/imitação/outros aspectos e escalar a computação”, escreveu Kevin Weil, diretor de produtos da OpenAI, que também participou do AMA.
Sora enfrentou supostamente retrocessos técnicos que a posicionam mal em comparação com sistemas rivais da Luma, Runway e outros. De acordo com The Information, o sistema original, revelado em fevereiro, levou mais de 10 minutos de tempo de processamento para criar um clipe de vídeo de 1 minuto.
Em outubro, um dos co-líderes do Sora, Tim Brooks, deixou a OpenAI para se juntar ao Google.
Mais tarde no AMA, Altman disse que a OpenAI ainda está considerando permitir conteúdo “NSFW” no ChatGPT “algum dia” (“nós realmente acreditamos em tratar usuários adultos como adultos”, escreveu ele), e que a principal prioridade da empresa é melhorar sua série o1 de modelos de “raciocínio” e seus sucessores. A OpenAI apresentou várias funcionalidades que estão por vir na o1 em sua conferência DevDay em Londres nesta semana, incluindo compreensão de imagens.
“Temos alguns lançamentos muito bons programados para o final deste ano,” escreveu Altman. “Nada que vamos chamar de GPT-5, porém.”
Conteúdo relacionado
Anthropic transforma a abordagem da IA na educação: o Modo de Aprendizagem do Claude faz os alunos refletirem.
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas novidades e conteúdo exclusivo sobre cobertura de IA de liderança no setor. Saiba mais……
Anthropic lança um plano de chatbot de IA para faculdades e universidades
[the_ad id="145565"] A Anthropic anunciou na quarta-feira que está lançando uma nova camada Claude para Educação, como resposta ao plano ChatGPT Edu da OpenAI. A nova camada é…
O artigo de 145 páginas da DeepMind sobre segurança em AGI pode não convencer os céticos.
[the_ad id="145565"] O Google DeepMind publicou na quarta-feira um documento exaustivo sobre sua abordagem de segurança para AGI, definida de forma ampla como uma IA capaz de…