Em uma recente aparição no Possível, um podcast co-apresentado pelo cofundador do LinkedIn Reid Hoffman, o CEO da Google DeepMind, Demis Hassabis, afirmou que a Google planeja eventualmente combinar seus modelos de IA Gemini com seus modelos de geração de vídeo Veo para melhorar a compreensão do primeiro sobre o mundo físico.
“Sempre construímos o Gemini, nosso modelo de base, para ser multimodal desde o início,” disse Hassabis, “e a razão pela qual fizemos isso [é porque] temos uma visão para essa ideia de um assistente digital universal, um assistente que … realmente te ajuda no mundo real.”
A indústria de IA está se movendo gradualmente em direção a modelos “omni”, se você quiser — modelos que podem entender e sintetizar muitas formas de mídia. Os novos modelos Gemini da Google podem gerar áudio, além de imagens e texto, enquanto o modelo padrão da OpenAI no ChatGPT pode criar nativamente imagens — incluindo, é claro, arte no estilo Studio Ghibli. A Amazon também anunciou planos para lançar um modelo “qualquer-para-qualquer” ainda este ano.
Esses modelos omni exigem uma grande quantidade de dados de treinamento — imagens, vídeos, áudio, texto e assim por diante. Hassabis insinuou que os dados de vídeo para o Veo estão vindo principalmente do YouTube, uma plataforma que a Google possui.
“Basicamente, ao assistir a vídeos do YouTube — muitos vídeos do YouTube — [Veo 2] pode descobrir, você sabe, a física do mundo,” disse Hassabis.
A Google afirmou anteriormente ao TechCrunch que seus modelos “podem ser” treinados em “algum” conteúdo do YouTube, em conformidade com seu acordo com os criadores do YouTube. Reportagens indicam que a Google ampliou seus termos de serviço no ano passado, em parte para permitir que a empresa acesse mais dados para treinar seus modelos de IA.
Conteúdo relacionado
Como a NTT Research transformou a pesquisa e desenvolvimento básico em IA para o setor empresarial | Entrevista com Kazu Gomi
[the_ad id="145565"] Kazu Gomi possui uma ampla visão do mundo da tecnologia a partir de seu posto no Vale do Silício. Como presidente e CEO da NTT Research, uma divisão da…
OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.
[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…
A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.
[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…