O próximo grande modelo de IA do Google chegou para enfrentar uma série de novas ofertas da OpenAI.
Na quarta-feira, o Google anunciou o Gemini 2.0 Flash, que, segundo a empresa, pode gerar nativamente imagens e áudio além de texto. O 2.0 Flash também pode utilizar aplicativos e serviços de terceiros, permitindo que acesse o Google Search, execute código, e mais.
Uma versão experimental do 2.0 Flash estará disponível através da API do Gemini e das plataformas de desenvolvimento de IA do Google, AI Studio e Vertex AI, a partir de hoje. Contudo, as capacidades de geração de áudio e imagem serão lançadas apenas para “parceiros de acesso antecipado” antes de um lançamento mais amplo em janeiro.
Nos próximos meses, o Google afirma que trará o 2.0 Flash em diferentes versões para produtos como Android Studio, Chrome DevTools, Firebase, Gemini Code Assist e outros.
Flash, atualizado
O Flash de primeira geração, o 1.5 Flash, conseguia gerar apenas texto e não era projetado para cargas de trabalho especialmente exigentes. Este novo modelo é mais versátil, segundo o Google, em parte porque pode chamar ferramentas como o Search e interagir com APIs externas.
“Sabemos que o Flash é extremamente popular entre os desenvolvedores por seu … equilíbrio entre velocidade e desempenho,” disse Tulsee Doshi, chefe de produto do modelo Gemini no Google, durante uma apresentação na terça-feira. “E com o 2.0 Flash, ele é tão rápido quanto sempre foi, mas agora é ainda mais poderoso.”
O Google afirma que o 2.0 Flash, que é duas vezes mais rápido que o modelo Gemini 1.5 Pro em certos benchmarks, segundo os próprios testes do Google, é “significativamente” melhorado em áreas como codificação e análise de imagem. Na verdade, a empresa diz que o 2.0 Flash substitui o 1.5 Pro como o modelo insignia do Gemini, graças às suas habilidades matemáticas superiores e “factualidade”.
Como mencionado anteriormente, o 2.0 Flash pode gerar — e modificar — imagens junto com texto. O modelo também pode ingerir fotos e vídeos, além de gravações de áudio, para responder perguntas sobre eles (por exemplo, “O que ele disse?”).
A geração de áudio é a outra característica chave do 2.0 Flash, e Doshi a descreveu como “direcionável” e “customizável.” Por exemplo, o modelo pode narrar texto usando uma das oito vozes “otimizadas” para diferentes sotaques e idiomas.
“Você pode pedir para ele falar mais devagar, você pode pedir para ele falar mais rápido, ou até mesmo pedir para ele dizer algo como um pirata,” acrescentou.
Agora, sou obrigado como jornalista a notar que o Google não forneceu imagens ou amostras de áudio do 2.0 Flash. Não temos como saber como a qualidade se compara com saídas de outros modelos, pelo menos até o momento da redação.
O Google afirma que está utilizando sua tecnologia SynthID para marcar todas as imagens e áudios gerados pelo 2.0 Flash. Em softwares e plataformas que suportam o SynthID — isto é, em produtos selecionados do Google — as saídas do modelo serão sinalizadas como sintéticas.
Isso visa aliviar receios de abuso. De fato, os deepfakes são uma ameaça crescente. De acordo com o serviço de verificação de identidade Sumsub, houve um aumento de 4x nos deepfakes detectados em todo o mundo de 2023 a 2024.
API Multimodal
A versão de produção do 2.0 Flash chegará em janeiro. Mas, enquanto isso, o Google está lançando uma API, a Multimodal Live API, para ajudar desenvolvedores a construir aplicativos com funcionalidade de streaming de áudio e vídeo em tempo real.
Usando a Multimodal Live API, o Google afirma que os desenvolvedores podem criar aplicativos multimodais em tempo real com entradas de áudio e vídeo de câmeras ou telas. A API suporta a integração de ferramentas para realizar tarefas e pode lidar com “padrões de conversa natural” como interrupções — semelhante à API Realtime da OpenAI.
A Multimodal Live API está disponível em geral desde esta manhã.
Conteúdo relacionado
OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.
[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…
A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.
[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…
Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE
[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…