Gemini 2.0: Google's Latest Flagship AI Capable of Generating Text, Images, and Speech in Portuguese

O próximo grande modelo de IA do Google chegou para enfrentar uma série de novas ofertas da OpenAI.

Na quarta-feira, o Google anunciou o Gemini 2.0 Flash, que, segundo a empresa, pode gerar nativamente imagens e áudio além de texto. O 2.0 Flash também pode utilizar aplicativos e serviços de terceiros, permitindo que acesse o Google Search, execute código, e mais.

Uma versão experimental do 2.0 Flash estará disponível através da API do Gemini e das plataformas de desenvolvimento de IA do Google, AI Studio e Vertex AI, a partir de hoje. Contudo, as capacidades de geração de áudio e imagem serão lançadas apenas para “parceiros de acesso antecipado” antes de um lançamento mais amplo em janeiro.

Nos próximos meses, o Google afirma que trará o 2.0 Flash em diferentes versões para produtos como Android Studio, Chrome DevTools, Firebase, Gemini Code Assist e outros.

Flash, atualizado

O Flash de primeira geração, o 1.5 Flash, conseguia gerar apenas texto e não era projetado para cargas de trabalho especialmente exigentes. Este novo modelo é mais versátil, segundo o Google, em parte porque pode chamar ferramentas como o Search e interagir com APIs externas.

“Sabemos que o Flash é extremamente popular entre os desenvolvedores por seu … equilíbrio entre velocidade e desempenho,” disse Tulsee Doshi, chefe de produto do modelo Gemini no Google, durante uma apresentação na terça-feira. “E com o 2.0 Flash, ele é tão rápido quanto sempre foi, mas agora é ainda mais poderoso.”

O Google afirma que o 2.0 Flash, que é duas vezes mais rápido que o modelo Gemini 1.5 Pro em certos benchmarks, segundo os próprios testes do Google, é “significativamente” melhorado em áreas como codificação e análise de imagem. Na verdade, a empresa diz que o 2.0 Flash substitui o 1.5 Pro como o modelo insignia do Gemini, graças às suas habilidades matemáticas superiores e “factualidade”.

Como mencionado anteriormente, o 2.0 Flash pode gerar — e modificar — imagens junto com texto. O modelo também pode ingerir fotos e vídeos, além de gravações de áudio, para responder perguntas sobre eles (por exemplo, “O que ele disse?”).

A geração de áudio é a outra característica chave do 2.0 Flash, e Doshi a descreveu como “direcionável” e “customizável.” Por exemplo, o modelo pode narrar texto usando uma das oito vozes “otimizadas” para diferentes sotaques e idiomas.

“Você pode pedir para ele falar mais devagar, você pode pedir para ele falar mais rápido, ou até mesmo pedir para ele dizer algo como um pirata,” acrescentou.

Agora, sou obrigado como jornalista a notar que o Google não forneceu imagens ou amostras de áudio do 2.0 Flash. Não temos como saber como a qualidade se compara com saídas de outros modelos, pelo menos até o momento da redação.

O Google afirma que está utilizando sua tecnologia SynthID para marcar todas as imagens e áudios gerados pelo 2.0 Flash. Em softwares e plataformas que suportam o SynthID — isto é, em produtos selecionados do Google — as saídas do modelo serão sinalizadas como sintéticas.

Isso visa aliviar receios de abuso. De fato, os deepfakes são uma ameaça crescente. De acordo com o serviço de verificação de identidade Sumsub, houve um aumento de 4x nos deepfakes detectados em todo o mundo de 2023 a 2024.

API Multimodal

A versão de produção do 2.0 Flash chegará em janeiro. Mas, enquanto isso, o Google está lançando uma API, a Multimodal Live API, para ajudar desenvolvedores a construir aplicativos com funcionalidade de streaming de áudio e vídeo em tempo real.

Usando a Multimodal Live API, o Google afirma que os desenvolvedores podem criar aplicativos multimodais em tempo real com entradas de áudio e vídeo de câmeras ou telas. A API suporta a integração de ferramentas para realizar tarefas e pode lidar com “padrões de conversa natural” como interrupções — semelhante à API Realtime da OpenAI.

A Multimodal Live API está disponível em geral desde esta manhã.