Bolt42

A maior parte do foco em IA generativa tem sido nas interfaces baseadas em texto utilizadas para gerar textos, imagens e muito mais. A próxima onda parece estar na voz, e ela está chegando rapidamente. No desenvolvimento mais recente, o Google anunciou hoje que irá adicionar o Chirp 3 — seus modelos de conversão de fala em texto e de texto em fala em HD — à sua plataforma de desenvolvimento Vertex AI a partir da próxima semana.

Na semana passada, o Google anunciou discretamente que o Chirp 3 será lançado com 8 novas vozes para 31 idiomas. As aplicações para a plataforma incluem a construção de assistentes de voz, criação de audiolivros, desenvolvimento de agentes de suporte e narrações para vídeos. A notícia foi divulgada em um evento nos escritórios da DeepMind do Google em Londres.

Os esforços do Google chegam em um momento em que outras empresas também estão avançando em seus trabalhos com IA de voz. Na semana passada, a Sesame — a startup por trás dos aplicativos de IA “Maya” e “Miles”, que têm um som muito realista — anunciou o lançamento de seu modelo para que desenvolvedores construam seus próprios aplicativos e serviços personalizados sobre sua tecnologia.

Vale ressaltar que haverá restrições de uso ao redor do Chirp 3 para tentar controlar possíveis abusos. “Estamos apenas trabalhando nisso com nossa equipe de segurança”, disse Thomas Kurian, CEO da Google Cloud, em um evento de notícias hoje.

A ElevenLabs está entre as grandes startups que levantaram centenas de milhões em financiamento para expandir seu trabalho em serviços de voz de IA.

A novidade trará o Chirp 3 para a mesma linha dos novos versões de seu modelo de LLM principal, o Gemini, que estão em fase de teste, assim como seu modelo de geração de imagens, o Imagen, e sua cara ferramenta de geração de vídeos, o Veo 2.

Ainda está por ser confirmado se o que o Google está lançando com o Chirp 3 será tão “realista” quanto alguns dos outros esforços de IA para criar vozes “humanas” (o trabalho da Sesame se destaca em particular). Mas, como enfatizou Demis Hassabis, CEO da DeepMind, isso continua sendo uma maratona, não um sprint.

“A curto prazo… essa ideia de que [IA é] uma solução mágica para tudo nos próximos anos, eu não vejo isso acontecendo ainda. Acredito que ainda estamos a alguns anos de distância de algo como a AGI,” ele disse. “Vai mudar as coisas… na próxima década, então, a médio e longo prazo. É um desses momentos interessantes no tempo.”

O Google lançou o Vertex AI lá em 2021 como uma plataforma para desenvolvedores construírem serviços de aprendizado de máquina na nuvem. Isso foi, é claro, bem antes da explosão de interesse em IA, e especificamente em IA generativa, que veio com o lançamento dos serviços GPT da OpenAI.

Desde então, a empresa tem se aprofundado no Vertex AI, em parte enquanto corre atrás de outras empresas como Microsoft e Amazon — que também estão desenvolvendo ferramentas de IA generativa para desenvolvedores. Além de construir IA generativa sobre o Gemini, os desenvolvedores podem usar o Vertex AI para classificar dados, treinar modelos e configurar modelos para produção. Será interessante ver se irá expandir seu jardim murado para modelos além daqueles criados pelo próprio Google.

O Google tem construído serviços de voz “Chirp” por anos, voltando a usar o nome como um codinome para seus esforços iniciais para competir contra o serviço Alexa da Amazon.


    seis + 8 =

    Bolt42