Bolt42

A Microsoft planeja permitir que os usuários do Teams clonar suas vozes, para que possam ter seus sósias falando com outras pessoas em reuniões em diferentes idiomas.

Na Microsoft Ignite 2024 na terça-feira, a empresa revelou o Interpreter no Teams, uma ferramenta para Microsoft Teams que oferece capacidades de interpretação “em tempo real, de fala para fala”. A partir do início de 2025, pessoas utilizando o Teams para reuniões poderão usar o Interpreter para simular suas vozes em até nove idiomas: inglês, francês, alemão, italiano, japonês, coreano, português, mandarim e espanhol.

“Imagine poder soar exatamente como você em um idioma diferente,” escreveu o CMO da Microsoft, Jared Spataro, em um post de blog compartilhado com o TechCrunch. “O Interpreter no Teams fornece tradução em tempo real de fala para fala durante reuniões, e você pode optar por ter sua voz simulada para uma experiência mais pessoal e envolvente.”

A Microsoft deu poucos detalhes concretos sobre o recurso, que estará disponível apenas para assinantes do Microsoft 365. Mas informou que a ferramenta não armazena dados biométricos, não adiciona sentimentos além do que está “naturalmente presente” em uma voz e pode ser desabilitada nas configurações do Teams.

“O Interpreter é projetado para replicar a mensagem do orador da maneira mais fiel possível, sem adicionar suposições ou informações supérfluas,” disse um porta-voz da Microsoft ao TechCrunch. “A simulação de voz só pode ser ativada quando os usuários fornecem consentimento por meio de uma notificação durante a reunião ou ao habilitar ‘Consentimento para simulação de voz’ nas configurações.”

Várias empresas desenvolveram tecnologia para imitar digitalmente vozes que soam razoavelmente naturais. A Meta recentemente anunciou que está testando uma ferramenta de tradução que pode traduzir automaticamente vozes em Instagram Reels, enquanto a ElevenLabs oferece uma plataforma robusta para geração de fala multilíngue.

As traduções de IA tendem a ser menos ricas lexicalmente do que aquelas de intérpretes humanos, e tradutores de IA frequentemente lutam para transmitir com precisão coloquialismos, analogias e nuances culturais. No entanto, as economias de custo são atraentes o suficiente para tornar essa troca válida para alguns. De acordo com Markets and Markets, o setor de tecnologias de processamento de linguagem natural, incluindo tecnologias de tradução, pode valer $35,1 bilhões até 2026.

No entanto, os clones de IA também apresentam desafios de segurança.

Deepfakes se espalharam como um incêndio nas redes sociais, dificultando a distinção entre a verdade e a desinformação. Até agora, este ano, deepfakes apresentando o presidente Joe Biden, Taylor Swift e a vice-presidente Kamala Harris acumularam milhões de visualizações e compartilhamentos. Deepfakes também foram usados para alvos individuais, por exemplo, ao imitar entes queridos. As perdas ligadas a fraudes de impersonação ultrapassaram $1 bilhão no ano passado, segundo a FTC.

Apenas este ano, um grupo de cibercriminosos supostamente organizou uma reunião no Teams com a alta administração de uma empresa que foi tão convincente que a empresa alvo transferiu $25 milhões para os criminosos.

Em parte devido aos riscos (e à percepção), a OpenAI decidiu mais cedo este ano não lançar sua tecnologia de clonagem de voz, Voice Engine.

Pelo que foi revelado até agora, o Interpreter no Teams é uma aplicação relativamente restrita de clonagem de voz. No entanto, isso não significa que a ferramenta estará a salvo de abusos. É fácil imaginar um ator mal-intencionado fornecendo ao Interpreter uma gravação enganosa — por exemplo, alguém pedindo informações de conta bancária — para obter uma tradução no idioma de seu alvo.

Esperamos ter uma ideia melhor das salvaguardas que a Microsoft adicionará em torno do Interpreter nos próximos meses.


    12 + one =

    Bolt42