DeepL Introduces DeepL Voice: Real-Time Text Translations from Voices and Videos in Portuguese

DeepL se destacou com a tradução de textos online, afirmando ser mais sutil e precisa do que serviços como o do Google — uma proposta que levou a startup alemã a uma avaliação de $2 bilhões e mais de 100.000 clientes pagantes.

Agora, com o crescente interesse por serviços de IA, a DeepL está adicionando uma nova funcionalidade à sua plataforma: áudio. Os usuários poderão usar o DeepL Voice para ouvir alguém falando em um idioma e traduzi-lo automaticamente para outro, em tempo real.

Inglês, alemão, japonês, coreano, sueco, holandês, francês, turco, polonês, português, russo, espanhol e italiano são os idiomas que a DeepL pode “ouvir” hoje. As legendas traduzidas estão disponíveis para todos os 33 idiomas atualmente suportados pelo DeepL Translator.

**Créditos da Imagem:**DeepL (abre em uma nova janela) sob uma (abre em uma nova janela) licença.

Atualmente, o DeepL Voice não oferece a tradução como um arquivo de áudio ou vídeo: o serviço é voltado para conversas em tempo real e videoconferências, apresentando os resultados como texto, não como áudio.

Na primeira funcionalidade, você pode configurar suas traduções para aparecer como ‘espelhos’ em um smartphone — a ideia é colocar o telefone entre você e outra pessoa em uma mesa de reunião para que ambos possam ver as palavras traduzidas — ou como uma transcrição que você compartilha lado a lado com alguém. No serviço de videoconferência, as traduções aparecem como legendas.

Isso pode mudar ao longo do tempo, Jarek Kutylowski, fundador e CEO da empresa (como mostrado acima), insinuou em uma entrevista. Este é o primeiro produto de voz da DeepL, mas não deverá ser o último. “[A voz] é onde a tradução vai se desenvolver no próximo ano,” acrescentou.

Há outras evidências que apoiam essa afirmação. O Google — um dos maiores concorrentes da DeepL — também começou a incorporar legendas traduzidas em tempo real em seu serviço de videoconferência Meet. E, há uma multitude de startups de IA criando serviços de tradução de voz, como a especialista em voz AI Eleven Labs (Eleven Labs Dubbing) e a Panjaya, que cria traduções usando vozes e vídeos “deepfake” que combinam com o áudio.

Esta última usa a API da Eleven Labs e, segundo Kutylowski, a Eleven Labs em si está utilizando tecnologia da DeepL para alimentar seu serviço de tradução.

A saída em áudio não é o único recurso ainda a ser lançado.

Atualmente, não existe uma API para o produto de voz. O principal negócio da DeepL é focado em B2B, e Kutylowski disse que a empresa está trabalhando diretamente com parceiros e clientes.

Além disso, não há uma ampla gama de integrações: o único serviço de videoconferência que suporta legendas da DeepL atualmente é o Teams, que “atende à maioria dos nossos clientes,” disse Kutylowski. Não há informações sobre quando ou se o Zoom ou Google Meet incorporarão o DeepL Voice no futuro.

O produto pode parecer demorado para os usuários da DeepL, não apenas porque estamos cercados por uma infinidade de outros serviços de voz de IA voltados para tradução. Kutylowski disse que esse tem sido o pedido número um dos clientes desde 2017, ano em que a DeepL foi lançada.

Parte da razão pela qual houve a espera é que a DeepL tem adotado uma abordagem bastante deliberada na construção de seu produto. Diferente de muitos outros no mundo das aplicações de IA, que dependem e ajustam os grandes modelos de linguagem (LLMs) de outras empresas, a DeepL pretende construir seu serviço do zero. Em julho, a empresa lançou um novo LLM otimizado para traduções que afirma superar o GPT-4, além das soluções do Google e Microsoft, pois seu propósito principal é a tradução. A empresa também tem continuado a aprimorar a qualidade de sua produção escrita e glossário.

Da mesma forma, um dos pontos únicos de venda do DeepL Voice é que ele funcionará em tempo real, o que é importante pois muitos serviços de “tradução por IA” no mercado efetivamente funcionam com um atraso, tornando-os mais difíceis ou impossíveis de usar em situações ao vivo, que é o caso que a DeepL está abordando.

Videoconferências e reuniões são prováveis casos de uso para o DeepL Voice, mas Kutylowski notou que outro grande caso que a empresa imagina é no serviço de atendimento ao cliente, onde trabalhadores linha de frente em, por exemplo, restaurantes, poderiam usar o serviço para ajudar a se comunicar mais facilmente com os clientes.

Isso pode ser útil, mas também destaca um dos pontos críticos do serviço. Em um mundo onde todos nós estamos repentinamente mais conscientes da proteção de dados e das preocupações sobre como novos serviços e plataformas estão cooptando informações privadas ou proprietárias, ainda resta saber quão dispostos as pessoas estarão em ter suas vozes captadas e utilizadas dessa forma.

Kutylowski insistiu que, embora as vozes sejam enviadas para seus servidores para serem traduzidas (o processamento não ocorre no dispositivo), nada é retido por seus sistemas, nem usado para treinar seus LLMs. No final, a DeepL trabalhará com seus clientes para garantir que não violam o GDPR ou quaisquer outras regulamentações de proteção de dados.