DeepL se destacou com a tradução de textos online, afirmando ser mais sutil e precisa do que serviços como o do Google — uma proposta que levou a startup alemã a uma avaliação de $2 bilhões e mais de 100.000 clientes pagantes.
Agora, com o crescente interesse por serviços de IA, a DeepL está adicionando uma nova funcionalidade à sua plataforma: áudio. Os usuários poderão usar o DeepL Voice para ouvir alguém falando em um idioma e traduzi-lo automaticamente para outro, em tempo real.
Inglês, alemão, japonês, coreano, sueco, holandês, francês, turco, polonês, português, russo, espanhol e italiano são os idiomas que a DeepL pode “ouvir” hoje. As legendas traduzidas estão disponíveis para todos os 33 idiomas atualmente suportados pelo DeepL Translator.
Atualmente, o DeepL Voice não oferece a tradução como um arquivo de áudio ou vídeo: o serviço é voltado para conversas em tempo real e videoconferências, apresentando os resultados como texto, não como áudio.
Na primeira funcionalidade, você pode configurar suas traduções para aparecer como ‘espelhos’ em um smartphone — a ideia é colocar o telefone entre você e outra pessoa em uma mesa de reunião para que ambos possam ver as palavras traduzidas — ou como uma transcrição que você compartilha lado a lado com alguém. No serviço de videoconferência, as traduções aparecem como legendas.
Isso pode mudar ao longo do tempo, Jarek Kutylowski, fundador e CEO da empresa (como mostrado acima), insinuou em uma entrevista. Este é o primeiro produto de voz da DeepL, mas não deverá ser o último. “[A voz] é onde a tradução vai se desenvolver no próximo ano,” acrescentou.
Há outras evidências que apoiam essa afirmação. O Google — um dos maiores concorrentes da DeepL — também começou a incorporar legendas traduzidas em tempo real em seu serviço de videoconferência Meet. E, há uma multitude de startups de IA criando serviços de tradução de voz, como a especialista em voz AI Eleven Labs (Eleven Labs Dubbing) e a Panjaya, que cria traduções usando vozes e vídeos “deepfake” que combinam com o áudio.
Esta última usa a API da Eleven Labs e, segundo Kutylowski, a Eleven Labs em si está utilizando tecnologia da DeepL para alimentar seu serviço de tradução.
A saída em áudio não é o único recurso ainda a ser lançado.
Atualmente, não existe uma API para o produto de voz. O principal negócio da DeepL é focado em B2B, e Kutylowski disse que a empresa está trabalhando diretamente com parceiros e clientes.
Além disso, não há uma ampla gama de integrações: o único serviço de videoconferência que suporta legendas da DeepL atualmente é o Teams, que “atende à maioria dos nossos clientes,” disse Kutylowski. Não há informações sobre quando ou se o Zoom ou Google Meet incorporarão o DeepL Voice no futuro.
O produto pode parecer demorado para os usuários da DeepL, não apenas porque estamos cercados por uma infinidade de outros serviços de voz de IA voltados para tradução. Kutylowski disse que esse tem sido o pedido número um dos clientes desde 2017, ano em que a DeepL foi lançada.
Parte da razão pela qual houve a espera é que a DeepL tem adotado uma abordagem bastante deliberada na construção de seu produto. Diferente de muitos outros no mundo das aplicações de IA, que dependem e ajustam os grandes modelos de linguagem (LLMs) de outras empresas, a DeepL pretende construir seu serviço do zero. Em julho, a empresa lançou um novo LLM otimizado para traduções que afirma superar o GPT-4, além das soluções do Google e Microsoft, pois seu propósito principal é a tradução. A empresa também tem continuado a aprimorar a qualidade de sua produção escrita e glossário.
Da mesma forma, um dos pontos únicos de venda do DeepL Voice é que ele funcionará em tempo real, o que é importante pois muitos serviços de “tradução por IA” no mercado efetivamente funcionam com um atraso, tornando-os mais difíceis ou impossíveis de usar em situações ao vivo, que é o caso que a DeepL está abordando.
Videoconferências e reuniões são prováveis casos de uso para o DeepL Voice, mas Kutylowski notou que outro grande caso que a empresa imagina é no serviço de atendimento ao cliente, onde trabalhadores linha de frente em, por exemplo, restaurantes, poderiam usar o serviço para ajudar a se comunicar mais facilmente com os clientes.
Isso pode ser útil, mas também destaca um dos pontos críticos do serviço. Em um mundo onde todos nós estamos repentinamente mais conscientes da proteção de dados e das preocupações sobre como novos serviços e plataformas estão cooptando informações privadas ou proprietárias, ainda resta saber quão dispostos as pessoas estarão em ter suas vozes captadas e utilizadas dessa forma.
Kutylowski insistiu que, embora as vozes sejam enviadas para seus servidores para serem traduzidas (o processamento não ocorre no dispositivo), nada é retido por seus sistemas, nem usado para treinar seus LLMs. No final, a DeepL trabalhará com seus clientes para garantir que não violam o GDPR ou quaisquer outras regulamentações de proteção de dados.
Conteúdo relacionado
OpenAI apagou acidentalmente evidências potenciais no processo de copyright do NY Times (atualizado)
[the_ad id="145565"] Advogados do The New York Times e do Daily News, que processam a OpenAI por supostamente coletar seus trabalhos para treinar seus modelos de IA sem…
Salesforce lança o Centro de Testes Agentforce para avaliar o desempenho dos agentes
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais…
Startup de chips de IA MatX, fundada por ex-funcionários do Google, levanta Série A com avaliação de mais de $300 milhões, dizem fontes.
[the_ad id="145565"] A MatX, uma startup que desenvolve chips para suportar modelos de linguagem grandes, levantou uma rodada de investimentos Série A de aproximadamente 80…