Bolt42

ElevenLabs, uma startup que fornece clonagem de voz com IA e uma API de texto-para-fala, lançou na segunda-feira a capacidade de construir bots de IA conversacional.

A empresa anunciou que os usuários agora podem criar agentes conversacionais completos na plataforma de desenvolvedores da ElevenLabs, com variáveis personalizáveis, como tom de voz e comprimento da resposta.

A ElevenLabs tem trabalhado principalmente em fornecer diferentes vozes e ferramentas de IA para serviços de texto-para-fala. O chefe de crescimento da empresa, Sam Sklar, contou ao TechCrunch que muitos de seus clientes já estavam usando essa capacidade para criar agentes de IA conversacional. No entanto, as partes mais difíceis eram integrar a base de conhecimentos e lidar com interrupções dos clientes. Por isso, a empresa decidiu construir um pipeline completo para bots conversacionais.

Os usuários podem fazer login em suas contas da ElevenLabs e começar a construir um agente conversacional selecionando um modelo ou criando um novo projeto. Eles podem escolher o idioma principal do agente, a primeira mensagem e o prompt do sistema para determinar a persona do agente. Os desenvolvedores também precisam selecionar um grande modelo de linguagem (Gemini, GPT ou Claude), a temperatura das respostas (para determinar quão criativa a resposta deve ser) e o limite de uso de tokens.

Além disso, eles podem ajustar outros aspectos como voz, latência, estabilidade, critérios de autenticação e comprimento máximo da conversação com o agente de IA.

Os usuários podem adicionar sua própria base de conhecimentos, como um arquivo, URL ou bloco de texto, para potencializar o bot conversacional. Além disso, podem integrar seu próprio LLM personalizado com o bot. O SDK da ElevenLabs é compatível com Python, JavaScript, React e Swift. A empresa também oferece uma API WebSocket para mais personalização.

As empresas também podem definir critérios para coletar certos itens de dados — por exemplo, nome e e-mail dos clientes que falam com o agente — juntamente com critérios de avaliação em linguagem natural para definir o sucesso ou fracasso da chamada.

A ElevenLabs está aproveitando seu pipeline existente para a parte de texto-para-fala. A empresa precisa desenvolver capacidades de fala-para-texto para o novo produto de IA conversacional. No momento, a empresa não está oferecendo sua API de fala-para-texto como um produto autônomo, mas isso pode acontecer no futuro, tornando-se uma concorrente das APIs de fala-para-texto do Google, Microsoft e Amazon, assim como de APIs especializadas, como OpenAI’s Whisper, AssemblyAI, Deepgram, Speechmatics e Gladia.

A empresa, que visa levantar novos fundos com uma avaliação superior a $3 bilhões, também compete com outras startups de IA de voz, como Vapi e Retell — que também estão construindo agentes conversacionais. Mais notavelmente, a empresa rivaliza com a API conversacional em tempo real da OpenAI. No entanto, a ElevenLabs acredita que suas personalizações e a capacidade de trocar de modelos lhe darão uma vantagem sobre a OpenAI.


    9 + six =

    Bolt42