ElevenLabs, uma startup que fornece clonagem de voz com IA e uma API de texto-para-fala, lançou na segunda-feira a capacidade de construir bots de IA conversacional.
A empresa anunciou que os usuários agora podem criar agentes conversacionais completos na plataforma de desenvolvedores da ElevenLabs, com variáveis personalizáveis, como tom de voz e comprimento da resposta.
A ElevenLabs tem trabalhado principalmente em fornecer diferentes vozes e ferramentas de IA para serviços de texto-para-fala. O chefe de crescimento da empresa, Sam Sklar, contou ao TechCrunch que muitos de seus clientes já estavam usando essa capacidade para criar agentes de IA conversacional. No entanto, as partes mais difíceis eram integrar a base de conhecimentos e lidar com interrupções dos clientes. Por isso, a empresa decidiu construir um pipeline completo para bots conversacionais.
Os usuários podem fazer login em suas contas da ElevenLabs e começar a construir um agente conversacional selecionando um modelo ou criando um novo projeto. Eles podem escolher o idioma principal do agente, a primeira mensagem e o prompt do sistema para determinar a persona do agente. Os desenvolvedores também precisam selecionar um grande modelo de linguagem (Gemini, GPT ou Claude), a temperatura das respostas (para determinar quão criativa a resposta deve ser) e o limite de uso de tokens.
Além disso, eles podem ajustar outros aspectos como voz, latência, estabilidade, critérios de autenticação e comprimento máximo da conversação com o agente de IA.
Os usuários podem adicionar sua própria base de conhecimentos, como um arquivo, URL ou bloco de texto, para potencializar o bot conversacional. Além disso, podem integrar seu próprio LLM personalizado com o bot. O SDK da ElevenLabs é compatível com Python, JavaScript, React e Swift. A empresa também oferece uma API WebSocket para mais personalização.
As empresas também podem definir critérios para coletar certos itens de dados — por exemplo, nome e e-mail dos clientes que falam com o agente — juntamente com critérios de avaliação em linguagem natural para definir o sucesso ou fracasso da chamada.
A ElevenLabs está aproveitando seu pipeline existente para a parte de texto-para-fala. A empresa precisa desenvolver capacidades de fala-para-texto para o novo produto de IA conversacional. No momento, a empresa não está oferecendo sua API de fala-para-texto como um produto autônomo, mas isso pode acontecer no futuro, tornando-se uma concorrente das APIs de fala-para-texto do Google, Microsoft e Amazon, assim como de APIs especializadas, como OpenAI’s Whisper, AssemblyAI, Deepgram, Speechmatics e Gladia.
A empresa, que visa levantar novos fundos com uma avaliação superior a $3 bilhões, também compete com outras startups de IA de voz, como Vapi e Retell — que também estão construindo agentes conversacionais. Mais notavelmente, a empresa rivaliza com a API conversacional em tempo real da OpenAI. No entanto, a ElevenLabs acredita que suas personalizações e a capacidade de trocar de modelos lhe darão uma vantagem sobre a OpenAI.
Conteúdo relacionado
Um laboratório chinês lançou um modelo de IA de ‘raciocínio’ para rivalizar com o o1 da OpenAI.
[the_ad id="145565"] Um laboratório chinês revelou o que parece ser um dos primeiros modelos de IA de "raciocínio" a rivalizar com o o1 da OpenAI. Na quarta-feira, DeepSeek,…
H, a startup de IA que arrecadou R$ 220 milhões, lança seu primeiro produto: Runner H para aplicações ‘agenitcas’
[the_ad id="145565"] H, a startup parisiense fundada por ex-alunos do Google, causou um grande alvoroço no verão passado quando, de forma inesperada, anunciou uma rodada de…
Esta Semana em IA: Comissão do Congresso alerta sobre AGI da China
[the_ad id="145565"] Oi, pessoal, bem-vindos ao boletim informativo regular de IA da TechCrunch. Se você deseja recebê-lo em sua caixa de entrada todas as quartas-feiras,…