A qualidade das vozes geradas por IA é suficientemente boa para criar audiolivros e podcasts, ler artigos em voz alta e oferecer suporte ao cliente básico. No entanto, muitas empresas não acham que a tecnologia de voz por IA é suficientemente confiável para ser implementada.
Foi por isso que dois graduados do MIT, Moin Nadeem e Nikhil Murthy, fundaram a Phonic, uma empresa que oferece um sistema completo de voz para aumentar a confiabilidade da voz sintética enquanto reduz a latência.
Nadeem e Murthy se conheceram no MIT e estão juntos há mais de sete anos. Quando a dupla começou a construir a Phonic no ano passado, sentiram que havia poucas empresas desenvolvendo soluções de tecnologia de voz completas.
“A IA de voz está em um ponto onde você junta diferentes partes, como reconhecimento de voz automático [e] conversão de texto em fala, e [então integra] inteligência”, disse Murthy ao TechCrunch. “No entanto, quando conversamos com clientes reais, descobrimos que há uma falta de [soluções] que [sejam] confiáveis em escala.”
Nadeem, que trabalhou anteriormente na MosaicML, uma empresa adquirida pela Databricks por $1,3 bilhão em 2023, afirmou que muitas empresas que atuam no espaço da IA de voz (por exemplo, Vapi, Rounded) estão criando fluxos de trabalho para reunir modelos de IA separados.
A Phonic adota uma abordagem diferente: treina seus modelos internamente de forma integral. Murthy afirmou que isso traz algumas vantagens.
“Possuir os modelos nos permite integrar profundamente algumas […] peças de confiabilidade nos [próprios modelos]”, disse ele. “Se você não possui essa camada […] você está apenas unindo peças díspares que não se encaixam de forma contínua.”
Murthy acrescentou que o método da Phonic também permite à empresa hospedar e executar modelos de forma econômica. Ele afirma que a Phonic treina seus modelos com uma variedade de gravações, incluindo gravações de fala acentuada e abafada, para torná-los altamente robustos.
A Phonic está atualmente trabalhando com um conjunto limitado de parceiros, incluindo empresas nos setores de seguros e saúde, mas planeja lançar seu produto amplamente em alguns meses. Em breve, clientes em potencial poderão experimentar a tecnologia da Phonic em seu site, disse Nadeem.
A Phonic levantou $4 milhões em uma rodada inicial liderada pela Lux, com a participação do cofundador da Replit, Amjad Masad, do cofundador da Hugging Face, Clem Delangue, do cofundador da Applied Intuition, Qasar Younis, e do fundador da Modal Labs, Erik Bernhardsson.
Grace Isford, parceira da Lux Capital, afirmou que a maneira interna da empresa de treinar modelos foi atraente para a firma de investimento.
“Nós achamos que tanto o Moin quanto o Nikhil são tecnólogos incríveis”, disse ele. “Eles fundaram um clube de aprendizado de máquina no MIT. E eles têm trabalhado em treinamento de modelos há um bom tempo. Além disso, a abordagem deles de combinar diffusions e modelos proprietários no setor de IA de voz é nova.
Conteúdo relacionado
Devin, o agente de IA para programação viral, lança um novo plano pay-as-you-go
[the_ad id="145565"] A Cognition, a startup por trás da ferramenta viral de programação AI Devin, lançou um novo plano de baixo custo para incentivar inscrições. Quando a…
Adolescente com GPA de 4.0 que criou o aplicativo Cal AI viral foi rejeitado por 15 universidades de elite
[the_ad id="145565"] Zach Yadegari, o adolescente cofundador da Cal AI, está recebendo uma avalanche de comentários no X após revelar que, entre as 18 melhores faculdades para…
A Intel e a TSMC estão supostamente lançando uma joint venture de fabricação de chips.
[the_ad id="145565"] Gigantes do semicondutor, Intel e TSMC, estão supostamente se unindo. As duas empresas teriam alcançado um acordo preliminar para criar uma joint venture…