Participe das nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA de ponta. Saiba mais
Os modelos de reconhecimento de fala têm se tornado cada vez mais precisos nos últimos anos. No entanto, muitas vezes são construídos e avaliados em condições ideais—salas silenciosas, áudio claro e vocabulário de uso geral. Para as empresas, no entanto, o áudio do mundo real é muito mais complicado.
Esse é o desafio que a aiOla busca resolver com o lançamento do Jargonic, seu novo sistema de reconhecimento automático de fala (ASR) desenvolvido especificamente para uso empresarial. A startup israelense está apresentando o Jargonic hoje.
Jargonic é um novo modelo de conversão de fala em texto projetado para lidar com jargões especializados, ruídos de fundo e diversos sotaques sem necessidade de reeducação ou ajuste extensivo.
“Nosso modelo foca em três desafios principais no reconhecimento de fala: jargão, ruído de fundo e sotaques,” disse Gill Hetz, vice-presidente de IA da aiOla. “Construímos um modelo que entende jargões específicos da indústria de forma zero-shot, lida com ambientes barulhentos e suporta uma ampla gama de sotaques.”
Disponível agora via API na plataforma empresarial da aiOla, o Jargonic é posicionado como uma solução ASR pronta para produção para empresas em indústrias como manufatura, logística, serviços financeiros e saúde.

De um produto centrado em IA primeiro
O lançamento do Jargonic representa uma mudança de foco para a própria aiOla. De acordo com a liderança da empresa, a equipe redefiniu sua abordagem para priorizar a pesquisa e a implementação de IA.
“Quando cheguei aqui, vi uma empresa de produtos incrível que investiu fortemente em capacidades avançadas de IA, mas que era mais conhecida por ajudar as pessoas a preencher formulários,” disse Assaf Asbag, Diretor de Tecnologia e Produto da aiOla. “Mudamos a perspectiva e nos tornamos uma empresa de IA com um ótimo produto, em vez de uma empresa de produtos com capacidades de IA.”
“Decidimos abrir nossas capacidades para o mundo,” acrescentou Asbag. “Em vez de servir nosso modelo apenas para empresas dentro de nosso produto, desenvolvemos uma API e agora estamos lançando para tornar nosso modelo à prova de falhas e de nível empresarial disponível para todos.”
Reconhecimento de jargão, adaptação zero-shot
Uma das características distintivas do Jargonic é sua abordagem ao vocabulário especializado. Sistemas de reconhecimento de fala tipicamente enfrentam dificuldades quando confrontados com jargões específicos de domínio que não aparecem nos dados de treinamento padrão. O Jargonic aborda esse desafio com um sistema de reconhecimento de palavras-chave proprietário que permite a adaptação zero-shot—as empresas podem simplesmente fornecer uma lista de termos sem nenhum treinamento adicional.
Em testes de referência, o Jargonic demonstrou uma taxa média de erro de palavras (WER) de 5,91% em quatro conjuntos de dados acadêmicos em inglês, superando concorrentes como Eleven Labs, Assembly AI, Whisper da OpenAI e Nova-3 da Deepgram.
No entanto, a empresa ainda não divulgou comparações de desempenho especificamente contra modelos de transcrição multimodal mais novos, como o GPT-4o-transcribe da OpenAI, que foi lançado há nove dias, exibindo um desempenho superior em benchmarks, com apenas 2,46% em inglês. A aiOla afirma que seu modelo ainda é melhor em reconhecer jargões empresariais específicos.

O Jargonic também alcançou uma taxa de recall de 89,3% em termos financeiros especializados e superou consistentemente outros sistemas no reconhecimento de jargão multilíngue, alcançando mais de 95% de precisão em cinco idiomas.

“Uma vez que você introduz um jargão intenso, a precisão do reconhecimento normalmente cai em 20%,” explicou Asbag. “Mas com nossa abordagem zero-shot, em que você simplesmente lista palavras-chave importantes, a precisão se recupera para 95%. Isso é exclusivo para nós.”

Essa capacidade foi projetada para eliminar o processo intensivo de tempo e recursos de reeducação normalmente necessário para adaptar sistemas ASR para indústrias específicas.
Otimizados para o ambiente empresarial
O desenvolvimento do Jargonic foi informado por anos de experiência construindo soluções para clientes empresariais. O modelo foi treinado com mais de um milhão de horas de fala transcrita, incluindo dados significativos de ambientes industriais e de negócios, garantindo robustez em configurações reais e barulhentas.
“O que nos diferencia é que passamos anos resolvendo problemas reais de empresas,” disse Hetz. “Otimizar para velocidade, precisão e a capacidade de lidar com ambientes complexos—not apenas podcasts ou vídeos, mas locais de trabalho barulhentos e bagunçados.”
A arquitetura do modelo integra o reconhecimento de palavras-chave diretamente no processo de transcrição, permitindo que o Jargonic mantenha a precisão mesmo em condições de áudio imprevisíveis.
O futuro centrado na voz
Para a liderança da aiOla, o Jargonic é um passo em direção a uma mudança mais ampla em como as pessoas interagem com a tecnologia. A empresa vê o reconhecimento de fala não apenas como uma ferramenta de negócios, mas como uma interface essencial para o futuro da interação humano-computador.
“Nossa visão é que cada interface de máquina será em breve centrada na voz,” disse Hetz. “Você poderá falar com sua geladeira, seu aspirador, qualquer máquina—e ela agirá e fará o que você quiser. Esse é o futuro que estamos construindo.”
Asbag ecoou esse sentimento, acrescentando: “A IA conversacional se tornará o novo navegador da web. As máquinas estão começando a nos entender, e agora temos um motivo para interagir com elas de forma natural.”
Por enquanto, o foco da aiOla permanece na empresa. O Jargonic está disponível imediatamente para clientes empresariais via API, permitindo que integrem as capacidades de reconhecimento de fala do modelo em seus próprios fluxos de trabalho, aplicativos ou serviços voltados para o cliente.
Insights diários sobre casos de uso empresarial com o VB Daily
Se você deseja impressionar seu chefe, o VB Daily tem tudo o que você precisa. Oferecemos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
A OpenAI busca reunir um grupo para aconselhar sobre seus objetivos sem fins lucrativos.
[the_ad id="145565"] Enquanto se prepara para fazer a transição de uma corporação sem fins lucrativos para uma com fins lucrativos, a OpenAI afirma que está convenindo um grupo…
Como a Amex utiliza IA para aumentar a eficiência: 40% menos escalonamentos de TI e 85% de aumento na assistência ao viajante.
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais A…
O modelo o3 da OpenAI pode ser mais caro de operar do que originalmente estimado.
[the_ad id="145565"] Quando a OpenAI revelou seu modelo de IA “reasoning” o3 em dezembro, a empresa se uniu aos criadores do ARC-AGI, um benchmark projetado para testar IAs…