Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder na indústria. Saiba mais


Empresas que buscam usar modelos de IA para transcrever áudio, especificamente a fala humana, de executivos, funcionários e clientes, podem estar receosas com a ideia de um programa de IA ouvindo e gravando informações sensíveis.

No entanto, a startup israelense de IA de áudio aiOla possui um novo modelo que aborda essa preocupação. Baseado no modelo open source padrão da indústria, o Whisper da OpenAI, o novo Whisper-NER da aiOla é totalmente open source e já está disponível no Hugging Face e no Github para que empresas, organizações e indivíduos possam usar, adaptar, modificar e implementar.

Ele integra reconhecimento automático de fala (ASR) com reconhecimento de entidades nomeadas (NER). Essa inovação visa melhorar a privacidade, identificando e mascarando automaticamente informações sensíveis, como nomes, números de telefone e endereços, durante o processo de transcrição.

Um modelo de demonstração está disponível para os usuários experimentarem no Hugging Face, permitindo que gravem trechos de fala e façam o modelo mascarar palavras específicas que digitarem na transcrição resultante. O modelo teve um bom desempenho em meu breve teste de mascarar a palavra “VentureBeat” na minha fala, que é um nome próprio e jargão.

Whisper-NER aborda um desafio significativo na transcrição de conteúdo falado: assegurar a privacidade e a conformidade com as regulamentações de proteção de dados. O modelo processa arquivos de áudio e aplica simultaneamente NER para taguear ou mascarar tipos específicos de informações sensíveis diretamente no pipeline de transcrição. Ao contrário de sistemas tradicionais de múltiplas etapas, que deixam os dados expostos durante as fases de processamento intermediárias, o Whisper-NER elimina a necessidade de ferramentas separadas de ASR e NER, reduzindo a vulnerabilidade a violações.

“Desenhamos isso como uma ferramenta open source para avançar na privacidade em IA”, disse Gill Hetz, Vice-Presidente de Pesquisa da aiOla, em uma recente entrevista por videoconferência com o VentureBeat. “Isso ajuda os usuários a mascarar dados sensíveis sem precisar de etapas de software adicionais.”

Anteriormente, a aiOla foi reconhecida por lançar variantes do Whisper que podiam reconhecer de forma precisa e confiável jargões específicos de setores e transcrevê-los, além de um modelo de reconhecimento de fala e conversão de fala em texto muito mais rápido.

Totalmente Open Source para Uso Comunitário e Comercial

Whisper-NER é totalmente open source e está disponível sob a Licença MIT, permitindo que os usuários adotem, modifiquem e implementem livremente, inclusive para aplicações comerciais.

O modelo pode ser acessado no GitHub e Hugging Face, garantindo que suas capacidades avançadas estejam amplamente disponíveis. Uma demonstração também é fornecida para ajudar os usuários a explorar sua funcionalidade e adaptabilidade.

A liberação do código aberto está alinhada com a filosofia da aiOla de fomentar a colaboração e a inovação.

“A IA avança quando as pessoas colaboram,” disse Hetz. “É por isso que tornamos esse modelo open source—para encorajar a adoção e a melhoria pela comunidade.”

Inovação em Fala e Privacidade de Dados

Baseado na estrutura Whisper da OpenAI, o Whisper-NER foi treinado em um conjunto de dados sintético combinando fala sintética e conjuntos de dados NER baseados em texto. Essa abordagem única de treinamento permitiu que o modelo lidasse simultaneamente com tarefas de transcrição e reconhecimento de entidades, oferecendo precisão superior.

“Em vez de separar a transcrição ASR e a extração de entidades NLP [processamento de linguagem natural], resolvemos ambos em um bloco,” disse Hetz. “Ao extrair texto, o modelo identifica simultaneamente as entidades especificadas.”

Essa abordagem integrada, descrita em um artigo de pesquisa publicado no site de acesso aberto e não revisado por pares arXiv.org, não apenas simplifica fluxos de trabalho, mas também melhora significativamente a segurança dos dados.

Além disso, o Whisper-NER suporta aprendizado zero-shot, permitindo que ele reconheça e masque tipos de entidades que não foram explicitamente incluídos durante o treinamento.

A flexibilidade do Whisper-NER o torna adequado para uma variedade de casos de uso, incluindo monitoramento de conformidade, gestão de inventário, garantia de qualidade e mais.

Para aplicações que não requerem mascaramento, o modelo pode ser configurado para simplesmente marcar entidades sensíveis, oferecendo opções personalizáveis para atender às necessidades das organizações.

“Indústrias altamente reguladas, como saúde e lei, se beneficiam mais de nossa abordagem focada na privacidade, mas até mesmo empresas com dados sensíveis limitados podem usar essa tecnologia,” disse Hetz.

IA Ética e Adaptabilidade

Whisper-NER representa um avanço no desenvolvimento ético da IA, permitindo transcrições seguras e focadas na privacidade. Sua disponibilidade como open-source garante que desenvolvedores, pesquisadores e organizações possam incorporar o modelo livremente em suas operações. Ao reduzir os riscos associados a violações de dados, alinha-se à crescente demanda por soluções de IA seguras em indústrias como saúde, legal e atendimento ao cliente.

“Esta versão, construída sobre o Whisper, é melhor para inglês, mas suporta vários idiomas. Contribuintes open-source podem adaptá-la ainda mais para diversos idiomas e jargões,” explicou Hetz. A aiOla incentiva contribuições globais para ampliar o alcance e a funcionalidade do modelo.

Com o Whisper-NER agora disponível ao público, a aiOla reafirma seu compromisso em criar ferramentas de IA responsáveis que priorizam a privacidade e a segurança do usuário, enquanto promovem colaboração e inovação por meio de acesso aberto.





    1 × one =




    Bolt42