MLCommons e Hugging Face se unem para lançar um massive dataset de fala para pesquisa em IA

A MLCommons, um grupo de trabalho sem fins lucrativos focado em segurança de IA, uniu forças com a plataforma de desenvolvimento de IA Hugging Face para lançar uma das maiores coleções de gravações de voz de domínio público do mundo para pesquisa em IA.

O conjunto de dados, chamado Unsupervised People’s Speech, contém mais de um milhão de horas de áudio abrangendo pelo menos 89 idiomas. A MLCommons afirma que foi motivada a criá-lo pelo desejo de apoiar P&D em “várias áreas da tecnologia de fala.”

“Apoiar pesquisas mais amplas em processamento de linguagem natural para idiomas além do inglês ajuda a levar tecnologias de comunicação a mais pessoas em todo o mundo,” escreveu a organização em um postagem de blog na quinta-feira. “Prevemos várias avenidas para que a comunidade de pesquisa continue a construir e desenvolver, especialmente nas áreas de melhorar modelos de fala para idiomas de baixo recurso, reconhecimento de fala aprimorado em diferentes sotaques e dialetos, e aplicações inovadoras em síntese de fala.”

É um objetivo admirável, sem dúvida. Mas conjuntos de dados de IA como o Unsupervised People’s Speech podem trazer riscos para os pesquisadores que optam por usá-los.

Dados enviesados são um desses riscos. As gravações no Unsupervised People’s Speech foram obtidas do Archive.org, a organização sem fins lucrativos talvez mais conhecida pela ferramenta de arquivamento web Wayback Machine. Como muitos dos colaboradores do Archive.org falam inglês — e são americanos — quase todas as gravações no Unsupervised People’s Speech são em inglês com sotaque americano, de acordo com o readme na página do projeto oficial.

Isso significa que, sem um filtragem cuidadosa, sistemas de IA como modelos de reconhecimento de fala e sintetizadores de voz treinados com o Unsupervised People’s Speech poderiam exibir alguns dos mesmos preconceitos. Eles poderiam, por exemplo, ter dificuldades para transcrever inglês falado por um falante não nativo, ou ter problemas para gerar vozes sintéticas em idiomas que não sejam o inglês.

O Unsupervised People’s Speech também pode conter gravações de pessoas não cientes de que suas vozes estão sendo usadas para fins de pesquisa em IA — incluindo aplicações comerciais. Embora a MLCommons afirme que todas as gravações no conjunto de dados são de domínio público ou disponíveis sob licenças Creative Commons, existe a possibilidade de que erros tenham sido cometidos.

De acordo com uma análise do MIT, centenas de conjuntos de dados de treinamento de IA disponíveis publicamente carecem de informações de licenciamento e contêm erros. Defensores dos criadores, incluindo Ed Newton-Rex, CEO da organização sem fins lucrativos focada em ética em IA Fairly Trained, argumentaram que os criadores não deveriam ser obrigados a “optar por não participar” de conjuntos de dados de IA devido ao ônus que isso impõe a esses criadores.

“Muitos criadores (por exemplo, usuários do Squarespace) não têm uma maneira significativa de optar por não participar,” escreveu Newton-Rex em uma postagem no X no ano passado. “Para criadores que podem optar por não participar, existem múltiplos métodos de opt-out sobrepostos, que são (1) incrivelmente confusos e (2) inadequados em sua cobertura. Mesmo que um sistema universal de opt-out perfeito existisse, seria extremamente injusto impor a carga do opt-out aos criadores, considerando que a IA gerativa usa seu trabalho para competir com eles — muitos simplesmente não perceberiam que poderiam optar por não participar.”

A MLCommons afirma que está comprometida em atualizar, manter e melhorar a qualidade do Unsupervised People’s Speech. Mas, dadas as potenciais falhas, seria prudente que os desenvolvedores exercessem cautela séria.

Conteúdo relacionado

BusinessInteligência artificial

MLCommons e Hugging Face se unem para lançar um massive dataset de fala para pesquisa em IA

Conteúdo relacionado

ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’

De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.

Tudo o que você precisa saber sobre o chatbot de IA