A MLCommons, um grupo de trabalho sem fins lucrativos focado em segurança de IA, uniu forças com a plataforma de desenvolvimento de IA Hugging Face para lançar uma das maiores coleções de gravações de voz de domínio público do mundo para pesquisa em IA.
O conjunto de dados, chamado Unsupervised People’s Speech, contém mais de um milhão de horas de áudio abrangendo pelo menos 89 idiomas. A MLCommons afirma que foi motivada a criá-lo pelo desejo de apoiar P&D em “várias áreas da tecnologia de fala.”
“Apoiar pesquisas mais amplas em processamento de linguagem natural para idiomas além do inglês ajuda a levar tecnologias de comunicação a mais pessoas em todo o mundo,” escreveu a organização em um postagem de blog na quinta-feira. “Prevemos várias avenidas para que a comunidade de pesquisa continue a construir e desenvolver, especialmente nas áreas de melhorar modelos de fala para idiomas de baixo recurso, reconhecimento de fala aprimorado em diferentes sotaques e dialetos, e aplicações inovadoras em síntese de fala.”
É um objetivo admirável, sem dúvida. Mas conjuntos de dados de IA como o Unsupervised People’s Speech podem trazer riscos para os pesquisadores que optam por usá-los.
Dados enviesados são um desses riscos. As gravações no Unsupervised People’s Speech foram obtidas do Archive.org, a organização sem fins lucrativos talvez mais conhecida pela ferramenta de arquivamento web Wayback Machine. Como muitos dos colaboradores do Archive.org falam inglês — e são americanos — quase todas as gravações no Unsupervised People’s Speech são em inglês com sotaque americano, de acordo com o readme na página do projeto oficial.
Isso significa que, sem um filtragem cuidadosa, sistemas de IA como modelos de reconhecimento de fala e sintetizadores de voz treinados com o Unsupervised People’s Speech poderiam exibir alguns dos mesmos preconceitos. Eles poderiam, por exemplo, ter dificuldades para transcrever inglês falado por um falante não nativo, ou ter problemas para gerar vozes sintéticas em idiomas que não sejam o inglês.
O Unsupervised People’s Speech também pode conter gravações de pessoas não cientes de que suas vozes estão sendo usadas para fins de pesquisa em IA — incluindo aplicações comerciais. Embora a MLCommons afirme que todas as gravações no conjunto de dados são de domínio público ou disponíveis sob licenças Creative Commons, existe a possibilidade de que erros tenham sido cometidos.
De acordo com uma análise do MIT, centenas de conjuntos de dados de treinamento de IA disponíveis publicamente carecem de informações de licenciamento e contêm erros. Defensores dos criadores, incluindo Ed Newton-Rex, CEO da organização sem fins lucrativos focada em ética em IA Fairly Trained, argumentaram que os criadores não deveriam ser obrigados a “optar por não participar” de conjuntos de dados de IA devido ao ônus que isso impõe a esses criadores.
“Muitos criadores (por exemplo, usuários do Squarespace) não têm uma maneira significativa de optar por não participar,” escreveu Newton-Rex em uma postagem no X no ano passado. “Para criadores que podem optar por não participar, existem múltiplos métodos de opt-out sobrepostos, que são (1) incrivelmente confusos e (2) inadequados em sua cobertura. Mesmo que um sistema universal de opt-out perfeito existisse, seria extremamente injusto impor a carga do opt-out aos criadores, considerando que a IA gerativa usa seu trabalho para competir com eles — muitos simplesmente não perceberiam que poderiam optar por não participar.”
A MLCommons afirma que está comprometida em atualizar, manter e melhorar a qualidade do Unsupervised People’s Speech. Mas, dadas as potenciais falhas, seria prudente que os desenvolvedores exercessem cautela séria.
Conteúdo relacionado
A Convicção da Guo Partners adiciona Mike Vernal como GP e arrecada fundo de 230 milhões de dólares
[the_ad id="145565"] Quando, em meados de 2022, Sarah Guo deixou a Greylock para lançar seu próprio fundo focado em IA, Conviction Partners, ela indicou que estava adicionando…
Sam Altman admite que a OpenAI estava ‘do lado errado da história’ no debate sobre código aberto.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais…
Centenas de empresas estão bloqueando o DeepSeek devido aos riscos de dados na China
[the_ad id="145565"] A DeepSeek fez sucesso nos EUA esta semana: o chatbot da empresa chinesa alcançou o topo das lojas Apple e Play, enquanto grandes provedores de nuvem dos…