Bolt42

Embora os dados sintéticos sejam uma ferramenta poderosa, eles só conseguem reduzir as alucinações de inteligência artificial em circunstâncias específicas. Na maioria dos outros casos, eles tendem a amplificá-las. Por que isso acontece? O que esse fenômeno significa para aqueles que investiram nessa tecnologia? 

Como os Dados Sintéticos São Diferentes dos Dados Reais?

Dados sintéticos são informações geradas por IA. Em vez de serem coletados a partir de eventos ou observações do mundo real, são produzidos artificialmente. No entanto, se assemelham o suficiente ao original para produzir resultados precisos e relevantes. Essa é a ideia, pelo menos.  

Para criar um conjunto de dados artificial, engenheiros de IA treinam um algoritmo generativo em um banco de dados relacional real. Quando solicitado, ele produz um segundo conjunto que espelha de perto o primeiro, mas não contém informações genuínas. Enquanto as tendências gerais e propriedades matemáticas permanecem intactas, há ruído suficiente para mascarar as relações originais. 

Um conjunto de dados gerado por IA vai além da desidentificação, replicando a lógica subjacente das relações entre os campos em vez de simplesmente substituir campos por alternativas equivalentes. Como não contém detalhes identificáveis, as empresas podem usá-lo para contornar regulamentos de privacidade e direitos autorais. Mais importante, podem compartilhá-lo ou distribuí-lo livremente sem medo de uma violação. 

No entanto, informações falsas são mais comumente utilizadas para suplementação. As empresas podem utilizá-las para enriquecer ou expandir tamanhos de amostra que são muito pequenos, tornando-os grandes o suficiente para treinar sistemas de IA de forma eficaz. 

Os Dados Sintéticos Minimizam Alucinações de IA?

Às vezes, algoritmos fazem referência a eventos inexistentes ou fazem sugestões logicamente impossíveis. Essas alucinações são frequentemente sem sentido, enganosas ou incorretas. Por exemplo, um grande modelo de linguagem pode escrever um artigo sobre como domesticar leões ou sobre como se tornar médico aos 6 anos. No entanto, elas não são todas tão extremas, o que pode dificultar o reconhecimento delas. 

Se devidamente curada, a dados artificiais pode mitigar esses incidentes. Um banco de dados de treinamento relevante e autêntico é a base para qualquer modelo, então faz sentido que quanto mais detalhes alguém tiver, mais preciso será o resultado do modelo. Um conjunto de dados suplementar permite escalabilidade, mesmo para aplicações nichadas com informações públicas limitadas. 

Desviando viés é outra maneira pela qual um banco de dados sintético pode minimizar as alucinações de IA. De acordo com a MIT Sloan School of Management, ele pode ajudar a abordar o viés pois não está limitado ao tamanho da amostra original. Profissionais podem usar detalhes realistas para preencher as lacunas onde determinadas subpopulações estão sub ou super-representadas. 

Como os Dados Artificiais Agravam as Alucinações

Como os algoritmos inteligentes não conseguem raciocinar ou contextualizar informações, eles estão propensos a alucinações. Modelos generativos — em particular, os grandes modelos de linguagem pré-treinados — são especialmente vulneráveis. De algumas formas, os fatos artificiais exacerbam o problema. 

A Amplificação de Viés

Assim como os humanos, a IA pode aprender e reproduzir preconceitos. Se um banco de dados artificial valoriza excessivamente alguns grupos enquanto subrepresenta outros — o que é preocupantemente fácil de fazer acidentalmente — sua lógica de tomada de decisões ficará distorcida, afetando negativamente a precisão da saída. 

Um problema semelhante pode surgir quando as empresas utilizam dados falsos para eliminar preconceitos do mundo real, pois isso pode não refletir mais a realidade. Por exemplo, uma vez que mais de 99% dos cânceres de mama ocorrem em mulheres, usar informações suplementares para equilibrar a representação pode distorcer diagnósticos.

Alucinações Interseccionais

A interseccionalidade é uma estrutura sociológica que descreve como demografias como idade, gênero, raça, ocupação e classe se cruzam. Analisa como as identidades sociais sobrepostas dos grupos resultam em combinações únicas de discriminação e privilégio.

Quando um modelo generativo é solicitado a produzir detalhes artificiais com base no que foi treinado, pode gerar combinações que não existiam no original ou que são logicamente impossíveis.

Ericka Johnson, professora de gênero e sociedade na Universidade de Linköping, trabalhou com um cientista de machine learning para demonstrar esse fenômeno. Eles usaram uma rede adversarial generativa para criar versões sintéticas de figuras do censo dos Estados Unidos de 1990. 

Imediatamente, eles notaram um problema flagrante. A versão artificial tinha categorias intituladas “esposa e solteira” e “maridos nunca casados”, ambas alucinações interseccionais.

Sem a curadoria adequada, o banco de dados replicado sempre superapresentará subpopulações dominantes em conjuntos de dados enquanto subrepresenta — ou até exclui — grupos sub-representados. Casos extremos e outliers podem ser ignorados completamente em favor de tendências dominantes. 

Colapso do Modelo 

Uma dependência excessiva de padrões e tendências artificiais leva ao colapso do modelo — onde o desempenho de um algoritmo se deteriora drasticamente à medida que se torna menos adaptável a observações e eventos do mundo real. 

Esse fenômeno é particularmente evidente na IA generativa de próxima geração. Usar repetidamente uma versão artificial para treiná-las resulta em um ciclo autossustentável. Um estudo descobriu que sua qualidade e recordação diminuem progressivamente sem dados reais suficientes e recentes em cada geração.

Overfitting

Overfitting é uma dependência excessiva de dados de treinamento. O algoritmo se sai bem inicialmente, mas alucina quando apresentado a novos pontos de dados. Informações sintéticas podem exacerbar esse problema se não refletirem com precisão a realidade. 

As Implicações do Uso Contínuo de Dados Sintéticos

O mercado de dados sintéticos está em expansão. Empresas neste setor de nicho levantaram cerca de $328 milhões em 2022, em comparação com $53 milhões em 2020 — um aumento de 518% em apenas 18 meses. Vale ressaltar que esses são apenas os fundos publicamente conhecidos, o que significa que o valor real pode ser ainda maior. É seguro afirmar que as empresas estão extremamente investidas nessa solução. 

Se as empresas continuarem utilizando um banco de dados artificial sem a curadoria e desvio adequados, o desempenho de seus modelos diminuirá progressivamente, prejudicando seus investimentos em IA. Os resultados podem ser mais severos, dependendo da aplicação. Por exemplo, na saúde, um aumento nas alucinações pode resultar em diagnósticos errados ou planos de tratamento inadequados, levando a piores resultados para os pacientes.

A Solução Não Envolverá o Retorno aos Dados Reais

Sistemas de IA precisam de milhões, senão bilhões, de imagens, textos e vídeos para treinamento, muitos dos quais são extraídos de sites públicos e compilados em grandes conjuntos de dados abertos. Infelizmente, os algoritmos consomem essas informações mais rápido do que os humanos podem gerá-las. O que acontece quando eles aprendem tudo?

Líderes empresariais estão preocupados em atingir o muro de dados — o ponto em que todas as informações públicas na internet foram esgotadas. Pode ser que isso esteja se aproximando mais rápido do que pensam. 

Embora tanto a quantidade de texto em média em uma página de web crawl quanto o número de usuários da internet estejam crescendo de 2% a 4% anualmente, os algoritmos estão ficando sem dados de alta qualidade. Apenas 10% a 40% podem ser utilizados para treinamento sem comprometer o desempenho. Se as tendências continuarem, o estoque de informações públicas geradas por humanos pode acabar até 2026.

É provável que o setor de IA atinja o muro de dados ainda mais cedo. O boom da IA generativa dos últimos anos aumentou as tensões sobre a propriedade da informação e a violação de direitos autorais. Mais proprietários de sites estão usando o Protocolo de Exclusão de Robôs — um padrão que usa um arquivo robots.txt para bloquear rastreadores web — ou deixando claro que seu site está fora dos limites. 

Um estudo de 2024 publicado por um grupo de pesquisa liderado pelo MIT revelou que as restrições sobre o conjunto de dados Colossal Cleaned Common Crawl (C4) — um grande corpus de crawls da web — estão aumentando. Mais de 28% das fontes críticas mais ativas no C4 estão totalmente restritas. Além disso, 45% do C4 agora é designado como fora dos limites pelos termos de serviço. 

Se as empresas respeitarem essas restrições, a frescura, relevância e precisão dos fatos públicos do mundo real diminuirão, forçando-as a depender de bancos de dados artificiais. Elas podem não ter muita escolha se os tribunais decidirem que qualquer alternativa é uma violação de direitos autorais. 

O Futuro dos Dados Sintéticos e das Alucinações de IA

À medida que as leis de direitos autorais se modernizam e mais proprietários de sites escondem seu conteúdo de rastreadores web, a geração de conjuntos de dados artificiais se tornará cada vez mais popular. As organizações precisam se preparar para enfrentar a ameaça das alucinações. 


    cinco × um =

    Bolt42