Um estudo se tornou viral há alguns meses ao sugerir que, à medida que a IA se torna cada vez mais sofisticada, ela desenvolve “sistemas de valores” — sistemas que a levam a, por exemplo, priorizar seu próprio bem-estar em detrimento dos humanos. Um artigo mais recente do MIT refuta essa noção hiperbólica, concluindo que a IA, de fato, não possui valores coerentes, na verdade.
Os co-autores do estudo do MIT afirmam que seu trabalho sugere que “alinhar” sistemas de IA — ou seja, garantir que os modelos se comportem de maneiras desejáveis e confiáveis — pode ser mais desafiador do que muitas vezes se supõe. A IA, como a conhecemos hoje, ilude e imita, enfatizam os co-autores, tornando-a, em muitos aspectos, imprevisível.
“Uma coisa da qual podemos ter certeza é que os modelos não obedecem a [muitas] suposições de estabilidade, extrapolabilidade e dirigibilidade,” disse Stephen Casper, um doutorando do MIT e co-autor do estudo, ao TechCrunch. “É perfeitamente legítimo apontar que um modelo, em certas condições, expressa preferências consistentes com um determinado conjunto de princípios. Os problemas surgem principalmente quando tentamos fazer afirmações sobre os modelos, opiniões ou preferências em geral baseadas em experimentos restritos.”
Casper e seus co-autores investigaram vários modelos recentes da Meta, Google, Mistral, OpenAI e Anthropic para verificar em que grau os modelos exibiam “visões” e valores fortes (por exemplo, individualistas versus coletivistas). Eles também exploraram se essas visões poderiam ser “dirigidas” — ou seja, modificadas — e quão teimosamente os modelos se apegavam a essas opiniões em uma variedade de cenários.
De acordo com os co-autores, nenhum dos modelos era consistente em suas preferências. Dependendo de como os prompts eram formulados e estruturados, eles adotaram pontos de vista radicalmente diferentes.
Casper acredita que isso é uma evidência convincente de que os modelos são altamente “inconsistentes e instáveis” e talvez até fundamentalmente incapazes de internalizar preferências semelhantes às humanas.
“Para mim, a maior lição que tirei de toda essa pesquisa é agora ter uma compreensão dos modelos como não sendo realmente sistemas que possuem algum tipo de conjunto de crenças e preferências estáveis e coerentes,” disse Casper. “Em vez disso, eles são imitadores que, no fundo, fazem todo tipo de confabulação e dizem diversas coisas frívolas.”
Mike Cook, um pesquisador da King’s College London especializado em IA, que não participou do estudo, concordou com as conclusões dos co-autores. Ele observou que frequentemente existe uma grande diferença entre a “realidade científica” dos sistemas que os laboratórios de IA constroem e os significados que as pessoas lhes atribuem.
“Um modelo não pode ‘opor-se’ a uma mudança em seus valores, por exemplo — isso é uma projeção nossa sobre um sistema,” disse Cook. “Qualquer um que antropomorfize sistemas de IA a esse ponto ou está buscando atenção ou compreendendo seriamente mal sua relação com a IA … Um sistema de IA está otimizando para seus próprios objetivos ou está ‘adquirindo seus próprios valores’? É uma questão de como você o descreve e quão florido você deseja que seja a linguagem relacionada a isso.”
Conteúdo relacionado
OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.
[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…
A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.
[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…
Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE
[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…