Estudo do MIT revela que a IA, na verdade, não possui valores.

Um estudo se tornou viral há alguns meses ao sugerir que, à medida que a IA se torna cada vez mais sofisticada, ela desenvolve “sistemas de valores” — sistemas que a levam a, por exemplo, priorizar seu próprio bem-estar em detrimento dos humanos. Um artigo mais recente do MIT refuta essa noção hiperbólica, concluindo que a IA, de fato, não possui valores coerentes, na verdade.

Os co-autores do estudo do MIT afirmam que seu trabalho sugere que “alinhar” sistemas de IA — ou seja, garantir que os modelos se comportem de maneiras desejáveis e confiáveis — pode ser mais desafiador do que muitas vezes se supõe. A IA, como a conhecemos hoje, ilude e imita, enfatizam os co-autores, tornando-a, em muitos aspectos, imprevisível.

“Uma coisa da qual podemos ter certeza é que os modelos não obedecem a [muitas] suposições de estabilidade, extrapolabilidade e dirigibilidade,” disse Stephen Casper, um doutorando do MIT e co-autor do estudo, ao TechCrunch. “É perfeitamente legítimo apontar que um modelo, em certas condições, expressa preferências consistentes com um determinado conjunto de princípios. Os problemas surgem principalmente quando tentamos fazer afirmações sobre os modelos, opiniões ou preferências em geral baseadas em experimentos restritos.”

Casper e seus co-autores investigaram vários modelos recentes da Meta, Google, Mistral, OpenAI e Anthropic para verificar em que grau os modelos exibiam “visões” e valores fortes (por exemplo, individualistas versus coletivistas). Eles também exploraram se essas visões poderiam ser “dirigidas” — ou seja, modificadas — e quão teimosamente os modelos se apegavam a essas opiniões em uma variedade de cenários.

De acordo com os co-autores, nenhum dos modelos era consistente em suas preferências. Dependendo de como os prompts eram formulados e estruturados, eles adotaram pontos de vista radicalmente diferentes.

Casper acredita que isso é uma evidência convincente de que os modelos são altamente “inconsistentes e instáveis” e talvez até fundamentalmente incapazes de internalizar preferências semelhantes às humanas.

“Para mim, a maior lição que tirei de toda essa pesquisa é agora ter uma compreensão dos modelos como não sendo realmente sistemas que possuem algum tipo de conjunto de crenças e preferências estáveis e coerentes,” disse Casper. “Em vez disso, eles são imitadores que, no fundo, fazem todo tipo de confabulação e dizem diversas coisas frívolas.”

Mike Cook, um pesquisador da King’s College London especializado em IA, que não participou do estudo, concordou com as conclusões dos co-autores. Ele observou que frequentemente existe uma grande diferença entre a “realidade científica” dos sistemas que os laboratórios de IA constroem e os significados que as pessoas lhes atribuem.

“Um modelo não pode ‘opor-se’ a uma mudança em seus valores, por exemplo — isso é uma projeção nossa sobre um sistema,” disse Cook. “Qualquer um que antropomorfize sistemas de IA a esse ponto ou está buscando atenção ou compreendendo seriamente mal sua relação com a IA … Um sistema de IA está otimizando para seus próprios objetivos ou está ‘adquirindo seus próprios valores’? É uma questão de como você o descreve e quão florido você deseja que seja a linguagem relacionada a isso.”