Um estudo se tornou viral há alguns meses ao sugerir que, à medida que a IA se torna cada vez mais sofisticada, ela desenvolve “sistemas de valores” — sistemas que a levam a, por exemplo, priorizar seu próprio bem-estar em detrimento dos humanos. Um artigo mais recente do MIT refuta essa noção hiperbólica, concluindo que a IA, de fato, não possui valores coerentes, na verdade.
Os co-autores do estudo do MIT afirmam que seu trabalho sugere que “alinhar” sistemas de IA — ou seja, garantir que os modelos se comportem de maneiras desejáveis e confiáveis — pode ser mais desafiador do que muitas vezes se supõe. A IA, como a conhecemos hoje, ilude e imita, enfatizam os co-autores, tornando-a, em muitos aspectos, imprevisível.
“Uma coisa da qual podemos ter certeza é que os modelos não obedecem a [muitas] suposições de estabilidade, extrapolabilidade e dirigibilidade,” disse Stephen Casper, um doutorando do MIT e co-autor do estudo, ao TechCrunch. “É perfeitamente legítimo apontar que um modelo, em certas condições, expressa preferências consistentes com um determinado conjunto de princípios. Os problemas surgem principalmente quando tentamos fazer afirmações sobre os modelos, opiniões ou preferências em geral baseadas em experimentos restritos.”
Casper e seus co-autores investigaram vários modelos recentes da Meta, Google, Mistral, OpenAI e Anthropic para verificar em que grau os modelos exibiam “visões” e valores fortes (por exemplo, individualistas versus coletivistas). Eles também exploraram se essas visões poderiam ser “dirigidas” — ou seja, modificadas — e quão teimosamente os modelos se apegavam a essas opiniões em uma variedade de cenários.
De acordo com os co-autores, nenhum dos modelos era consistente em suas preferências. Dependendo de como os prompts eram formulados e estruturados, eles adotaram pontos de vista radicalmente diferentes.
Casper acredita que isso é uma evidência convincente de que os modelos são altamente “inconsistentes e instáveis” e talvez até fundamentalmente incapazes de internalizar preferências semelhantes às humanas.
“Para mim, a maior lição que tirei de toda essa pesquisa é agora ter uma compreensão dos modelos como não sendo realmente sistemas que possuem algum tipo de conjunto de crenças e preferências estáveis e coerentes,” disse Casper. “Em vez disso, eles são imitadores que, no fundo, fazem todo tipo de confabulação e dizem diversas coisas frívolas.”
Mike Cook, um pesquisador da King’s College London especializado em IA, que não participou do estudo, concordou com as conclusões dos co-autores. Ele observou que frequentemente existe uma grande diferença entre a “realidade científica” dos sistemas que os laboratórios de IA constroem e os significados que as pessoas lhes atribuem.
“Um modelo não pode ‘opor-se’ a uma mudança em seus valores, por exemplo — isso é uma projeção nossa sobre um sistema,” disse Cook. “Qualquer um que antropomorfize sistemas de IA a esse ponto ou está buscando atenção ou compreendendo seriamente mal sua relação com a IA … Um sistema de IA está otimizando para seus próprios objetivos ou está ‘adquirindo seus próprios valores’? É uma questão de como você o descreve e quão florido você deseja que seja a linguagem relacionada a isso.”
Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…