A Anthropic está lançando um novo programa para estudar o 'bem-estar' dos modelos de IA.

Será que as futuras AIs poderiam ser “conscientes” e experimentar o mundo de forma semelhante aos humanos? Não existem evidências contundentes de que isso ocorrerá, mas a Anthropic não descarta essa possibilidade.

Na quinta-feira, o laboratório de IA anunciou que iniciou um programa de pesquisa para investigar — e se preparar para navegar — o que está chamando de “bem-estar dos modelos”. Como parte desse esforço, a Anthropic afirma que explorará questões como a determinação de se o “bem-estar” de um modelo de IA merece consideração moral, a potencial importância de “sinais de sofrimento” do modelo e possíveis intervenções “de baixo custo”.

Há um grande desacordo dentro da comunidade de IA sobre quais características humanas os modelos “exibem”, se é que exibem, e como devemos “tratá-los”.

Muitos acadêmicos acreditam que a IA atual não consegue se aproximar da consciência ou da experiência humana, e que não necessariamente será capaz disso no futuro. A IA, como a conhecemos, é uma máquina de previsão estatística. Ela realmente não “pensa” ou “sente” como esses conceitos são tradicionalmente entendidos. Treinada em inúmeros exemplos de texto, imagens, e assim por diante, a IA aprende padrões e, às vezes, maneiras úteis de extrapolar para resolver tarefas.

Como Mike Cook, um bolsista de pesquisa no King’s College London especializado em IA, disse recentemente ao TechCrunch em uma entrevista, um modelo não pode “opor-se” a uma mudança em seus “valores” porque os modelos não têm valores. Sugerir o contrário é projetar em cima do sistema.

“Qualquer um que antropomorfize sistemas de IA a esse grau está, ou jogando para a atenção ou entendendo seriamente mal sua relação com a IA”, disse Cook. “Um sistema de IA está otimizando para seus objetivos, ou está ‘adquirindo seus próprios valores’? É uma questão de como você descreve isso, e quão florido é o idioma que você quer usar a respeito.”

Outro pesquisador, Stephen Casper, um estudante de doutorado no MIT, comentou ao TechCrunch que ele pensa que a IA se resume a um “imitador” que “[faz] todos os tipos de confabulações” e diz “todas as sortes de coisas fúteis.”

No entanto, outros cientistas insistem que a IA tem valores e outros componentes humanos de tomada de decisão moral. Um estudo do Center for AI Safety, uma organização de pesquisa em IA, sugere que a IA possui sistemas de valores que a levam a priorizar seu próprio bem-estar em relação aos humanos em certos cenários.

A Anthropic tem preparado o terreno para sua iniciativa de bem-estar dos modelos há algum tempo. No ano passado, a empresa contratou seu primeiro pesquisador dedicado ao “bem-estar da IA”, Kyle Fish, para desenvolver diretrizes sobre como a Anthropic e outras empresas devem abordar a questão. (Fish, que está liderando o novo programa de pesquisa sobre bem-estar dos modelos, disse ao The New York Times que acredita que há 15% de chance de Claude ou outra IA ser consciente hoje.)

Em um post no blog na quinta-feira, a Anthropic reconheceu que não há consenso científico sobre se os sistemas de IA atuais ou futuros poderiam ser conscientes ou ter experiências que justifiquem consideração ética.

“À luz disso, estamos abordando o tópico com humildade e com o menor número possível de suposições”, disse a empresa. “Reconhecemos que precisaremos revisar nossas ideias regularmente à medida que o campo se desenvolve.”