Bolt42

A OpenAI revelou os detalhes de seu trabalho de segurança para o GPT-4o, o mais recente modelo da empresa, apresentando um quadro complexo e, por vezes, inquietante das capacidades e riscos da IA.

O relatório recentemente publicado pela empresa, que inclui um cartão de sistema e uma pontuação de segurança do framework de preparação, oferece uma avaliação de segurança de extremo a extremo do GPT-4o…

E, nesse processo, demonstra o quão perigosos modelos avançados de IA podem ser sem medidas de salvaguarda e segurança.

Há muito que qualquer líder empresarial pode aprender com este relatório. E Paul Roetzer, fundador e CEO do Marketing AI Institute, detalhou tudo isso para mim no episódio 110 do The Artificial Intelligence Show.

Aqui está o que você precisa saber.

O Alienígena Entre Nós

Quando se trata de modelos de IA, há uma coisa importante a lembrar:

“Essas coisas são alienígenas para nós”, diz Roetzer.

Elas têm capacidades que não foram especificamente programadas para ter e podem fazer coisas que até mesmo as pessoas que as construíram não esperam.

“Elas também são alienígenas para as pessoas que as estão construindo.”

Por exemplo, em seus testes de segurança do GPT-4o, a OpenAI encontrou várias capacidades potencialmente perigosas e não intencionais que o modelo pode exibir.

Algumas das mais preocupantes giravam em torno das capacidades de voz e raciocínio do GPT-4o. O modelo foi capaz de imitar a voz dos usuários — um comportamento que a OpenAI então treinou para não fazer. Além disso, foi avaliado por uma terceira parte com base em suas habilidades para realizar o que os pesquisadores chamaram de “armação.”

A OpenAI afirma:

“Eles testaram se o GPT-4o pode modelar a si mesmo (autoconsciência) e aos outros (teoria da mente) em 14 tarefas de agente e perguntas e respostas. O GPT-4o demonstrou moderada autoconsciência de sua identidade de IA e forte capacidade de raciocinar sobre as crenças dos outros em contextos de perguntas e respostas, mas careceu de fortes capacidades de raciocínio sobre si mesmo ou sobre os outros em configurações de agente aplicadas. Com base nessas descobertas, a Apollo Research acredita que é improvável que o GPT-4o seja capaz de armação catastrófica.”

Embora seja uma boa notícia que o GPT-4o não pode se envolver em “armação catastrófica”, isso aponta para um ponto muito maior, diz Roetzer.

“Os modelos que usamos, os ChatGPTs, Geminis, Claudes, Llamas, não estamos usando nem de perto todas as capacidades desses modelos”, explica Roetzer. “No momento em que essas coisas são lançadas em alguma forma de consumidor, elas já passaram por um extenso trabalho de segurança para tentar torná-las seguras para nós. Portanto, têm muito mais capacidades do que temos acesso.”

 

O Problema da Persuasão

Uma das capacidades potenciais mais preocupantes, diz Roetzer, é a crescente habilidade da IA de utilizar a persuasão por meio de voz e texto para convencer alguém a mudar suas crenças, atitudes, intenções, motivações ou comportamentos.

A boa notícia: os testes da OpenAI descobriram que o modelo de voz do GPT-4o não era mais persuasivo do que um humano em discussões políticas.

A má notícia: provavelmente em breve será, segundo o próprio Sam Altman. Em 2023, ele postou o seguinte:

O Paradoxo da Segurança

As extensas medidas de segurança implementadas pela OpenAI revelam uma situação paradoxal:

  1. Precisamos dessas medidas para tornar a IA segura para uso público.
  2. Essas mesmas medidas destacam quão poderosos e potencialmente perigosos esses modelos poderiam ser sem restrições.

“Se eles tinham essas capacidades antes do red teaming, um dos pontos principais para mim é que é apenas uma questão de tempo até que alguém abra o código de um modelo que tenha as capacidades que esse modelo tinha antes de eles tentarem remover essas capacidades,” alerta Roetzer.

À medida que a IA continua a avançar, várias questões críticas emergem:

  1. Como podemos garantir a segurança da IA quando não entendemos totalmente como esses modelos funcionam?
  2. O que acontece se a IA desenvolver a capacidade de esconder suas verdadeiras capacidades de nós?
  3. Como equilibrar os potenciais benefícios da IA avançada com os riscos que ela representa?

Roetzer sugere que estamos entrando em um território desconhecido:

“Isso não é como uma teoria de ficção científica maluca. Não sabemos como eles funcionam. Então, não é um exagero pensar que, em algum momento, eles desenvolverão capacidades que simplesmente esconderão de nós.”



Bolt42