O CEO da Anthropic, Dario Amodei, publicou um ensaio na quinta-feira destacando o quanto os pesquisadores entendem pouco sobre o funcionamento interno dos principais modelos de IA do mundo. Para abordar isso, Amodei estabeleceu uma meta ambiciosa para a Anthropic: detectar de maneira confiável a maioria dos problemas dos modelos de IA até 2027.
Amodei reconhece o desafio à frente. Em “A Urgência da Interpretabilidade”, o CEO afirma que a Anthropic já fez avanços iniciais em rastrear como os modelos chegam a suas respostas — mas enfatiza que muito mais pesquisa é necessária para decifrar esses sistemas à medida que se tornem mais poderosos.
“Estou muito preocupado em implantar tais sistemas sem um melhor entendimento sobre a interpretabilidade”, escreveu Amodei no ensaio. “Esses sistemas serão absolutamente centrais para a economia, tecnologia e segurança nacional, e serão capazes de tamanha autonomia que considero basicamente inaceitável que a humanidade esteja totalmente ignorante sobre como eles funcionam.”
A Anthropic é uma das empresas pioneiras em interpretabilidade mecanicista, um campo que visa abrir a “caixa preta” dos modelos de IA e entender por que eles tomam as decisões que tomam. Apesar dos rápidos avanços de desempenho dos modelos de IA da indústria de tecnologia, ainda temos uma ideia relativamente pequena de como esses sistemas chegam a decisões.
Por exemplo, a OpenAI lançou recentemente novos modelos de IA de raciocínio, o3 e o4-mini, que apresentam melhor desempenho em algumas tarefas, mas também alucinam mais do que seus outros modelos. A empresa não sabe por que isso está acontecendo.
“Quando um sistema de IA generativa faz algo, como resumir um documento financeiro, não temos ideia, em um nível específico ou preciso, por que ele faz as escolhas que faz — por que escolhe certas palavras em vez de outras, ou por que ocasionalmente comete um erro, apesar de geralmente ser preciso”, escreveu Amodei no ensaio.
No ensaio, Amodei observa que o cofundador da Anthropic, Chris Olah, afirma que os modelos de IA são “cultivados mais do que construídos”. Em outras palavras, os pesquisadores de IA encontraram maneiras de melhorar a inteligência dos modelos de IA, mas não sabem exatamente o porquê.
No ensaio, Amodei observa que pode ser perigoso alcançar a AGI — ou, como ele chama, “um país de gênios em um centro de dados” — sem entender como esses modelos funcionam. Em um ensaio anterior, Amodei afirmou que a indústria de tecnologia poderia alcançar tal marco até 2026 ou 2027, mas acredita que ainda estamos muito longe de entender completamente esses modelos de IA.
A longo prazo, Amodei diz que a Anthropic gostaria de conduzir, essencialmente, “exames de cérebro” ou “exames de ressonância magnética” de modelos de IA de ponta. Esses check-ups ajudariam a identificar uma ampla gama de problemas nos modelos de IA, incluindo suas tendências a mentir ou buscar poder, ou outras fraquezas, diz ele. Isso pode levar de cinco a dez anos para ser alcançado, mas essas medidas serão necessárias para testar e implantar os futuros modelos de IA da Anthropic, acrescentou.
A Anthropic fez algumas descobertas de pesquisa que lhe permitiram entender melhor como seus modelos de IA funcionam. Por exemplo, a empresa encontrou recentemente maneiras de rastrear os caminhos de pensamento de um modelo de IA através do que a empresa chama de circuitos. A Anthropic identificou um circuito que ajuda os modelos de IA a entender quais cidades dos EUA estão localizadas em quais estados. A empresa encontrou apenas alguns desses circuitos, mas estima que existem milhões dentro dos modelos de IA.
A Anthropic tem investido em pesquisa de interpretabilidade e recentemente fez seu primeiro investimento em uma startup que trabalha com interpretabilidade. Embora a interpretabilidade seja amplamente vista como um campo de pesquisa de segurança hoje, Amodei observa que, eventualmente, explicar como os modelos de IA chegam a suas respostas poderia apresentar uma vantagem comercial.
No ensaio, Amodei convocou a OpenAI e a Google DeepMind a aumentar seus esforços de pesquisa no campo. Além do empurrão amigável, o CEO da Anthropic pediu aos governos que impusessem regulamentações “leves” para incentivar a pesquisa de interpretabilidade, como requisitos para que as empresas divulguem suas práticas de segurança e proteção. No ensaio, Amodei também afirma que os EUA deveriam impor controles de exportação de chips para a China, a fim de limitar a probabilidade de uma corrida global de IA fora de controle.
A Anthropic sempre se destacou da OpenAI e do Google pelo seu foco em segurança. Enquanto outras empresas de tecnologia se opuseram ao polêmico projeto de lei de segurança em IA da Califórnia, SB 1047, a Anthropic emitiu um modesto apoio e recomendações para o projeto, que teria estabelecido padrões de relatórios de segurança para desenvolvedores de modelos de IA de ponta.
Neste caso, a Anthropic parece estar pressionando por um esforço em toda a indústria para melhor entender os modelos de IA, e não apenas aumentar suas capacidades.
Conteúdo relacionado
O CEO da Perplexity afirma que seu navegador irá monitorar tudo o que os usuários fazem online para vender anúncios ‘hiper personalizados’
[the_ad id="145565"] A Perplexity não quer apenas competir com o Google, ela aparentemente quer ser o Google. O CEO Aravind Srinivas disse esta semana no podcast TBPN que uma…
A OpenAI lança uma versão ‘leve’ de sua ferramenta de pesquisa profunda ChatGPT.
[the_ad id="145565"] A OpenAI está lançando uma nova versão "leve" de sua ferramenta de pesquisa profunda ChatGPT, que vasculha a web para compilar relatórios de pesquisa sobre…
Como você define traição na era da inteligência artificial?
[the_ad id="145565"] Esta startup de IA arrecadou $5,3 milhões para ajudar as pessoas a "trapacearem em tudo". Mas, na era da IA, como você define trapacear? A Universidade de…