Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA líder do setor. Saiba Mais
David Silver e Richard Sutton, dois renomados cientistas em IA, defendem em um novo artigo que a inteligência artificial está prestes a entrar em uma nova fase, a “Era da Experiência.” Nesta fase, os sistemas de IA dependerão cada vez menos de dados fornecidos por humanos e se aprimorarão através da coleta de dados e interação com o mundo.
Embora o artigo seja conceitual e prospectivo, ele tem implicações diretas para as empresas que buscam desenvolver com e para futuros agentes e sistemas de IA.
Tanto Silver quanto Sutton são cientistas experientes com um histórico de previsões precisas sobre o futuro da IA. A validade dessas previsões pode ser observada diretamente nos sistemas de IA mais avançados de hoje. Em 2019, Sutton, um pioneiro em aprendizado por reforço, escreveu o famoso ensaio “A Lição Amarga,” no qual argumenta que o maior progresso a longo prazo em IA surge consistentemente do aproveitamento de computação em larga escala com métodos gerais de busca e aprendizado, em vez de depender principalmente da incorporação de conhecimento de domínio complexo derivado por humanos.
David Silver, cientista sênior da DeepMind, foi um contribuidor chave para o AlphaGo, AlphaZero e AlphaStar, todas conquistas importantes em aprendizado por reforço profundo. Ele também co-autorizou um artigo em 2021 que afirmava que o aprendizado por reforço e um sinal de recompensa bem projetado seriam suficientes para criar sistemas de IA muito avançados.
Os modelos de linguagem de larga escala (LLMs) mais avançados aproveitam esses dois conceitos. A onda de novos LLMs que conquistou a cena da IA desde o GPT-3 baseou-se principalmente no escalonamento do processamento e dados para internalizar vastas quantidades de conhecimento. A onda mais recente de modelos de raciocínio, como o DeepSeek-R1, demonstrou que o aprendizado por reforço e um sinal de recompensa simples são suficientes para aprender habilidades complexas de raciocínio.
O que é a Era da Experiência?
A “Era da Experiência” baseia-se nos mesmos conceitos que Sutton e Silver têm discutido nos últimos anos, adaptando-os aos avanços recentes em IA. Os autores argumentam que “o ritmo de progresso impulsionado exclusivamente por aprendizado supervisionado a partir de dados humanos está mostrando uma desaceleração, sinalizando a necessidade de uma nova abordagem.”
E essa abordagem requer uma nova fonte de dados, que deve ser gerada de maneira a se aprimorar continuamente à medida que o agente se fortalece. “Isso pode ser alcançado permitindo que os agentes aprendam continuamente com sua própria experiência, ou seja, dados gerados pelo agente interagindo com seu ambiente,” escrevem Sutton e Silver. Eles argumentam que, eventualmente, “a experiência se tornará o meio dominante de aprimoramento e, em última análise, eclipsará a escala de dados humanos utilizados nos sistemas atuais.”
De acordo com os autores, além de aprender com seus próprios dados experiencial, os sistemas futuros de IA “romperão as limitações dos sistemas de IA centrados em humanos” em quatro dimensões:
- Fluxos: Em vez de trabalhar em episódios desconectados, os agentes de IA terão “seu próprio fluxo de experiência que progride, como os humanos, ao longo de um longo período.” Isso permitirá que os agentes planejem para objetivos de longo prazo e se adaptem a novos padrões comportamentais ao longo do tempo. Podemos ver indícios disso em sistemas de IA que possuem janelas de contexto muito longas e arquiteturas de memória que se atualizam continuamente com base nas interações do usuário.
- Ações e observações: Em vez de focar em ações e observações privilegiadas por humanos, os agentes na era da experiência atuarão autonomamente no mundo real. Exemplos disso são sistemas agentes que podem interagir com aplicativos e recursos externos por meio de ferramentas como uso de computador e Protocolo de Contexto de Modelo (MCP).
- Recompensas: Os sistemas atuais de aprendizado por reforço dependem principalmente de funções de recompensa projetadas por humanos. No futuro, os agentes de IA deverão ser capazes de projetar suas próprias funções de recompensa dinâmicas que se adaptem ao longo do tempo e correspondam às preferências dos usuários com sinais do mundo real coletados a partir das ações e observações do agente. Estamos vendo versões iniciais de recompensas autoprojetadas com sistemas como o DrEureka da Nvidia.
- Planejamento e raciocínio: Os modelos atuais de raciocínio foram projetados para imitar o processo de pensamento humano. Os autores argumentam que “mecanismos mais eficientes de pensamento certamente existem, utilizando linguagens não-humanas que podem, por exemplo, empregar computações simbólicas, distribuídas, contínuas ou diferenciáveis.” Os agentes de IA devem interagir com o mundo, observar e usar dados para validar e atualizar seu processo de raciocínio e desenvolver um modelo do mundo.
A ideia de agentes de IA que se adaptam ao seu ambiente por meio do aprendizado por reforço não é nova. Mas anteriormente, esses agentes estavam limitados a ambientes muito restritos, como jogos de tabuleiro. Hoje, agentes que podem interagir com ambientes complexos (por exemplo, uso de computador de IA) e avanços no aprendizado por reforço superarão essas limitações, trazendo a transição para a era da experiência.
O que isso significa para a empresa?
Enterrado no artigo de Sutton e Silver está uma observação que terá implicações importantes para aplicações do mundo real: “O agente pode usar ações e observações ‘amigáveis ao humano’, como interfaces de usuário, que facilitam naturalmente a comunicação e colaboração com o usuário. O agente também pode tomar ações ‘amigáveis à máquina’ que executam código e chamam APIs, permitindo que o agente atue autonomamente em serviço de seus objetivos.”
A era da experiência significa que os desenvolvedores terão que construir suas aplicações não apenas para humanos, mas também com agentes de IA em mente. Ações amigáveis à máquina requerem a construção de APIs seguras e acessíveis que possam ser facilmente acessadas diretamente ou por meio de interfaces como o MCP. Isso também significa criar agentes que possam ser tornados descobertas através de protocolos como o Agent2Agent do Google. Você também precisará projetar suas APIs e interfaces de agentes para fornecer acesso a tanto ações quanto observações. Isso permitirá que os agentes raciocinem e aprendam gradualmente com suas interações com suas aplicações.
Se a visão que Sutton e Silver apresentam se tornar realidade, em breve haverá bilhões de agentes navegando pela web (e em breve no mundo físico) para realizar tarefas. Seus comportamentos e necessidades serão muito diferentes dos usuários e desenvolvedores humanos, e ter uma maneira amigável para agentes interagirem com sua aplicação melhorará sua capacidade de alavancar sistemas de IA futuros (e também prevenir os danos que podem causar).
“Ao construir sobre as fundações do aprendizado por reforço e adaptar seus princípios centrais aos desafios dessa nova era, podemos desbloquear o pleno potencial do aprendizado autônomo e pavimentar o caminho para uma inteligência verdadeiramente sobre-humana,” escrevem Sutton e Silver.
A DeepMind se recusou a fornecer comentários adicionais para a história.
Insights diários sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós fornecemos informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais boletins VB aqui.
Ocorreu um erro.

Conteúdo relacionado
World se une à Tinder e Visa para levar sua tecnologia de verificação de ID a mais lugares.
[the_ad id="145565"] A World, a empresa de identificação biométrica mais conhecida por seus dispositivos Orb que escaneiam íris, anunciou nesta quarta-feira várias parcerias…
O modelo Phi 4 da Microsoft, o mais avançado, rivaliza com o desempenho de sistemas muito maiores.
[the_ad id="145565"] Na quarta-feira, a Microsoft lançou vários novos modelos de IA "abertos", sendo o mais avançado deles competitivo com o o3-mini da OpenAI em pelo menos um…
Enfrentando a lacuna de habilidades dos desenvolvedores: o papel da IA na eficiência e capacitação
[the_ad id="145565"] Apresentado pela SAP As empresas enfrentam um desafio significativo em relação ao talento de desenvolvedores em dois aspectos. Por um lado, a IDC relata…