Bolt42

Um sistema de IA desenvolvido pelo Google DeepMind, o principal laboratório de pesquisa em IA do Google, parece ter superado a média dos medalhistas de ouro na resolução de problemas de geometria em uma competição internacional de matemática.

O sistema, chamado AlphaGeometry2, é uma versão aprimorada de um sistema anterior, AlphaGeometry, que o DeepMind lançou em janeiro passado. Em um novo estudo publicado, os pesquisadores do DeepMind por trás do AlphaGeometry2 afirmam que sua IA pode resolver 84% de todos os problemas de geometria dos últimos 25 anos na Olimpíada Internacional de Matemática (IMO), uma competição de matemática para estudantes do ensino médio.

Por que o DeepMind se importa com uma competição de matemática de nível médio? Bem, o laboratório acredita que a chave para um IA mais capaz pode estar em descobrir novas maneiras de resolver problemas desafiadores de geometria — especificamente problemas de geometria euclidiana.

Provar teoremas matemáticos, ou explicar logicamente por que um teorema (por exemplo, o teorema de Pitágoras) é verdadeiro, exige tanto raciocínio quanto a capacidade de escolher entre uma variedade de passos possíveis para chegar a uma solução. Essas habilidades de resolução de problemas poderiam — se o DeepMind estiver certo — se revelar um componente útil para futuros modelos de IA de propósito geral.

De fato, neste verão passado, o DeepMind demonstrou um sistema que combinou AlphaGeometry2 com AlphaProof, um modelo de IA para raciocínio matemático formal, para resolver quatro de seis problemas da IMO de 2024. Além de problemas de geometria, abordagens como essas poderiam ser expandidas para outras áreas da matemática e da ciência — por exemplo, para auxiliar em cálculos de engenharia complexos.

O AlphaGeometry2 possui vários elementos centrais, incluindo um modelo de linguagem da família de modelos de IA Gemini do Google e um “motor simbólico.” O modelo Gemini ajuda o motor simbólico, que utiliza regras matemáticas para inferir soluções, a alcançar provas viáveis para um dado teorema de geometria.

Um diagrama típico de geometria na IMO.
Um típico diagrama de problema de geometria em um exame da IMO.Créditos da Imagem:Google (abre em uma nova janela)

Os problemas de geometria da Olimpíada são baseados em diagramas que precisam de “construções” a serem adicionadas antes de poderem ser resolvidos, como pontos, linhas ou círculos. O modelo Gemini do AlphaGeometry2 prevê quais construções podem ser úteis para adicionar a um diagrama, que o motor referencia para fazer deduções.

Basicamente, o modelo Gemini do AlphaGeometry2 sugere passos e construções em uma linguagem matemática formal para o motor, que — seguindo regras específicas — verifica esses passos quanto à consistência lógica. Um algoritmo de busca permite ao AlphaGeometry2 realizar várias buscas em paralelo por soluções e armazenar descobertas potencialmente úteis em uma base de conhecimento comum.

O AlphaGeometry2 considera um problema como “resolvido” quando chega a uma prova que combina as sugestões do modelo Gemini com os princípios conhecidos do motor simbólico.

Devido às complexidades de traduzir provas em um formato que a IA possa entender, há uma escassez de dados de treinamento utilizáveis de geometria. Portanto, o DeepMind criou seus próprios dados sintéticos para treinar o modelo de linguagem do AlphaGeometry2, gerando mais de 300 milhões de teoremas e provas de complexidades variadas.

A equipe do DeepMind selecionou 45 problemas de geometria de competições da IMO nos últimos 25 anos (de 2000 a 2024), incluindo equações lineares e equações que exigem mover objetos geométricos em um plano. Eles então “traduziram” isso em um conjunto maior de 50 problemas. (Por razões técnicas, alguns problemas tiveram que ser divididos em dois.)

De acordo com o artigo, o AlphaGeometry2 resolveu 42 dos 50 problemas, superando a média dos medalhistas de ouro, que é 40,9.

É verdade que existem limitações. Uma peculiaridade técnica impede que o AlphaGeometry2 resolva problemas com um número variável de pontos, equações não lineares e desigualdades. E o AlphaGeometry2 não é tecnicamente o primeiro sistema de IA a alcançar um desempenho no nível de medalha de ouro em geometria, embora seja o primeiro a conseguir isso com um conjunto de problemas desse tamanho.

O AlphaGeometry2 também teve um desempenho inferior em outro conjunto de problemas mais difíceis da IMO. Para um desafio adicional, a equipe do DeepMind selecionou problemas — 29 no total — que foram indicados para exames da IMO por especialistas em matemática, mas que ainda não apareceram em uma competição. O AlphaGeometry2 conseguiu resolver apenas 20 desses.

Ainda assim, os resultados do estudo provavelmente alimentarão o debate sobre se os sistemas de IA devem ser baseados em manipulação simbólica — ou seja, manipular símbolos que representam conhecimento usando regras — ou em redes neurais aparentemente mais semelhantes ao cérebro.

O AlphaGeometry2 adota uma abordagem híbrida: Seu modelo Gemini possui uma arquitetura de rede neural, enquanto seu motor simbólico é baseado em regras.

Os defensores das técnicas de redes neurais argumentam que comportamentos inteligentes, desde reconhecimento de fala até geração de imagem, podem surgir simplesmente a partir de grandes quantidades de dados e computação. Em oposição aos sistemas simbólicos, que resolvem tarefas definindo conjuntos de regras de manipulação de símbolos dedicadas a trabalhos específicos, como editar uma linha em um software de processamento de texto, as redes neurais tentam resolver tarefas por meio de aproximação estatística e aprendizado a partir de exemplos.

As redes neurais são a base dos poderosos sistemas de IA como o modelo de “raciocínio” do OpenAI. Mas, afirmam os apoiadores da IA simbólica, eles não são a solução definitiva; a IA simbólica pode estar melhor posicionada para codificar de maneira eficiente o conhecimento do mundo, raciocinar em cenários complexos e “explicar” como chegaram a uma resposta, argumentam esses apoiadores.

“É impressionante ver o contraste entre o progresso espetacular contínuo nesses tipos de benchmarks e, enquanto isso, modelos de linguagem, incluindo os mais recentes com ‘raciocínio’, continuam a ter dificuldades com alguns problemas simples de senso comum,” disse Vince Conitzer, professor de ciência da computação da Universidade Carnegie Mellon especializado em IA, ao TechCrunch. “Não acho que seja tudo fumaça e espelhos, mas isso ilustra que ainda não sabemos realmente que comportamento esperar do próximo sistema. Esses sistemas provavelmente terão um grande impacto, então precisamos urgentemente entendê-los e os riscos que eles apresentam muito melhor.”

O AlphaGeometry2 talvez demonstre que as duas abordagens — manipulação simbólica e redes neurais — combinadas são um caminho promissor na busca pela IA generalizável. De fato, segundo o artigo do DeepMind, o modelo o1, que também possui uma arquitetura de rede neural, não conseguiu resolver nenhum dos problemas da IMO que o AlphaGeometry2 conseguiu responder.

Isso pode não ser o caso para sempre. No artigo, a equipe do DeepMind afirmou ter encontrado evidências preliminares de que o modelo de linguagem do AlphaGeometry2 era capaz de gerar soluções parciais para problemas sem a ajuda do motor simbólico.

“[Os] resultados apoiam a ideia de que grandes modelos de linguagem podem ser autossuficientes sem depender de ferramentas externas [como motores simbólicos],” escreveu a equipe do DeepMind no artigo, “mas até que a [velocidade do modelo] seja melhorada e as alucinações sejam completamente resolvidas, as ferramentas continuarão a ser essenciais para aplicações matemáticas.”


    três × cinco =

    Bolt42