Tecnologia

Matemáticos testam IAs em Harvard e modelos acertam 7 de 10 problemas

14.06.2026 | Por: Gudyê KondZilla

Trinta matemáticos reuniram-se em Harvard nesta semana para avaliar soluções produzidas por inteligências artificiais. A iniciativa, chamada First Proof, submeteu quatro configurações de modelos a dez problemas matemáticos previamente resolvidos por pessoas, mas ainda não publicados, e verificou as demonstrações apresentadas pelas máquinas.

O resultado, divulgado na semana passada, mostrou que em sete dos dez problemas pelo menos uma das IAs entregou solução correta. As quatro combinações testadas empregaram majoritariamente o GPT-5.5 Pro da OpenAI – presente em três das quatro configurações – e o Gemini 3.1 Pro Preview, do Google. Em uma das configurações apareceu também, como modelo secundário, o Claude Opus 4.7, da Anthropic.

Como foram as correções

Algumas respostas das IAs foram avaliadas como impecáveis por parte dos matemáticos. Em um dos casos, o sistema adotou uma estratégia distinta da usada pelo humano que originalmente resolveu o problema, o que chamou a atenção dos avaliadores.

Motivação dos pesquisadores

Os organizadores do First Proof explicaram que o exame surgiu diante da insatisfação com relatos de empresas de tecnologia, cujo anúncio de avanços nem sempre permite verificação independente e cujos modelos tendem a apresentar inconsistência. O questionamento inclui também a forma como as IAs produzem textos matemáticos, considerada por alguns especialistas menos fiel ao estilo e à honestidade da escrita humana.

Limitações apontadas

Vários participantes destacaram que a principal limitação vai além de resolver enunciados: os modelos ainda não demonstram capacidade para escolher quais problemas merecem investigação, uma tarefa que envolve julgamento, intuição e compreensão do contexto mais amplo da disciplina. Como exemplo, a líder do First Proof em Harvard, Lauren Williams, citou a diferença entre uma pergunta válida e uma pergunta relevante dentro de uma área científica.

O debate incluiu ainda a metáfora proposta por Terry Tao, que compara especialistas humanos a alpinistas — que avançam por etapas e colaboram —, enquanto descreve sistemas de IA como “saltadores”, capazes de alcançar resultados pontuais sem oferecer progressos elegantes ou caminhos aproveitáveis em tentativas frustradas. Sébastien Bubeck, matemático da OpenAI, afirmou que os modelos podem resolver problemas sem entender seu papel dentro do corpo maior da matemática.

Imagem: Imagem Divulgação

Iniciativa paralela e contexto

Paralelamente aos testes, mais de 2.300 matemáticos assinaram a Declaração de Leiden, um manifesto que estabelece diretrizes para o uso ético e transparente da inteligência artificial na área. O documento reconhece o potencial das ferramentas, mas alerta para riscos como a falta de atribuição de ideias e a promoção seletiva de sucessos pelas empresas, sem transparência sobre falhas.

O movimento também aparece como resposta ao anúncio da OpenAI, em maio, de que um de seus modelos teria refutado uma conjectura de Paul Erdős que permanecia sem solução por 80 anos — resultado que o matemático de Princeton Noga Alon chamou de solução espetacular. Em vez de reagir somente aos anúncios corporativos, a comunidade passou a criar critérios próprios para avaliar capacidades e limitações das IAs na matemática.

Com informações de Olhardigital

PUBLICIDADE Flowers

Veja também

PUBLICIDADE Flowers