Modelos de IA passam no teste de Turing e, em alguns casos, são confundidos com humanos com mais frequência
Um estudo conduzido pela University of California San Diego concluiu que sistemas de inteligência artificial modernos foram capazes de passar no teste de Turing e, em determinadas condições, foram identificados como humanos com frequência igual ou superior à de interlocutores humanos reais. A pesquisa aponta que participantes tiveram dificuldade para distinguir pessoas de modelos de linguagem em conversas por texto.
O que foi feito e quem participou
A pesquisa, publicada na revista Proceedings of the National Academy of Sciences, avaliou quase 500 voluntários divididos em dois grupos independentes: estudantes da UC San Diego e participantes recrutados pela plataforma Prolific. Em cada sessão, um avaliador conversava simultaneamente com duas entidades — um humano e um sistema de IA — e precisava apontar qual das conversas era mantida por uma pessoa.
Modelos testados e desempenho
Foram experimentados quatro modelos de linguagem. Entre eles estavam os sistemas mais avançados, como GPT-4.5 e LLaMa-3.1-405B, além de modelos de referência como GPT-4o e o chatbot histórico ELIZA, criado na década de 1960. Conforme os autores, o GPT-4.5 foi classificado como humano em 73% das interações, superando a taxa de escolha dos próprios participantes humanos. O LLaMa-3.1-405B foi considerado humano em 56% das conversas, resultado estatisticamente equivalente ao observado para pessoas reais. Em contraste, o ELIZA atingiu cerca de 23% e o GPT-4o aproximadamente 21%.
Influência das instruções (prompts)
Os pesquisadores relataram que o sucesso dos modelos dependia fortemente das instruções recebidas antes das interações. Cada sistema recebeu um “prompt de persona” que orientava estilo de fala, traços e comportamento. Segundo Cameron Jones, autor correspondente do estudo e professor assistente de Psicologia na Stony Brook University, essas orientações permitiram que as IAs reproduzissem elementos como tom, humor, objetividade e até erros típicos de humanos. Sem essas instruções detalhadas, a capacidade de enganar caiu: o GPT-4.5 teve a taxa reduzida para 36% e o LLaMa-3.1-405B para 38%.
Riscos apontados e dinâmica das conversas
Os autores alertam para impactos potenciais em ambientes online. Cameron Jones afirmou que modelos que se passam por humanos em diálogos prolongados podem dificultar que usuários comuniquem identificar bots, elevando riscos de manipulação e fraude. Ben Bergen, professor de ciência cognitiva da UC San Diego e coautor do estudo, afirmou que tais sistemas podem persuadir pessoas a revelar dados pessoais, influenciar decisões políticas ou promover produtos.
Imagem: Imagem Divulgação
Para a execução dos testes, os pesquisadores desenvolveram uma interface similar a aplicativos de mensagens, exibindo duas conversas lado a lado. Em versões do experimento, o tempo de interação foi de cinco minutos, com uma réplica estendida de até 15 minutos antes de os avaliadores escolherem qual interlocutor era humano. Os estudantes da UC San Diego apresentaram desempenho ligeiramente superior na identificação, possibilidade atribuída pelos autores a referências e experiências em comum relacionadas ao campus.
Com informações de Olhardigital