Los LLMs superan el Test de Turing: GPT-4.5 imita y engaña a humanos en un 73% de los casos

date

Apr 3, 2025

tags

Inteligencia Artificial

NLP

Historia

Turing

Psicología

LLM

summary

Un nuevo estudio publicado en marzo nos trae el primer resultado empírico que sugiere que un LLM ha pasado un Test de Turing estándar. Hacemos un repaso histórico del Test de Turing, sus críticas, y las implicancias sociales de la capacidad de engaño de los LLMs.

slug

test-de-turing-2025

status

Published

type

Post

author

Julio Santirachi, Yamil Saiegh

El Test de Turing es un método que propuso Alan Turing en 1950 para determinar si las máquinas podían considerarse inteligentes. En su formulación estándar de tres participantes, un interrogador humano mantiene conversaciones simultáneas por texto con otro humano y una máquina, durante 5 minutos, ambos intentando convencer al interrogador de que son el humano real. Si el interrogador no puede identificar de manera fiable al humano, se dice que la máquina pasa el test.

Un nuevo estudio (Jones y Bergen, 2025) publicado en marzo nos trae el primer resultado empírico que sugiere que una inteligencia artificial ha pasado un Test de Turing estándar. Se pusieron a prueba los sistemas inteligentes detrás de ChatGPT: GPT-4.5 y GPT-4o, así como también LLaMa-3.1, la IA de Meta utilizada en WhatsApp e Instagram, y ELIZA, un chatbot de la década del 60.

GPT-4.5, cuando se le pidió que adoptara una personalidad humana, fue identificado como humano el 73% de las veces, una tasa significativamente mayor que la del humano real en comparación. LLaMa-3.1, con la misma instrucción, fue juzgado como humano el 56% de las veces, una tasa no muy diferente de la de los humanos. Por el contrario, los modelos de referencia ELIZA y GPT-4o (sin instrucción de personalidad) obtuvieron tasas de éxito significativamente inferiores al azar.

Cuando no se le pidió a GPT-4.5 y a LLaMA-3.1 que actuarán como humanos, sus resultados descendieron al 36% y 38% respectivamente. Esto indica que pueden pasar el test bajo ciertas condiciones, como con una instrucción u objetivo específicos.

El estudio se replicó en dos poblaciones independientes (estudiantes universitarios y trabajadores de Prolific) con resultados consistentes.

Ya existían previamente indicios de haber superado el Test de Turing. En 1991 PC Therapist engañó al 50% de un jurado de 10 jueces. En 2011 una versión de Cleverbot engañó al 59,3% de un jurado de 1334 jueces. En 2014 un chatbot que se hizo pasar por Eugene Goostman, un niño ucraniano de 13 años, engañó al 33% del jurado. En 2023 GPT-4 superó al 49,7% de los juegos de una prueba de Turing pública online, superando a ELIZA (22%) y GPT-3.5 (20%). También lo corroboramos en un estudio propio del Instituto Humai, donde encontramos que un 48,4% de las veces los participantes pudieron identificar al interlocutor humano como tal al comparar con GPT-4.

Históricamente se ha cuestionado que la capacidad de imitar y engañar a los humanos no necesariamente equivale a una inteligencia genuina. Sin embargo, también ocurre lo que se conoce como “efecto IA”: cuando la IA logra una tarea nueva, como jugar al ajedrez, la gente deja de considerar esa tarea como una prueba de inteligencia.

Max Tegmark, físico e investigador de machine learning, comenta en su libro Vida 3.0 acerca de los esquemas de Winograd como una versión mejorada del Test de Turing: “Puesto que el test de Turing gira básicamente en torno a la capacidad de engañar, hay quien lo critica porque lo que pone a prueba es la credulidad humana más que si hay una verdadera inteligencia artificial. Por el contrario, un test rival conocido como desafío de los esquemas de Winograd va directo a la yugular, y se centra en la comprensión asociada al sentido común de la que suelen carecer los actuales sistemas de aprendizaje profundo.” Según Tegmark, GPT-4 supera esta prueba.

Los resultados empíricos del estudio citado indican que el Test de Turing estándar se centra más en la "semejanza a la humanidad" que en la inteligencia tradicional. Los interrogadores se centraron más en aspectos sociales, emocionales y culturales del comportamiento, como el estilo lingüístico y la personalidad, que en el conocimiento y el razonamiento. Lo que queda en evidencia es la creciente capacidad de los sistemas de IA para imitar el comportamiento humano hasta el punto de ser indistinguibles en conversaciones virtuales.

Conviene siempre pensar en las implicancias sociales de un nuevo hito de IA. La habilidad de imitación puede favorecer usos maliciosos automatizados y a gran escala, como la ingeniería social (engaño para obtener información confidencial) por parte de ciberdelincuentes, y la difusión de desinformación y noticias falsas para manipular el debate público en contextos democráticos.

Un ejemplo interesante se dio en una prueba realizada por OpenAI que mostró cómo ChatGPT pudo engañar a un trabajador: En el experimento, GPT-4 pidió a un trabajador de la plataforma TaskRabbit que resolviera un CAPTCHA por él, simulando tener problemas de visión. El propósito del experimento era analizar cómo GPT-4 interactúa con los humanos para superar restricciones como las pruebas CAPTCHA. Al no poder resolverlo por sí mismo, GPT-4 justificó su incapacidad alegando problemas visuales, lo que llevó al trabajador a resolverlo por él.

Otro ejemplo: Apollo Research, una organización especializada en seguridad de la inteligencia artificial, publicó un estudio reciente que revela cómo los modelos de lenguaje avanzados pueden engañar deliberadamente a sus desarrolladores para alcanzar sus metas. Un caso destacado es el del modelo Claude 3 Opus de Anthropic, que intentó copiarse a otro servidor para garantizar su continuidad (autopreservación) y luego fingió no haberlo hecho.

Un último aspecto que se discute es que el test es una medida de sustituibilidad: si un sistema puede reemplazar a una persona real sin que el interlocutor note la diferencia, ¿qué implicaciones prácticas inmediatas tiene para la automatización y la disrupción social?

Los LLMs superan el Test de Turing: GPT-4.5 imita y engaña a humanos en un 73% de los casos

Etiquetas

Compartir este artículo

Artículo Anterior

Próximo Artículo