
La estatua de Alan Turing en Bletchley Park, Reino Unido.Crédito: Steve Meddle/Shutterstock
Los mejores modelos de inteligencia artificial (IA) de la actualidad pasan por la prueba de Turing, un famoso experimento mental que pregunta si una computadora puede pasar por un ser humano interactuando a través de texto.
Algunos ven una prueba mejorada como un punto de referencia necesario para avances hacia la inteligencia artificial general (AGI): un término ambiguo utilizado por muchas empresas de tecnología para referirse a un sistema de inteligencia artificial con el ingenio necesario para igualar cualquier capacidad cognitiva humana. Pero en un evento en la Royal Society de Londres el 2 de octubre, varios investigadores dijeron que la prueba de Turing debería descartarse por completo y que los desarrolladores deberían centrarse en evaluar la seguridad de la IA y construir capacidades específicas que podrían ser beneficiosas para el público.
«Averigüemos qué tipo de IA queremos y, en su lugar, probemos esas cosas», dijo Anil Seth, neurocientífico de la Universidad de Sussex en Brighton, Reino Unido. Al centrarnos en “esta marcha hacia la AGI, creo que realmente estamos limitando nuestra imaginación sobre qué tipo de sistemas podríamos querer (y, más importante aún, qué tipos de sistemas realmente no queremos) en nuestra sociedad”.
El evento se organizó para conmemorar el 75 aniversario de la publicación del artículo fundamental del matemático británico Alan Turing que describe la prueba, a la que llamó el juego de imitación. Abordar la cuestión filosóficamente complicada de si las máquinas pueden pensar1la prueba implica una serie de conversaciones breves basadas en texto entre un juez y un humano o una computadora. Para ganar, la máquina debe convencer al juez de que es humana.
ChatGPT superó la prueba de Turing: ha comenzado la carrera por nuevas formas de evaluar la IA
El enfoque discreto de la reunión sobre la inteligencia artificial resultó popular. En el evento con un exceso de solicitudes, el orador Gary Marcus fue presentado por Peter Gabriel, el líder de la banda de rock Genesis y, como amigo personal de Marcus, la estrella de Matrix, Laurence Fishburne, tenía un lugar entre la audiencia. Más de 1.000 personas también vieron el evento online.
«La idea de AGI podría ni siquiera ser el objetivo correcto, al menos no ahora», dijo Marcus, neurocientífico de la Universidad de Nueva York en la ciudad de Nueva York, durante uno de los discursos de apertura. Algunos de los mejores modelos de IA son altamente especializados, como AlphaFold, el predictor de estructura de proteínas de Google DeepMind, dijo. «Hace una sola cosa. No intenta escribir sonetos», afirmó.
Más allá de Turing
El divertido experimento mental de Turing se ha utilizado a menudo como indicador de la inteligencia de las máquinas, pero nunca fue pensado como una prueba seria o práctica, dijo Sarah Dillon, investigadora de literatura de la Universidad de Cambridge, Reino Unido, que estudia los trabajos del matemático.
Algunos de los sistemas de inteligencia artificial más capaces de la actualidad son versiones refinadas de grandes modelos de lenguaje (LLM) que predicen texto sobre la base de asociaciones realizadas al aprender de datos de Internet. En marzo, Los investigadores probaron cuatro chatbots en una versión de la prueba de Turing.y descubrió que los mejores modelos aprobaron.
Sin embargo, el hecho de que los chatbots puedan imitar el habla de manera creíble no significa que puedan comprenderlo, dijeron varios investigadores en el evento. Aunque las respuestas de un LLM pueden ser sorprendentemente humanas, “cuando te sales de lo que normalmente pides a estos sistemas, tienen muchos problemas”, dijo Marcus. Como ejemplos, citó la incapacidad de algunos modelos para etiquetar correctamente las partes de un elefante, o para dibujar las manecillas del reloj en cualquier lugar excepto en las posiciones diez y dos. Por esta razón, los modelos aún podrían fallar la prueba de Turing si son cuestionados por un científico que conoce sus debilidades.

El investigador de IA Gary Marcus (izquierda) con el actor Laurence Fishburne en el evento de Turing.Crédito: Cortesía del Web Science Institute de la Universidad de Southampton.
Aún así, la rápida mejora de los sistemas basados en LLM en una amplia gama de áreas, especialmente en tareas de razonamiento, ha provocado especulaciones sobre si las máquinas pronto alcanzarán un rendimiento a nivel humano en pruebas cognitivas. Para trazar las crecientes capacidades de la IA y capturar habilidades no basadas en el lenguaje, los investigadores han tratado de construir pruebas más difíciles. Uno de los más recientes es la segunda versión del Corpus abstracto y de razonamiento basado en rompecabezas para AGI (ARC-AGI-2), que se supone que evalúa la capacidad de una IA para adaptarse eficientemente a nuevos problemas. Estas pruebas a menudo se presentan como hitos en el camino hacia la inteligencia general, pero los investigadores no se ponen de acuerdo sobre ningún punto de referencia para lograr el AGI.





