Los modelos de inteligencia artificial (IA) pueden funcionar tan bien como los humanos en exámenes de derecho al responder preguntas de opción múltiple, de respuesta corta y de ensayo (A. Blair-Stanek et al. Preimpresión en SSRN https://doi.org/p89q; 2025), pero tienen dificultades para realizar tareas legales en el mundo real. Algunos abogados han aprendido eso por las malas, y han sido multados por presentar escritos judiciales generados por IA que tergiversaban los principios del derecho y citaban casos inexistentes. Lo mismo ocurre en otros campos. Por ejemplo, los modelos de IA pueden pasar la prueba estándar en finanzas (el examen de Chartered Financial Analyst) aún puntuar mal sobre tareas simples requeridas por los analistas financieros principiantes (ver go.nature.com/42tbrgb).
¿Cómo deberíamos probar la IA para obtener inteligencia a nivel humano? O3 de OpenAI electriza la búsqueda
Siempre que las evaluaciones miden la habilidad prevista de manera inexacta, se considera una falla indirecta. Por ejemplo, se esperaría que un abogado que obtuviera una puntuación A+ en un examen evitara los tipos de errores que una herramienta de inteligencia artificial con una puntuación similar podría cometer en un escenario del mundo real. Se necesitan con urgencia mejores pruebas para ayudar a guiar el uso de la IA en situaciones complejas y de alto riesgo.
Una idea prometedora surgió en marzo en un taller de la Asociación para el Avance de la Inteligencia Artificial en Filadelfia, Pensilvania: a través de una interacción extensa, un especialista puede decir si un sistema de IA realmente entiende o simplemente está imitando la comprensión.
Imagine un modelo de IA que intenta «aprobar» una entrevista con un jurista aclamado como Cass Sunstein de la Universidad de Harvard en Cambridge, Massachusetts. El sondeo experto de Sunstein sería una mejor medida del conocimiento jurídico del modelo que una prueba estandarizada o un punto de referencia con puntuación automática. Pasar la 'prueba de Sunstein' requeriría una herramienta de inteligencia artificial para demostrar un verdadero dominio jurídico, ser capaz de sortear la ambigüedad y la contradicción, y no simplemente responder preguntas de opción múltiple o escribir un ensayo.
Uno podría preguntarse: ¿por qué no simplemente probar la preparación legal de un modelo de IA con puntos de referencia para tareas específicas, similares a los utilizados en medicina para comprobar la capacidad de una herramienta de IA para tomar notas para un médico? El objetivo, sin embargo, no es probar la capacidad de una herramienta de IA para realizar una tarea legal específica, o incluso una larga lista de ellas, sino probar si tiene conocimiento legal de propósito general que pueda ejercer sistemáticamente al realizar cualquier tarea.
Por qué es necesario comenzar ahora a evaluar el impacto de la IA
No estoy sugiriendo que Sunstein, o cualquier autoridad en particular, deba ser designado árbitro de la experiencia en IA. El objetivo es crear sistemas que los principales especialistas jurídicos, según coinciden en general, demuestren un conocimiento jurídico genuino y confiable. A 'robo-abogado' tendría que afrontar una amplia gama de entrevistas con paneles de expertos, desde abogados tributarios y constitucionales hasta secretarios, agentes de tránsito y trabajadores de asistencia jurídica. Este enfoque reduciría los problemas relacionados con los prejuicios individuales o ideológicos y evitaría la trampa de que los modelos de IA simplemente imiten el estilo de una persona.
¿Podría una máquina alcanzar los niveles humanos de experiencia, sutileza y ética? Sólo los especialistas pueden decirlo. Pero imaginemos a un juez de la Corte Suprema de Estados Unidos interrogando en público a un robot-abogado con IA. Eso llamaría la atención de todos. Sería un espectáculo muy parecido al desafío de la multinacional tecnológica IBM en 2011 en el programa de concursos de la televisión estadounidense. ¡Peligro!. La compañía enfrentó su supercomputadora Watson con campeones humanos para demostrar hasta dónde habían llegado el razonamiento automático y el procesamiento del lenguaje natural.






