Abogados de The New York Times y Daily News, que son demandando OpenAI por supuestamente eliminar sus trabajos para entrenar sus modelos de IA sin permiso, dicen que los ingenieros de OpenAI eliminaron accidentalmente datos potencialmente relevantes para el caso.
A principios de este otoño, OpenAI acordó proporcionar dos máquinas virtuales para que los abogados de The Times y Daily News pudieran realizar búsquedas de su contenido protegido por derechos de autor en sus conjuntos de entrenamiento de IA. (Las máquinas virtuales son computadoras basadas en software que existen dentro del sistema operativo de otra computadora y que a menudo se usan para realizar pruebas, realizar copias de seguridad de datos y ejecutar aplicaciones). cartalos abogados de los editores dicen que ellos y los expertos que contrataron han pasado más de 150 horas desde el 1 de noviembre buscando datos de capacitación de OpenAI.
Pero el 14 de noviembre, los ingenieros de OpenAI borraron todos los datos de búsqueda de los editores almacenados en una de las máquinas virtuales, según la carta antes mencionada, que fue presentada en el Tribunal de Distrito de EE. UU. para el Distrito Sur de Nueva York el miércoles por la noche.
OpenAI intentó recuperar los datos y tuvo gran éxito. Sin embargo, debido a que la estructura de carpetas y los nombres de los archivos se perdieron «irremediablemente», los datos recuperados «no pueden usarse para determinar dónde se usaron los artículos copiados de los demandantes de noticias para construir modelos (de OpenAI)», según la carta.
«Los demandantes de noticias se han visto obligados a recrear su trabajo desde cero utilizando importantes horas de trabajo y tiempo de procesamiento informático», escribieron los abogados de The Times y Daily News. «Los demandantes de noticias se enteraron ayer de que los datos recuperados no se pueden utilizar y que el trabajo de sus expertos y abogados de una semana entera debe rehacerse, razón por la cual se presenta esta carta complementaria hoy».
Los abogados de los demandantes aclaran que no tienen motivos para creer que la eliminación fue intencional. Pero sí dicen que el incidente subraya que OpenAI “está en la mejor posición para buscar en sus propios conjuntos de datos” contenido potencialmente infractor utilizando sus propias herramientas.
Un portavoz de OpenAI se negó a hacer una declaración.
Pero el viernes 22 de noviembre por la noche, el abogado de OpenAI presentó una respuesta a la carta enviada por los abogados de The Times y Daily News el miércoles. En su respuesta, los abogados de OpenAI negaron inequívocamente que OpenAI haya eliminado cualquier evidencia y, en cambio, sugirieron que los demandantes eran los culpables de una mala configuración del sistema que provocó un problema técnico.
«Los demandantes solicitaron un cambio de configuración en una de varias máquinas que OpenAI ha proporcionado para buscar conjuntos de datos de entrenamiento», escribió el abogado de OpenAI. “Sin embargo, la implementación del cambio solicitado por los demandantes resultó en la eliminación de la estructura de carpetas y algunos nombres de archivos en un disco duro, un disco que se suponía debía usarse como caché temporal… En cualquier caso, no hay razón para pensar que algún archivo en realidad se perdieron”.
En este caso y en otros, OpenAI ha sostenido que los modelos de entrenamiento que utilizan datos disponibles públicamente (incluidos artículos de The Times y Daily News) son un uso legítimo. En otras palabras, al crear modelos como GPT-4oque “aprenden” de miles de millones de ejemplos de libros electrónicos, ensayos y más para generar texto con sonido humano, OpenAI cree que no es necesario otorgar licencias ni pagar de otro modo por los ejemplos, incluso si gana dinero con esos modelos. .
Dicho esto, OpenAI ha firmado acuerdos de licencia con un número creciente de nuevos editores, incluidos Associated Press, el propietario de Business Insider, Axel Springer, Financial Times, la empresa matriz de People, Dotdash Meredith, y News Corp. OpenAI se ha negado a cumplir los términos de estos. ofertas públicas, pero un socio de contenido, Dotdash, es según se informa recibir un pago de al menos 16 millones de dólares al año.
OpenAI no ha confirmado ni negado que haya entrenado sus sistemas de inteligencia artificial en obras específicas protegidas por derechos de autor sin permiso.
Actualización: se agregó la respuesta de OpenAI a las acusaciones.




