Los investigadores sugieren modelos de IA capacitados en OpenAi en los libros de O'Reilly.

OpenAi ha sido acusado por muchos Partes de capacitar a su IA sobre contenido con derechos de autor sin permiso. Ahora un nuevo papel Según una organización Watchdog AI, hace una seria acusación de que la compañía dependía cada vez más de los libros no públicos que no se licenció para capacitar a modelos de IA más sofisticados.

Los modelos de IA son motores de predicción esencialmente complejos. Entrenados en muchos datos (libros, películas, programas de televisión, etc., aprenden patrones y formas novedosas de extrapolar de un mensaje simple. Cuando un modelo «escribe» un ensayo sobre una tragedia griega o «dibuja» imágenes de estilo Gibli, simplemente está extrayendo de su vasto conocimiento a aproximarse. No está llegando a nada nuevo.

Si bien varios laboratorios de IA, incluidos OpenAi, han comenzado a adoptar datos generados por IA para capacitar a AI mientras agotan las fuentes del mundo real (principalmente la web pública), pocos han evitado los datos del mundo real por completo. Eso es probable porque el entrenamiento en datos puramente sintéticos viene con riesgos, como empeorar el rendimiento de un modelo.

El nuevo artículo, del Proyecto de Divulencias de AI, una organización sin fines de lucro cofundada en 2024 por el magnate de los medios Tim O'Reilly y el economista Ilan Strauss, llega a la conclusión de que OpenAi probablemente entrenó su GPT-4O Modelo en libros de Paywalled de O'Reilly Media. (O'Reilly es el CEO de O'Reilly Media).

En ChatgptGPT-4O es el modelo predeterminado. O'Reilly no tiene un acuerdo de licencia con Openai, dice el periódico.

«GPT-4O, el modelo más reciente y capaz de OpenAI, demuestra un fuerte reconocimiento del contenido de libros O'Reilly O'Reilly (…) en comparación con el modelo anterior GPT-3.5 Turbo de OpenAI», escribió los coautores del periódico. «En contraste, GPT-3.5 Turbo muestra un mayor reconocimiento relativo de muestras de libros O'Reilly accesibles públicamente».

El documento utilizó un método llamado De-capasintroducido por primera vez en un artículo académico en 2024, diseñado para detectar contenido con derechos de autor en los datos de capacitación de modelos de idiomas. También conocido como un «ataque de inferencia de membresía», el método prueba si un modelo puede distinguir de manera confiable textos autorizados por los humanos de versiones parafraseadas de IA del mismo texto. Si puede, sugiere que el modelo podría tener un conocimiento previo del texto de sus datos de capacitación.

Los coautores del periódico-O'Reilly, Strauss y el investigador de IA Sruly Rosenblat-dicen que sondearon GPT-4O, GPT-3.5 Turboy el conocimiento de otros modelos Operai de los libros de medios O'Reilly publicados antes y después de sus fechas de corte de capacitación. Usaron 13,962 extractos de párrafo de 34 libros de O'Reilly para estimar la probabilidad de que se haya incluido un extracto particular en el conjunto de datos de entrenamiento de un modelo.

Según los resultados del documento, GPT-4O «reconoció» mucho más contenido de libros de O'Reilly que los modelos más antiguos de Openai, incluido GPT-3.5 Turbo. Eso es incluso después de tener en cuenta los posibles factores de confusión, dijeron los autores, como las mejoras en la capacidad de los modelos más nuevos para descubrir si el texto era autorizado por los humanos.

«GPT-4O (probablemente) reconoce, y también lo ha hecho el conocimiento previo de muchos libros no públicos de O'Reilly publicados antes de su fecha de corte de capacitación», escribieron los coautores.

No es una pistola humeante, los coautores tienen cuidado de tener en cuenta. Reconocen que su método experimental no es infalible, y que OpenAi podría haber recopilado los extractos de libros con paredes de pago de los usuarios que lo copian y lo pegarán en ChatGPT.

En el consumo de las aguas, los coautores no evaluaron la colección de modelos más reciente de OpenAi, que incluye modelos GPT-4.5 y «razonamiento» como O3-Mini y O1. Es posible que estos modelos no estuvieran entrenados en los datos del libro O'Reilly de Paywalled, o que hayan sido capacitados en una cantidad menor que GPT-4O.

Dicho esto, no es ningún secreto que OpenAi, que ha abogado por restricciones más sueltas En torno a desarrollar modelos que utilizan datos con derechos de autor, ha estado buscando datos de capacitación de mayor calidad durante algún tiempo. La compañía ha ido tan lejos como Contrata periodistas para ayudar a ajustar las salidas de sus modelos. Esa es una tendencia en toda la industria en general: compañías de IA que reclutan expertos en dominios como la ciencia y la física para Hacer que estos expertos efectivamente alimenten sus conocimientos en los sistemas de IA.

Cabe señalar que Openai paga al menos algunos de sus datos de capacitación. La compañía cuenta con acuerdos de licencia con editores de noticias, redes sociales, bibliotecas de medios de acción y otros. Operai también ofrece mecanismos de exclusión aunque imperfectos – que permiten a los propietarios de derechos de autor marcar el contenido que preferirían que la empresa no use para fines de capacitación.

Aún así, mientras Openai lucha contra varias demandas por sus prácticas de datos de capacitación y el tratamiento de la ley de derechos de autor en los tribunales de los Estados Unidos, el artículo de O'Reilly no es el aspecto más halagador.

Operai no respondió a una solicitud de comentarios.

Los investigadores sugieren modelos de IA capacitados en OpenAi en los libros de O'Reilly.

Team

Opinión: el militarismo del Reino Unido se puede resistir (y debe) ser resistido

Deja una respuesta Cancelar la respuesta

Recomendada

Las múltiples dudas que quedan en la derecha, las listas al Congreso del Pacto Histórico y las otras movidas electorales de la semana.

Un paseo cultural por París con la cantante Meryl y la escultora Agnès Baillon

Noticias populares

«EVOLARA: TU SEGUNDO VUELO»

15 lugares para visitar en la Antártida no puede permitirse perderse

Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

Sobre nosotras

Categoría

Mensajes recientes