Como casi todas las demás empresas de tecnología que existen, Adobe se ha inclinado mucho hacia la IA en los últimos años. La empresa de software ha lanzado varios servicios de inteligencia artificial diferentes desde 2023, incluidos Luciérnaga – su suite de generación de medios impulsada por IA. Ahora, sin embargo, la adopción total de la tecnología por parte de la compañía puede haber causado problemas, ya que una nueva demanda afirma que utilizó libros pirateados para entrenar uno de sus modelos de IA.
Una propuesta de demanda colectiva presentada en nombre de Elizabeth Lyon, una autora de Oregón, afirma que Adobe utilizó versiones pirateadas de numerosos libros (incluido el suyo propio) para capacitar a los empleados de la empresa. Programa SlimLM.
Adobe describe SlimLM como una pequeña serie de modelos de lenguaje que se puede «optimizar para tareas de asistencia de documentos en dispositivos móviles». Él afirma que SlimLM recibió capacitación previa en SlimPajama-627B, un “conjunto de datos de código abierto, de múltiples corpus y deduplicado” liberado por Cerebras en junio de 2023. Lyon, que ha escrito varias guías para la escritura de no ficción, dice que algunos de sus trabajos se incluyeron en un conjunto de datos de preentrenamiento que Adobe había utilizado.
La demanda de Lyon, que fue reportado originalmente publicado por Reuters, dice que sus escritos se incluyeron en un subconjunto procesado de un conjunto de datos manipulado que fue la base del programa de Adobe: «El conjunto de datos SlimPajama se creó copiando y manipulando el conjunto de datos RedPajama (incluida la copia de Books3)», dice la demanda. «Por lo tanto, debido a que es una copia derivada del conjunto de datos de RedPajama, SlimPajama contiene el conjunto de datos de Books3, incluidas las obras protegidas por derechos de autor del demandante y los miembros del grupo».
“Libros3”: un enorme colección de 191.000 libros que se han utilizado para entrenar sistemas GenAI, ha sido una fuente continua de problemas legales para la comunidad tecnológica. RedPajama también ha sido citada en varios casos de litigio. En septiembre, una demanda contra Apple afirmó que la empresa había utilizado material protegido por derechos de autor para entrenar su modelo Apple Intelligence. El litigio mencionó el conjunto de datos y acusó a la empresa de tecnología de copiar obras protegidas «sin consentimiento y sin crédito ni compensación». En octubre, una demanda similar contra Salesforce también afirmó que la empresa había utilizado RedPajama con fines de formación.
Desafortunadamente para la industria tecnológica, este tipo de demandas ya se han convertido en algo común. Los algoritmos de IA se entrenan en conjuntos de datos masivos y, en algunos casos, esos conjuntos de datos supuestamente incluyen materiales pirateados. En septiembre, antrópico acordó pagar 1.500 millones de dólares a varios autores que lo demandaron y lo acusaron de utilizar versiones pirateadas de su trabajo para entrenar a su chatbot, Claude. El caso se consideró un posible punto de inflexión en las batallas legales en curso sobre el material protegido por derechos de autor en los datos de entrenamiento de IA, de los cuales hay muchos.




