Reddit está demandando a las empresas SerApi, OxyLabs, AWMProxy y Perplexity por supuestamente extraer sus datos de los resultados de búsqueda y usarlos sin licencia. Los New York Times informes. La nueva demanda sigue acción legal contra la startup de inteligencia artificial Anthropic, que supuestamente utilizó contenido de Reddit para entrenar su chatbot Claude.
A partir de 2023, Reddit cobra empresas buscando acceso a publicaciones y otros contenidos con la esperanza de ganar dinero con datos que podrían usarse para el entrenamiento de IA. La empresa también ha firmado acuerdos de licencia con empresas como Google y Abierto AIe incluso construyó un Su propio contestador automático con IA para aprovechar el conocimiento en las publicaciones de los usuarios. La extracción de resultados de búsqueda de contenido de Reddit evita esos pagos, razón por la cual la compañía busca daños financieros y una orden judicial permanente que impida a las empresas vender material de Reddit previamente extraído.
Algunas de las empresas en las que se centra Reddit, como SerApi, OxyLabs y AWMProxy, no son exactamente nombres conocidos, pero todas han hecho de la recopilación de datos de los resultados de búsqueda y su venta una parte clave de su negocio. La inclusión de Perplexity en la demanda podría ser más obvia. La empresa de IA necesita datos para entrenar sus modelos y ya lo ha hecho sido atrapado aparentemente copiando y regurgitando material cuya licencia no ha pagado. Eso también incluye supuestamente ignorando el protocolo robots.txtuna forma para que los sitios web comuniquen que no quieren que se elimine su material.
Por una copia de la demanda proporcionado a Engadget, Reddit ya había enviado un cese y desistimiento a Perplexity pidiéndole que dejara de eliminar publicaciones sin una licencia. La compañía afirmó que no utilizó datos de Reddit, pero también siguió citando la plataforma en las respuestas de su chatbot. Reddit dice que pudo demostrar que Perplexity estaba usando contenido extraído de Reddit mediante la creación de una «publicación de prueba» que «sólo podía ser rastreada por el motor de búsqueda de Google y no era accesible de otra manera en ningún lugar de Internet». En unas pocas horas, las consultas realizadas al motor de respuestas de Perplexity pudieron reproducir el contenido de la publicación.
«La única forma en que Perplexity podría haber obtenido ese contenido de Reddit y luego usarlo en su 'motor de respuestas' es si él y/o sus coacusados rasparon los (resultados de búsqueda) de Google para ese contenido de Reddit y Perplexity luego incorporó rápidamente esos datos en su motor de respuestas», afirma la demanda.
Cuando se le pidió que comentara, Perplexity proporcionó la siguiente declaración:
Perplexity aún no ha recibido la demanda, pero siempre lucharemos vigorosamente por los derechos de los usuarios a acceder libre y justamente al conocimiento público. Nuestro enfoque sigue siendo responsable y basado en principios, ya que brindamos respuestas objetivas con IA precisa, y no toleraremos amenazas contra la apertura y el interés público.
Esta nueva demanda encaja con la postura agresiva que Reddit ha adoptado para proteger sus datos, incluyendo limitante de velocidad bots y rastreadores web desconocidos en 2024, y incluso limitante qué acceso tendrá Wayback Machine de Internet Archive a su sitio en agosto de 2025. La compañía también ha tratado de definir nuevos términos sobre cómo se rastrean los sitios web adoptando el Estándar de licencia realmente simpleque agrega términos de licencia a robots.txt.




