Tiene acceso completo a este artículo a través de su institución.

El equipo que construyó el conjunto de datos FIBHE pidió a los participantes su consentimiento y les compensó por sus imágenes, algo que no sucede cuando las herramientas de inteligencia artificial simplemente «extraen» información de Internet.Crédito: Reka Olga/Getty
Es una verdad casi universalmente reconocida que las aplicaciones de inteligencia artificial generativa más utilizadas se construyeron con datos recopilados de Internet. Esto se hizo, en su mayor parte, sin obtener el consentimiento informado de las personas y sin compensar a las personas cuyos datos fueron «extraídos» de esta manera.
Pero un artículo de investigación muestra ahora que, cuando se trata de imágenes, es posible otra forma. Investigadores del gigante mundial de la tecnología y el entretenimiento Sony describen un conjunto de datos de imágenes obtenidas de forma responsable que pueden utilizarse para comparar la precisión de la IA generativa (A. Xiang et al. Naturaleza https://doi.org/10.1038/s41586-025-09716-2; 2025). El trabajo fue complejo, pero no le costó a la Tierra. El precio de la recopilación de datos (menos de 1 millón de dólares) es una gota en el océano para muchas empresas de tecnología.
Lea el artículo: Conjunto de datos de imágenes justo centrado en el ser humano para una evaluación comparativa ética de la IA
Los reguladores y financiadores deben tomar nota. Lo mismo deberían hacer todos aquellos involucrados en litigios relacionados con si está permitido extraer datos de las personas, en cualquier forma, para entrenar y probar modelos de IA generativa. Es posible crear datos representativos y de origen responsable cuando se abordan explícitamente las preocupaciones sobre el consentimiento y la precisión.
También hay un mensaje importante para las corporaciones: aquí hay una oportunidad para que las empresas trabajen juntas en beneficio de todos. Hay momentos en que las empresas necesitan competir y momentos en que deben colaborar. En estas páginas, a menudo defendemos la necesidad de mejorar la colaboración. Si alguna vez hubo un ejemplo de por qué se necesitan este tipo de asociaciones, es éste.
No hay duda de que se ha utilizado información digital personal, a veces identificable, para crear aplicaciones de IA generativa. Dichos datos incluyen material de blogs y contenido de plataformas de redes sociales, imágenes y vídeos que a menudo incluyen personas, y obras protegidas por derechos de autor, como pinturas y esculturas, libros, música y películas.
No camines sonámbulo desde la investigación sobre visión por computadora hasta la vigilancia
La mayoría de los países tienen leyes que regulan la recopilación de datos (T.Kuru Int. Privado de datos. Ley 14326–351; 2024). Estas leyes incluyen la necesidad de obtener permiso para proteger la privacidad y los derechos de propiedad intelectual de las personas. Esos permisos a menudo requieren que quienes recopilan datos expliquen para qué se utilizarán los datos, incluyan la posibilidad de optar por no participar y, cuando corresponda, compensar a las personas que proporcionan los datos. A pesar de esto, las empresas que desarrollan algunos de los modelos de lenguajes grandes disponibles públicamente no han seguido esta práctica de forma rutinaria. En algunos casos, las empresas han argumentado que el consentimiento no es necesario si alguien ya ha puesto su material a disposición en Internet, y que lo que están haciendo constituye un «uso justo» de los datos disponibles públicamente. Se trata de un argumento controvertido y está siendo cuestionado por organismos reguladores y organizaciones que representan a los titulares de derechos de autor, como escritores y artistas.
Aquí es donde el nuevo conjunto de datos, llamado Fair Human-Centric Image Benchmark (FHIBE) o 'Feebee', es diferente. Alice Xiang, directora global de gobernanza de IA de Sony, y sus colegas obtuvieron el consentimiento informado para las 10.318 imágenes del conjunto de datos de 1.981 personas de 81 países. A cada individuo se le dijo en un lenguaje accesible qué datos se necesitaban y cómo se podían usar: las aplicaciones que involucran fuerzas del orden, el ejército, armas y vigilancia están explícitamente prohibidas según los términos de uso. A los participantes se les pagó por su material y pueden optar por no participar en cualquier momento.
Un reconocimiento a los estudios de IA que no aparecen en los titulares
FHIBE también se diferencia de los conjuntos de datos de imágenes existentes en otro aspecto importante: incluye una proporción mucho mayor de personas y fotografías de países de África, Asia y Oceanía. Además, en el conjunto de datos de FHIBE, los participantes proporcionaron su edad, ascendencia, ubicación geográfica y pronombres, eliminando la necesidad de un algoritmo para adivinar estas características a partir del nombre o la apariencia de alguien. Esto es importante porque significa que el conjunto de datos FHIBE es un reflejo más preciso del mundo real que los muchos conjuntos desequilibrados recopilados a partir de datos extraídos de la web.
Además de ser una importante prueba de concepto, este estudio proporciona una manera para que las empresas comparen la precisión de las aplicaciones de imágenes de IA existentes. Los investigadores también deberían aprovechar la oportunidad para investigar algunas preguntas importantes que aún no tienen respuesta. Por ejemplo, ¿podría crearse un conjunto de datos similar para comparar la precisión de las herramientas de inteligencia artificial basadas en texto? ¿Cómo se pueden producir datos obtenidos de manera responsable en la escala necesaria para entrenar, no solo comparar, modelos de lenguaje grandes, y cuál debería ser esa escala?
Xiang y su equipo de investigación han demostrado cómo producir y probar sistemas de IA responsables. Han elegido un problema difícil, pero ésta no debería ser su única lucha. Otros deben unirse al esfuerzo para que podamos crear aplicaciones de IA de acuerdo con los más altos estándares de precisión y ética.







