
Apple ha lanzado Pico-Banana-400K, un conjunto de datos de investigación de 400.000 imágenes altamente seleccionado que, curiosamente, se creó utilizando los modelos Gemini-2.5 de Google. Aquí están los detalles.
manzana investigación El equipo ha publicado un interesante estudio llamado “Pico-Banana-400K: un conjunto de datos a gran escala para la edición de imágenes guiada por texto”.
Además del estudio, también publicaron el conjunto de datos completo de 400.000 imágenes que produjeron, que tiene una licencia de investigación no comercial. Esto significa que cualquiera puede usarlo y explorarlo, siempre que sea para trabajo académico o con fines de investigación de IA. En otras palabras, no se puede utilizar comercialmente.
Bien, pero ¿qué es?
Hace unos meses, Google lanzó el modelo Gemini-2.5-Flash-Image, también conocido como Nanon-Banana, que posiblemente sea lo último en modelos de edición de imágenes.
Otros modelos también han mostrado mejoras significativas, pero, como dicen los investigadores de Apple:
«A pesar de estos avances, la investigación abierta sigue limitada por la falta de conjuntos de datos de edición a gran escala, de alta calidad y totalmente compartibles. Los conjuntos de datos existentes a menudo dependen de generaciones sintéticas de modelos propietarios o de subconjuntos limitados seleccionados por humanos. Además, estos conjuntos de datos frecuentemente exhiben cambios de dominio, distribuciones de tipos de edición desequilibradas y controles de calidad inconsistentes, lo que dificulta el desarrollo de modelos de edición sólidos».
Entonces Apple se propuso hacer algo al respecto.
Edificio Pico-Banana-400K
Lo primero que hizo Apple fue extraer una cantidad no especificada de fotografías reales del conjunto de datos de OpenImages, «seleccionadas para garantizar la cobertura de humanos, objetos y escenas textuales».

Luego, surgió una lista de 35 tipos diferentes de cambios que un usuario podría pedirle al modelo, agrupados en ocho categorías. Por ejemplo:
- Píxel y fotométrico: Agregue grano de película o filtro vintage
- Centrado en el ser humano: Figura de juguete de la persona estilo Funko-Pop.
- Composición de escena y temas múltiples: Cambiar las condiciones climáticas (soleado/lluvioso/nevado)
- Semántica a nivel de objeto: Reubicar un objeto (cambiar su posición/relación espacial)
- Escala: Dar un golpe de zoom
A continuación, los investigadores cargarían una imagen en Nano-Banana, junto con una de estas indicaciones. Una vez que Nano-Banana terminara de generar la imagen editada, los investigadores harían que Gemini-2.5-Pro analizara el resultado, aprobándolo o rechazándolo, según el cumplimiento de las instrucciones y la calidad visual.

El resultado se convirtió en Pico-Banana-400K, que incluye imágenes producidas mediante ediciones de un solo turno (un solo mensaje), secuencias de edición de varios turnos (múltiples mensajes iterativos) y pares de preferencias que comparan resultados exitosos y fallidos (para que los modelos también puedan aprender cómo son los resultados indeseables).

Si bien reconocen las limitaciones de Nano-Banana en la edición espacial detallada, la extrapolación de diseño y la tipografía, los investigadores dicen que esperan que Pico-Banana-400K sirva como «una base sólida para entrenar y comparar la próxima generación de modelos de edición de imágenes guiados por texto».
Puedes encontrar el estudio en arXivy el conjunto de datos está disponible gratuitamente en GitHub.
Ofertas de accesorios en Amazon
FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.





