
El modelo, llamado SHARP, puede reconstruir una escena 3D fotorrealista a partir de una sola imagen en menos de un segundo. A continuación se muestran algunos ejemplos.
SHARP es simplemente increíble
Apple ha publicado un estudio titulado Síntesis de visión monocular nítida en menos de un segundo, en la que detalla cómo entrenó un modelo para reconstruir una escena 3D a partir de una única imagen 2D, manteniendo distancias y escalas consistentes en términos del mundo real.
Así es como los investigadores de Apple presentan el estudio:
Presentamos SHARP, un enfoque para la síntesis de vistas fotorrealistas a partir de una sola imagen. Dada una sola fotografía, SHARP realiza una regresión de los parámetros de una representación gaussiana 3D de la escena representada. Esto se hace en menos de un segundo en una GPU estándar mediante un único paso de avance a través de una red neuronal. La representación gaussiana 3D producida por SHARP se puede renderizar en tiempo real, generando imágenes fotorrealistas de alta resolución para vistas cercanas. La representación es métrica, con escala absoluta, soportando movimientos de cámara métricos. Los resultados experimentales demuestran que SHARP ofrece una sólida generalización inmediata en todos los conjuntos de datos. Establece un nuevo estado del arte en múltiples conjuntos de datos, reduciendo LPIPS entre un 25% y un 34% y DISTS entre un 21% y un 43% en comparación con el mejor modelo anterior, al tiempo que reduce el tiempo de síntesis en tres órdenes de magnitud.
En pocas palabras, el modelo predice una representación 3D de la escena, que puede representarse desde puntos de vista cercanos.

Un gaussiano 3D es básicamente una pequeña mancha difusa de color y luz, ubicada en el espacio. Cuando se combinan millones de estas manchas, se puede recrear una escena 3D que parece precisa desde ese punto de vista específico.
Para crear este tipo de representación 3D, la mayoría de los métodos de dispersión gaussiana requieren docenas o incluso cientos de imágenes de la misma escena, capturadas desde diferentes puntos de vista. El modelo SHARP de Apple, por el contrario, es capaz de predecir una representación completa de una escena gaussiana en 3D a partir de una sola fotografía en un paso directo de una red neuronal.
Para lograr esto, Apple entrenó a SHARP con grandes cantidades de datos sintéticos y del mundo real, lo que le permitió aprender patrones comunes de profundidad y geometría en múltiples escenas.
Como resultado, cuando se le presenta una nueva fotografía, el modelo estima la profundidad, la refina usando lo que ha aprendido y luego predice la posición y apariencia de millones de gaussianos 3D en una sola pasada.
Esto permite a SHARP reconstruir una escena 3D plausible sin requerir múltiples imágenes ni una optimización lenta por escena.
Sin embargo, existe una compensación. SHARP representa con precisión puntos de vista cercanos, en lugar de sintetizar partes de la escena completamente invisibles. Esto significa que los usuarios no pueden alejarse demasiado del punto de vista desde donde se tomó la fotografía, ya que el modelo no sintetiza partes de la escena que no se ven por completo.
Así es como Apple mantiene el modelo lo suficientemente rápido como para generar el resultado en menos de un segundo, además de lo suficientemente estable como para crear un resultado más creíble. Aquí hay una comparación entre SHARP y Gen3C, que es uno de los métodos anteriores más potentes:
Quizás más interesante que tomarle la palabra a Apple es intentarlo uno mismo. Con ese fin, Apple ha puesto SHARP a disposición en GitHuby los usuarios han estado compartiendo sus propios resultados con sus pruebas.
Aquí hay algunas publicaciones que los usuarios de X han compartido durante los últimos días:
Habrás notado que la última publicación es en realidad un video. Esto va más allá del alcance original de Apple para SHARP y muestra otras formas en las que este modelo, o al menos su enfoque subyacente, podría ampliarse en trabajos futuros.
Si decide probar SHARP, comparta los resultados con nosotros en los comentarios a continuación.
Ofertas de accesorios en Amazon
FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



