Investigadores de Microsoft publicaron un artículo esta semana sobre VASA-1, una nueva herramienta de inteligencia artificial que puede generar un video convincente de alguien hablando, usando solo una imagen fija. Microsoft no tiene planes inmediatos de lanzar la nueva herramienta al público, pero es bastante impresionante. Bueno, es impresionante si no te fijas demasiado en los dientes. Sólo echa un vistazo a esos masticadores.
El modelo VASA-1 funciona tomando cualquier fotografía de un rostro humano o, en los ejemplos publicado por Microsoftuna cara generada por IA de alguien que en realidad no existe y, después de recibir un archivo de audio, puede producir un video sincronizado que incluye matices faciales y movimientos de apariencia natural.
Nuevamente, todo es bastante impresionante, como puede ver en uno de los videos que Microsoft proporciona a continuación. Pero el único área en la que VASA-1 parece tener problemas es en la fabricación de dientes. Si te concentras en los dientes, pueden adquirir una calidad caricaturesca, apareciendo ligeramente animados de una manera que no encaja del todo con la calidad hiperrealista de todo lo demás.
Los extraños dientes del video se vuelven aún más evidentes cuando reduce la velocidad, como lo hizo Gizmodo en el GIF a continuación. (Casi puede hacerte sentir mal al analizar la apariencia de alguien hasta que recuerdas que la persona de abajo literalmente no existe).
Otro vídeo de ejemplo proporcionado por Microsoft, que aparece a continuación, muestra cualidades similares a las de los dibujos animados en los dientes, aunque otras características parecen muy realistas, especialmente cuando se recuerda que el único material fuente es una imagen estática y un archivo de audio.
Por alguna razón, los dientes en los videos que mostraban a hombres eran un poco menos notorios, tal vez porque el modelo no mostraba a los hombres abriendo tanto la boca mientras hablaban. Pero cualquiera que mire de cerca todavía puede tener la sensación de que algo no está bien aquí.
Una de las cosas más interesantes observadas por los investigadores es que su modelo puede producir vídeos de calidad relativamente alta muy rápidamente, algo que les gusta a otros generadores de IA. Sora de OpenAI supuestamente han luchado. De hecho, el documento señala una latencia de sólo 0,17 segundos en una PC de escritorio con una sola tarjeta NVIDIA. GPU RTX 4090.
Y esa velocidad es algo que puede ofrecer videos instantáneos para una variedad de aplicaciones, como servicios de traducción en tiempo real.
“Nuestro método no solo ofrece alta calidad de video con dinámicas faciales y de cabeza realistas, sino que también admite la generación en línea de videos de 512×512 a hasta 40 FPS con una latencia inicial insignificante. Allana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos”, se lee en el nuevo artículo.
Los investigadores son claramente conscientes de los peligros de este tipo de tecnología, lo que quizás explica por qué Microsoft no ha anunciado planes para lanzarla al público todavía. Sin embargo, los investigadores también han identificado casos de uso que creen que serán útiles para la humanidad.
“Los beneficios, como mejorar la equidad educativa, mejorar la accesibilidad para personas con dificultades de comunicación, ofrecer compañía o apoyo terapéutico a quienes lo necesitan, entre muchos otros, subrayan la importancia de nuestra investigación y otras exploraciones relacionadas. Estamos dedicados a desarrollar la IA de manera responsable, con el objetivo de promover el bienestar humano”, se lee en el documento.
«Dado tal contexto, no tenemos planes de lanzar una demostración en línea, API, producto, detalles de implementación adicionales o cualquier oferta relacionada hasta que estemos seguros de que la tecnología se utilizará de manera responsable y de acuerdo con las regulaciones adecuadas».
Probablemente sea una buena idea, dada la número de estafas que son posibles con este tipo de tecnología. Después de todo, solo faltan siete meses para las elecciones presidenciales de 2024 en Estados Unidos. Y el amenaza del fascismo a nivel mundial no va a desaparecer pronto. La humanidad realmente se siente impotente contra las falsificaciones generadas por la IA en este momento. Y las grandes empresas como Microsoft probablemente deberían hacer todo lo que esté a su alcance para limitar el daño potencial antes de que prácticamente todo lo que hay en Internet se convierta en una falsificación.




