VASA-1 convierte rostros en personajes hablantes impulsados por un audio, un efecto generado en tiempo real con comportamientos humanos. La futura herramienta de Microsoft ofrece alta calidad de video con dinámicas faciales y de cabeza realistas. Así funciona.
VASA-1 es una herramienta para generar caras hablantes realistas de personajes virtuales con impresionantes habilidades afectivas visuales, a partir de una única imagen estática y un clip de audio de voz.
Este modelo produce movimientos de labios perfectamente sincronizados con el audio, capturando un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad.
“Las innovaciones principales incluyen una dinámica facial holística y un modelo de generación de movimiento de la cabeza que funciona en un espacio latente del rostro, y el desarrollo de un espacio latente del rostro tan expresivo y desenredado mediante vídeos”, explica Microsoft.
Te puede interesar: Maestro, lo nuevo de Amazon Music para crear listas de música con IA
VASA promete alta calidad de video con dinámicas faciales y de cabeza realistas, permitiendo la generación en línea con formato 512×512 hasta 40 FPS; con una latencia inicial insignificante. “Allana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos”.
Las imágenes de retratos en la página de Microsoft son identidades virtuales inexistentes generadas por StyleGAN2 o DALL·E-3, excepto la de Mona Lisa. En ellas se explora la generación de habilidades afectivas visuales para personajes virtuales e interactivos, sin hacerlos pasar por personas en el mundo real.
Se producen con una gran sincronización de audio entre labios, y un amplio espectro de matices faciales expresivos y movimientos naturales de la cabeza. Se maneja un audio de longitud arbitraria y se genera de manera estable, sin interrupciones.
Te puede interesar: Meta AI anuncia mejora con ampliación de datos de entrenamiento Llama 3, abarcando más de 30 idiomas
El modelo de difusión acepta señales opcionales como condición, la dirección de la mirada principal y la distancia de la cabeza (hacia adelante, hacia la izquierda, hacia la derecha y hacia arriba); y compensaciones de emociones (neutral, felicidad, ira y sorpresa).
La herramienta administra bien las entradas de fotos y audio que están fuera de la distribución del entrenamiento. Por ejemplo, puede manejar fotografías artísticas, audios de canto y habla en idiomas distintos del inglés.
Sobre los riesgos y consideraciones responsables de la IA, la investigación de la compañía “se centra en generar habilidades afectivas visuales para avatares virtuales de IA, con el objetivo de aplicaciones positivas. No tiene como objetivo crear contenido que se utilice para inducir a error o engañar. Sin embargo, al igual que otras técnicas de generación de contenido relacionadas, aún podría utilizarse indebidamente para hacerse pasar por humanos”.
Microsoft se opone a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y señala que están interesados en aplicar la técnica para avanzar en la detección de falsificaciones. Actualmente, los videos generados por este método todavía contienen artefactos identificables, y el análisis numérico muestra que todavía hay una brecha para lograr la autenticidad de los videos reales.
Imagen: Microsoft