Ponle audio a un rostro y lo hablará perfectamente en tiempo real, Microsoft presenta VASA

abril 22, 2024

VASA-1 convierte rostros en personajes hablantes impulsados por un audio, un efecto generado en tiempo real con comportamientos humanos. La futura herramienta de Microsoft ofrece alta calidad de video con dinámicas faciales y de cabeza realistas. Así funciona.

VASA-1 es una herramienta para generar caras hablantes realistas de personajes virtuales con impresionantes habilidades afectivas visuales, a partir de una única imagen estática y un clip de audio de voz.
Este modelo produce movimientos de labios perfectamente sincronizados con el audio, capturando un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad.

“Las innovaciones principales incluyen una dinámica facial holística y un modelo de generación de movimiento de la cabeza que funciona en un espacio latente del rostro, y el desarrollo de un espacio latente del rostro tan expresivo y desenredado mediante vídeos”, explica Microsoft.

Te puede interesar: Maestro, lo nuevo de Amazon Music para crear listas de música con IA

VASA promete alta calidad de video con dinámicas faciales y de cabeza realistas, permitiendo la generación en línea con formato 512×512 hasta 40 FPS; con una latencia inicial insignificante. “Allana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos”.

Las imágenes de retratos en la página de Microsoft son identidades virtuales inexistentes generadas por StyleGAN2 o DALL·E-3, excepto la de Mona Lisa. En ellas se explora la generación de habilidades afectivas visuales para personajes virtuales e interactivos, sin hacerlos pasar por personas en el mundo real.

Se producen con una gran sincronización de audio entre labios, y un amplio espectro de matices faciales expresivos y movimientos naturales de la cabeza. Se maneja un audio de longitud arbitraria y se genera de manera estable, sin interrupciones.

Te puede interesar: Meta AI anuncia mejora con ampliación de datos de entrenamiento Llama 3, abarcando más de 30 idiomas

El modelo de difusión acepta señales opcionales como condición, la dirección de la mirada principal y la distancia de la cabeza (hacia adelante, hacia la izquierda, hacia la derecha y hacia arriba); y compensaciones de emociones (neutral, felicidad, ira y sorpresa).

La herramienta administra bien las entradas de fotos y audio que están fuera de la distribución del entrenamiento. Por ejemplo, puede manejar fotografías artísticas, audios de canto y habla en idiomas distintos del inglés.

Sobre los riesgos y consideraciones responsables de la IA, la investigación de la compañía “se centra en generar habilidades afectivas visuales para avatares virtuales de IA, con el objetivo de aplicaciones positivas. No tiene como objetivo crear contenido que se utilice para inducir a error o engañar. Sin embargo, al igual que otras técnicas de generación de contenido relacionadas, aún podría utilizarse indebidamente para hacerse pasar por humanos”.

Microsoft se opone a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y señala que están interesados en aplicar la técnica para avanzar en la detección de falsificaciones. Actualmente, los videos generados por este método todavía contienen artefactos identificables, y el análisis numérico muestra que todavía hay una brecha para lograr la autenticidad de los videos reales.

Imagen: Microsoft

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Ponle audio a un rostro y lo hablará perfectamente en tiempo real, Microsoft presenta VASA

Te puede interesar: Maestro, lo nuevo de Amazon Music para crear listas de música con IA

Te puede interesar: Meta AI anuncia mejora con ampliación de datos de entrenamiento Llama 3, abarcando más de 30 idiomas

Digna Irene Urrea

Relacionados

¿Discusiones en casa por las tareas domésticas? Esta app organiza, asigna y reduce el estrés familiar

Ni siquiera en los estados: WhatsApp ya no te permitirá tomar capturas de pantalla

WhatsApp se renueva, estas son las nuevas funciones que llegan en abril 2025

¿Cuáles fueron las aplicaciones más descargadas del mundo en el primer trimestre de 2025?

Textos que se leen solos y tareas que se resuelven sin ayuda: así se renueva Google Workspace, más allá de los simples resúmenes con IA

Así funciona “Comprar por Mí”, lo nuevo de Amazon ¿Realmente lo hace?

Lo más leído de la semana

Nubank lanza un nuevo préstamo para nuevos trabajadores, ¿cómo acceder y dónde está disponible?

Así quedaron definidas las semifinales de la Champions League 2025: fechas, horarios y dónde ver los partidos

Así puedes descargar libros gratis de Google Drive y otras plataformas legales

OpenAI retira GPT-4 de ChatGPT ¿Desde cuándo aplica y qué cambia?

Estrenos destacados de abril en Netflix, Prime Video, Disney+ y el resto del streaming

5 tecnológicas para invertir desde Colombia con solo 10 dólares y aprovechar la tensión entre EE. UU. y China

Estudio advierte que las tomografías computarizadas podrían estar detrás del 5 % de los cánceres

Ahora puedes programar mensajes en WhatsApp con ayuda de inteligencia artificial ¿Cómo funciona?

Archivos

Ponle audio a un rostro y lo hablará perfectamente en tiempo real, Microsoft presenta VASA

Te puede interesar: Maestro, lo nuevo de Amazon Music para crear listas de música con IA

Te puede interesar: Meta AI anuncia mejora con ampliación de datos de entrenamiento Llama 3, abarcando más de 30 idiomas

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos