Meta sigue acortando camino con grandes gigantes tecnológicos como Google y Microsoft en tanto al desarrollo de inteligencias artificiales que le faciliten la vida a la humanidad. Esta vez la compañía anunció el lanzamiento de Voicebox, una IA generativa que puede hacer mucho más que producir audio o editarlo, ya que cuenta con funciones muy avanzadas en comparación a programa de edición del momento.
Quitar el pitido de un carro, el ladrido de un perro o el grito de una persona, mientras conserva el contenido y el estilo del audio, es lo que promete Meta con este lanzamiento. Es un modelo de inteligencia artificial de última generación que puede realizar tareas de generación de voz, como editar, muestrear y estilizar; además de tener la capacidad de producir voz en seis idiomas.
La compañía aseguró que puede llegar a producir voces o sonidos naturales para que los asistentes virtuales, personajes o los avatares en el metaverso, por ejemplo, hablen como si se tratara de una persona real.
Según esta IA podría ayudar a las personas con discapacidad visual escuchar mensajes escritos de amigos leídos por IA en sus voces. Además de permitirle a los creadores de contenido utilizar nuevas herramientas para crear y editar fácilmente pistas de audio para videos pensando en este tipo de seguidores.
Te puede interesar: Meta lanza I-JEPA, una IA que puede aprender como los humanos: observando
Sin embargo, ahí no queda todo, porque además de lo ya mencionado puede resumir texto a voz en contexto, tan solo con una muestra de audio de solo dos segundos de duración.
En tanto a la edición de voz y reducción de ruido, el modelo generativo puede recrear una parte de la voz interrumpida por el ruido o reemplazar palabras mal pronunciadas sin tener que volver a grabar una voz completa.
Por ejemplo, puede identificar un segmento de un discurso interrumpido por el ladrido de un perro, cortarlo e indicarle a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio.
Por otra parte, la IA puede convertir un texto en inglés, francés, alemán, español, polaco o portugués, en audio y reproducirlo en cualquiera de estos idiomas, de hecho Meta explica que lo puede hacer, incluso cuando el discurso de muestra y el texto están en diferentes idiomas.
Te puede interesar: La IA generativa impulsaría ola productiva “agregando” billones a la economía global
Voicebox se basa en un método llamado ‘Flow Matching’ no autorregresivo, que ha demostrado mejorar los modelos de difusión. El gigante tecnológico asegura que la IA “supera al actual modelo inglés de última generación VALL-E en conversión de texto a voz de tiro cero en términos de inteligibilidad y similitud de audio mientras que es hasta 20 veces más rápido”.
Es decir, la IA puede aprender “un mapeo altamente no determinista entre texto y voz. El mapeo no determinista es útil porque permite que Voicebox aprenda de datos de voz variados sin que esas variaciones tengan que etiquetarse cuidadosamente”. Esto significa que la herramienta puede entrenarse con datos más diversos y una escala de datos mucho mayor.
Imagen: Captura de pantalla