Microsoft ha creado una herramienta que con solo escuchar un audio de 3 segundos de tu voz , es capaz de hablar como tú, replicando la misma emoción del interlocutor. VALL-E también es capaz de imitar el ruido ambiental.
VALL-E ha sido desarrollada por un equipo de investigadores de Microsoft, basándose en la inteligencia artificial capaz de sintetizar cualquier tipo de voz escuchando un audio de 3 segundos. También puede entonar casi la misma emoción del interlocutor e imitar el sonido ambiente.
Te puede interesar: ¡A usar el cerebro y a escribir! GPTZero descubre textos hechos con inteligencia artificial
La apuesta es fuerte en este 2023 por parte de Microsoft, con herramientas de IA como ChatGPT, la cual añadirá al buscador Bing antes de abril para competir con el gigante de las búsquedas, Google.
Entre tanto, el nuevo modelo de IA de texto a voz es capaz de analizar una voz específica, la intención del interlocutor y sintetizar el audio para decir cualquier cosa que se te ocurra.
Recordemos que FakeYou es una herramienta similar que se hizo famosa en internet a mitad del año pasado, por imitar con éxito diferentes voces de personalidades célebres o personajes de ciencia ficción.
VALL-E marca ahora la diferencia, utilizando un modelo de lenguaje de códec natural. Similar al que Meta desplegó en octubre de 2022, mediante un tipo de tecnología conocida como EnCodec.
Te puede interesar: ChatGPT de OpenAI no es único. Seis empresas más, desarrollan lenguaje artificial
Microsoft también ha utilizado una biblioteca de audio llamada LibriLight, que ha sido desarrollada por Meta, aunque contiene mayormente conversaciones de habla inglesa de más de 7.000 personas de la plataforma LibriVox.
El objetivo es aprovechar esta IA para lograr una mejor calidad en las herramientas para pasar de voz a texto, en aplicaciones como WhatsApp, por ejemplo. Sin embargo, también lanzan una advertencia ante el uso indebido de este tipo de tecnologías.
“Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico. Para mitigar tales riesgos, es posible construir un modelo de detección para observar si un clip de audio ha sido sintetizado por VALL-E. También pondremos en práctica los principios de IA de Microsoft cuando desarrollemos más los modelos”, especifican los investigadores.
Te puede interesar: X-Ray, la herramienta que te mostrará el detrás de cámaras de las producciones de Prime Video
Microsoft no ha anunciado el uso de este modelo en alguno de sus productos o si solo corresponde a otro importante avance de la inteligencia artificial para 2023. Actualmente, VALL-E contiene ejemplos en castellano.
Imagen: Pixaby