Voicebox, la nueva IA multilingüe de Mark Zuckerberg que produce y edita audio pregrabado

junio 16, 2023

Meta sigue acortando camino con grandes gigantes tecnológicos como Google y Microsoft en tanto al desarrollo de inteligencias artificiales que le faciliten la vida a la humanidad. Esta vez la compañía anunció el lanzamiento de Voicebox, una IA generativa que puede hacer mucho más que producir audio o editarlo, ya que cuenta con funciones muy avanzadas en comparación a programa de edición del momento.

Quitar el pitido de un carro, el ladrido de un perro o el grito de una persona, mientras conserva el contenido y el estilo del audio, es lo que promete Meta con este lanzamiento. Es un modelo de inteligencia artificial de última generación que puede realizar tareas de generación de voz, como editar, muestrear y estilizar; además de tener la capacidad de producir voz en seis idiomas.

La compañía aseguró que puede llegar a producir voces o sonidos naturales para que los asistentes virtuales, personajes o los avatares en el metaverso, por ejemplo, hablen como si se tratara de una persona real.

Según esta IA podría ayudar a las personas con discapacidad visual escuchar mensajes escritos de amigos leídos por IA en sus voces. Además de permitirle a los creadores de contenido utilizar nuevas herramientas para crear y editar fácilmente pistas de audio para videos pensando en este tipo de seguidores.

Te puede interesar: Meta lanza I-JEPA, una IA que puede aprender como los humanos: observando

Sin embargo, ahí no queda todo, porque además de lo ya mencionado puede resumir texto a voz en contexto, tan solo con una muestra de audio de solo dos segundos de duración.

En tanto a la edición de voz y reducción de ruido, el modelo generativo puede recrear una parte de la voz interrumpida por el ruido o reemplazar palabras mal pronunciadas sin tener que volver a grabar una voz completa.

Por ejemplo, puede identificar un segmento de un discurso interrumpido por el ladrido de un perro, cortarlo e indicarle a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio.

Por otra parte, la IA puede convertir un texto en inglés, francés, alemán, español, polaco o portugués, en audio y reproducirlo en cualquiera de estos idiomas, de hecho Meta explica que lo puede hacer, incluso cuando el discurso de muestra y el texto están en diferentes idiomas.

Te puede interesar: La IA generativa impulsaría ola productiva “agregando” billones a la economía global

Voicebox se basa en un método llamado ‘Flow Matching’ no autorregresivo, que ha demostrado mejorar los modelos de difusión. El gigante tecnológico asegura que la IA “supera al actual modelo inglés de última generación VALL-E en conversión de texto a voz de tiro cero en términos de inteligibilidad y similitud de audio mientras que es hasta 20 veces más rápido”.

Es decir, la IA puede aprender “un mapeo altamente no determinista entre texto y voz. El mapeo no determinista es útil porque permite que Voicebox aprenda de datos de voz variados sin que esas variaciones tengan que etiquetarse cuidadosamente”. Esto significa que la herramienta puede entrenarse con datos más diversos y una escala de datos mucho mayor.

Imagen: Captura de pantalla

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Voicebox, la nueva IA multilingüe de Mark Zuckerberg que produce y edita audio pregrabado

Te puede interesar: Meta lanza I-JEPA, una IA que puede aprender como los humanos: observando

Te puede interesar: La IA generativa impulsaría ola productiva “agregando” billones a la economía global

Digna Irene Urrea

Relacionados

Google lanza generador de videos con IA, ¿cómo funciona y qué cambia para los creadores?

Así es Ironwood, el nuevo “cerebro” de Google que promete transformar la forma en que trabajamos

¿Es justo usar el estilo Ghibli con IA? Lo que no se dice sobre estas imágenes virales

ONU revela que la IA está en pocas manos: 100 empresas concentran la inversión y 118 países no participan

María Victoria Quiñones, la jueza colombiana que usa IA de Microsoft en su tribunal: “La justicia que no espera”

Apple Intelligence ya habla español y llega a Colombia con iOS 18.4

Lo más leído de la semana

Nubank lanza un nuevo préstamo para nuevos trabajadores, ¿cómo acceder y dónde está disponible?

La mejor serie y película de 2025 en cada plataforma de streaming, según la crítica

Así quedaron definidas las semifinales de la Champions League 2025: fechas, horarios y dónde ver los partidos

OpenAI retira GPT-4 de ChatGPT ¿Desde cuándo aplica y qué cambia?

Estudio advierte que las tomografías computarizadas podrían estar detrás del 5 % de los cánceres

Nu recibe luz verde para convertirse en banco: ¿qué era antes y qué cambia para los usuarios?

¿Cómo comprar Starlink en Colombia: guía práctica, planes y ventajas del internet satelital?

Archivos

Voicebox, la nueva IA multilingüe de Mark Zuckerberg que produce y edita audio pregrabado

Te puede interesar: Meta lanza I-JEPA, una IA que puede aprender como los humanos: observando

Te puede interesar: La IA generativa impulsaría ola productiva “agregando” billones a la economía global

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos