OpenAI lanza una nueva inteligencia artificial capaz de clonar la voz de las personas con una muestra de audio de 15 segundos. La compañía asegura que puede crear voces emotivas y realistas.Se trata de Voice Engine, que fue desarrollada en 2022 con el objetivo de ser usada en varias industrias; según OpenAI, la nueva IA brindaría, por ejemplo, asistencia de lectura a niños y no lectores a través de voces emotivas que suenan naturales y que representan una gama más amplia de hablantes de lo que es posible con voces preestablecidas.Referencia:
Generada por la IA
Así mismo, podría ser usada en tareas de traducción de vídeos y podcasts, esto con el fin de que creadores y empresas puedan llegar a más personas. Algunas de las empresas que ya han usado esta tecnología es HeyGen, una plataforma de narración visual de IA que trabaja con sus clientes empresariales para crear avatares personalizados con apariencia humana; esta hace, la traducción de videos, de modo que puedan traducir la voz de un orador a varios idiomas.
Te puede interesar: Crea videos de personas hablando solo utilizando fotos: Así funciona VLOGGER, IA de Google
La inteligencia artificial es capaz de conservar el acento nativo del hablante original, por ejemplo, generar inglés con una muestra de audio de un hablante francés produciría un habla con acento francés.Por otra parte, Voice Engine, pueden ofrecer a las personas voces no verbales únicas y no robóticas en muchos idiomas. Es decir, sus usuarios pueden elegir el discurso que mejor los represente y, para los usuarios multilingües, mantener una voz coherente en cada idioma hablado.Aunque, OpenAI señala que es un gran avance, también reconoceque generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, sobretodo cuando este es un año electoral para varios países.
Te puede interesar: ¿Cómo te sientes? Hume IA te lo dice y descubre emociones ocultas: Así la puedes probar
“Estamos colaborando con socios estadounidenses e internacionales de todo el gobierno, los medios de comunicación, el entretenimiento, la educación, la sociedad civil y más para garantizar que incorporamos sus comentarios a medida que construimos”, explica.Ante esto, cualquier implementación amplia de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está agregando conscientemente su voz al servicio y una lista de voces prohibidas que detecte y evite la creación de voces que sean demasiado similares. a figuras destacadas.
Imagen: luckystep