La división de inteligencia artificial de Google, DeepMind, acaba de presentar una maquina que produce las voces humanas más realistas hasta el momento. El sistema, llamado WaveNet, genera voces con tan solo una muestra de voz humana real y crea ondas de audio basado en la muestra, según informó The Verge.
Google publicó un reporte completo y un artículo para el público, junto a muestras de audio de lo que es capaz de hacer su sustema. En todas las pruebas que escuchamos, que están en inglés y en mandarín, WaveNet demuestra que es mucho más realista que otros programas que pasan el texto a sonido, aunque aún no llega a ser completamente igual al discurso humano. Además de las voces, el sistema también puede tocar el piano.
Los programas de ‘texto a voz’ cada vez son más importante para la computación porque las personas están necesitando más de bots y asistentes personales con AI, como Siri, Cortana, Alexa y Google Assistant.
Sin embargo, cuando le haces una pregunta a Siri o Cortana, estos sistemas responden con grabaciones de una voz humana, reacomodadas y combinadas en pequeñas partes. Este método se conoce como ‘texto a voz’ concatenante. Los resultados son relativamente realistas, pero como explica Google, producir una nueva voz o tono requiere tener a un actor que grabe todos los sonidos posibles para que se guarden en una base de datos. Esta es una muestra de ese tipo de voz.
El método alternativo es el ‘texto a voz’ paramétrico, que consiste en construir voces generadas por computador. Esto se logra usando reglas codificadas basadas en la gramática o en los sonidos vocales. Las voces paramétricas no necesitan materiales base para producir voces, pero los resultados, generalmente, son robóticos y artificiales. Escucha aquí este método.
Por su parte, el sistema de Google aún está basado en una muestra inicial real, pero en lugar de recortar las grabaciones, el sistema aprende de ellas e independientemente crea sus propios sonidos en una variedad de voces. De hecho, WaveNet solo conoce los sonidos de los idiomas, no su contenido. Para construir discursos con sentido, Google moldea los resultados con reglas lingüísticas y sugerencias. Así suena:
Adicionalmente, el sistema en sí no está construido únicamente para hablar. También es capaz de otras labores, como tocar el piano. Sin embargo esto podría no sorprender, porque ya existen varios sistemas que autogeneran música y no es tan complicado como crear voces humanas. Además, la AI ya es capaz de componer música por sí misma.
Por ahora Google no tiene planeado usar WaveNet para sus productos, como Google Assistant, porque el sistema requiere una gran cantidad de energía y procesos complejos. Si quieres aprender a fondo cómo funciona este sistema puedes leer alguno de los dos reportes científicos publicados.
Imagen: Pixabay.
Es realmente impresionante lo cerca que está de sonar como un humano!