Un proyecto entre Google DeepMind (la división de inteligencia artificial de Google) y la Universidad de Oxford aplicó aprendizaje de máquinas a una gran base de datos de programas de la cadena BBC para crear un sistema de lectura de labios que deja a los profesionales en ese campo muy por debajo en cuanto a eficiencia, informó New Scientist.
El sistema de inteligencia artificial fue entrenado para usar cerca de 5.000 horas de seis distintos programas de televisión, que en total sumaron 118.000 frases. Primero, los investigadores de la Universidad de Oxford y DeepMind entrenaron al sistema con programas que se presentaron entre enero de 2010 y diciembre de 2015. Luego probaron su desempeño para subtitular otros programas que se presentaron entre marzo y septiembre de 2016. Pero tan solo al analizar los labios de las personas el sistema pudo descifrar acertadamente frases completas.
El sistema creado por DeepMind y Oxford superó a un lector de labios profesional que intentó descifrar 200 clips seleccionados al azar de la base de datos. El profesional acertó solo el 12,4% de las palabras sin error. Pero el sistema de AI anotó el 46,8% de todas las palabras de la base de datos de marzo a septiembre sin ningún error. Además, la mayoría de los errores eran pequeños, como una ‘s’ faltante al final de una palabra. Con estos resultados, el sistema también supera otros sistemas automáticos de lectura de labios.
Hace unas semanas, un sistema parecido de aprendizaje de máquinas, llamado LipNet, también desarrollado en la Universidad de Oxford; superó a los humanos con una base de datos conocida como Grid. Pero Grid solo contiene un vocabulario de 51 palabras únicas, mientras que la base de BBC tenía casi 17.500 palabras únicas, así que era un desafío mucho mayor. Además, la gramática en la base de datos de BBC tenía mucha más diversidad de discurso humano real.
¿Cómo lo hizo Google?
Para que la base de datos de BBC fuera apta para la lectura automática de labios, los clips de videos tuvieron que ser preparados usando aprendizaje de máquinas. Pero surgió un problema porque los hilos de audio y video estaban desfasados en algunas partes hasta un segundo, lo cual hubiera hecho imposible que la AI aprendiera las asociaciones entre las palabras dichas y la forma en que la persona movía sus labios. Pero luego, al asumir que la mayor parte de los videos estaban correctamente sincronizados a su audio, el sistema fue entrenado para identificar los enlaces correctos entre sonidos y formas de la boca. Usando esta información, el sistema descubrió qué tanto de los contenidos estaban desfasados cuando no correspondían, y los alineó automáticamente. Los investigadores dicen que la cuestión ahora es saber para qué usar las capacidades del sistema que crearon. Principalmente el sistema de lectura de labios puede ser usado para que los dispositivos móviles identifiquen mejor lo que les decimos para comandos de voz, y en condiciones difíciles, como un recinto lleno de personas.Imagen: Pixabay.