Google sabe muchas cosas, y desde el martes, sabe una mas: describir fotografías. En un post en el blog oficial de su equipo de investigación, publicado este martes, la empresa detalló su más reciente algoritmo de reconocimiento de imágenes, que permite que una máquina describa automáticamente el contenido de una fotografía.
Google dice que la imagen a continuación, por ejemplo, fue descrita por el software como “dos pizzas puestas sobre una estufa“. El software omitió la copa de vino, pero para no haber intervención humana es muy impresionante.
El software de reconocimiento de imágenes implementa un proceso que permite que la máquina aprenda a describir las imágenes y mejore las descripciones a medida que se entrena más. Tiene dos capas: una primera, entrenada para ‘ver’ y distinguir clases de objetos dentro de una imagen, y una red neuronal recurrente, que puede convertir información gráfica en palabras.
El resultado, aunque no es perfecto, impresiona mucho. Algunas imágenes son descritas con toda precisión, mientras que en otras aun falla bastante. En la que está a la izquierda, por ejemplo, el sistema vio “un perro que salta para agarrar un ‘frisbee’“.
En las pruebas BLEU, diseñadas para medir la precisión de un sistema de reconocimiento de imágenes, el algoritmo suele obtener un puntaje de entre 27 y 59 puntos –según reporta Techcrunch–, mientras que los seres humanos tienen un puntaje medio de 69 puntos.
Los investigadores de Google que participaron en el proyecto aseguran que “esta clase de sistema, eventualmente, podría ayudar a quienes tienen discapacidad visual a entender imágenes, proveer texto en lugar de imágenes en partes del mundo en el que las conexiones son lentas, y hacer que las búsquedas en Google Imágenes sean más fáciles para todos“. Aunque el software no está disponible para todos los usuarios, se espera que sea implementado pronto en algunos servicios de la empresa.
Si quieren leer el artículo académico en inglés en el que se detalla el algoritmo y el modelo computacional que dio origen al software, aquí está.
Imágenes: Chase Elliott Clark (vía Flickr), Google