El reconocimiento de voz de Microsoft entiende igual que una persona

El rango de error es el mismo que el de una persona.

El rango de error es el mismo que el de una persona.
El rango de error es el mismo que el de una persona.

Los investigadores de inteligencia artificial de Microsoft dicen que su sistema de reconocimiento de voz entiende las conversaciones humanas tan bien como lo haría una persona promedio. En un artículo académico publicado por el Grupo de Investigación de Inteligencia Artificial de Microsoft, la compañía dice que su sistema de reconocimiento de discurso alcanzó ya ‘paridad humana’ y comete incluso menos errores que un transcriptor humano profesional, informó NetworkWorld.

El estudio dice que esta es la primera vez que un sistema autómata llega al mismo nivel que la capacidad humana para detección de voz. “El nivel de error de transcriptores profesionales es 5,9% para la porción de los datos Switchboard, en los que un par personas que acaban de conocerse discuten un tema asignado, y 11,3% para la porción CallHome, donde amigos y miembros de familia tienen conversaciones libres”. En ambos casos, el sistema de Microsoft llegó al mismo nivel que los  humanos.

Este logro llega después de décadas de investigación en reconocimiento de voz, desde comienzos de la década de 1970, dijo Microsoft. Con el tiempo, la mayoría de las grandes compañías de tecnología y algunas organizaciones científicas han desarrollado tecnologías de reconocimiento de voz, como BBN, Google, Microsoft, Hewlett Packard e IBM.

Según Microsoft su logro tendrá grandes implicaciones para los consumidores y los productos que pueden ser mejorados con reconocimiento de voz. Esto incluye dispositivos de entretenimiento como el Xbox, herramientas de productividad como transcripción instantánea de voz a texto y asistentes personales como Cortana.

El equipo de investigadores. Foto: Dan DeLong.
El equipo de investigadores. Foto: Dan DeLong.

Microsoft alcanzó esta meta mucho antes de lo que esperaba, y fue posible gracias al entrenamiento de redes neuronales. Estos sistemas, que simulan el funcionamiento del cerebro, usan grandes cantidades de datos (llamados sets de entrenamiento) para enseñar a los sistemas de computador a reconocer patrones de entradas como imágenes o sonidos. El equipo de investigadores usó su ‘Computational Network Toolkit’, un sistema propio de ‘deep learning’ que el equipo abrió al público vía GitHub a través de una licencia.

De acuerdo con el investigador líder de Microsoft, Geoffrey Zweig, los investigadores están trabajando en formas en las que el sistema de reconocimiento de voz funcione bien en contextos de la vida real, como lugares en los que hay mucho ruido de fondo, como fiestas o manejando. “También se enfocarán en mejores formas para ayudar a la tecnología a asignar nombres a voces individuales cuando múltiples personas están hablando, y en asegurarse de que funcione bien con una amplia variedad de voces, sin importar la edad, el acento o la habilidad”, explicó Zweig.

Y a largo plazo, los investigadores quieren hacer que los computadores no solo transcriban las señales acústicas de la voz, sino también entender las palabras que están diciendo. Eso le daría  la tecnología la habilidad de responder preguntas o tomar acciones basada en lo que se le dice, explica Microsoft. “La próxima frontera es pasar del reconocimiento al entendimiento”, dijo Zweig.

Imágenes: Dan DeLong (Microsoft) y dion gillard (vía Flickr). 

Susana Angulo

Susana Angulo

Antes de Internet ya me gustaban la música clásica, los animales,
cocinar postres, y leer cuentos de terror. La tecnología me ha
permitido ahondar en estas y tantas otras pasiones, que sería un error
pensar en la cultura digital como tema exclusivo de 'geeks'. Soy
periodista de la Universidad del Rosario.

View all posts

1 comment

Archivos