Skip to main content

Multimodal context and voice recognition for seamless voice control technology interfaces with low upfront cost

Article Category

Article available in the folowing languages:

El control por voz para la inteligencia artificial de las cosas podría augurar un futuro más seguro y sencillo

La pandemia de COVID-19 ha puesto de manifiesto las ventajas del control de dispositivos sin contacto. El equipo del proyecto XMOS ha desarrollado una interfaz de voz para el campo emergente de la inteligencia artificial de las cosas que permite realizar funciones complejas a un bajo coste económico y ambiental.

Economía digital

Las interfaces de voz constituyen una forma más sencilla, segura y natural de interactuar con los dispositivos. El equipo del proyecto XMOS ha desarrollado una interfaz que puede detectar la presencia humana, distinguir a un usuario de otro y actuar de manera adecuada. «La interfaz XMOS emplea un microcontrolador de muy bajo coste que ejecuta el procesamiento de voz de forma local y que solo emplea una pequeña cantidad de energía y espacio físico en un dispositivo. Además, agregamos sensores para proporcionar información local, privada y sensible sobre la detección de personas», explica Mark Lippett, director general de XMOS. Los algoritmos desarrollados en el proyecto se incorporaron al producto XVF3510, que ya está siendo empleado por diversos fabricantes, incluido un operador europeo para un centro de hogar inteligente de «próxima generación».

Del sensor a la red neuronal y a la aplicación

Tras la comercialización de este producto, los usuarios solicitaron la posibilidad de personalizar la interfaz de voz, en concreto querían incorporar ellos mismos más «inteligencia» para así no depender de terceros. Este punto de vista inspiró al equipo del proyecto para crear una plataforma de desarrollo económico para la inteligencia artificial de las cosas denominada xcore.ai. Si bien la plataforma proporciona la infraestructura, un kit de desarrollo de «software» (SDK, por sus siglas en inglés) permite a los desarrolladores integrar inteligencia flexible y de altas prestaciones en sus productos. El SDK puede combinar señales de múltiples sensores, como micrófonos, cámaras o incluso radares pequeños, y utiliza una red neuronal para detectar características esenciales, como una palabra o un rostro específicos. El equipo de XMOS ha empleado una unidad de procesamiento de vectores especial, que normalmente solo se encuentra en procesadores gráficos caros, para aumentar la eficiencia de este proceso y mantener unos costes bajos. «Para facilitar a los diseñadores el uso de nuestra plataforma, ofrecemos interfaces de sensor y funciones de procesamiento previo como parte del juego de herramientas. La red neuronal utiliza un formato estándar de la industria para que los usuarios puedan crear aplicaciones rápidamente con herramientas que ya conocen», comenta Tom Blackie, responsable del proyecto XMOS. El equipo del proyecto XMOS contactó con usuarios potenciales para probar diseños y recopilar comentarios. «La COVID-19 afectó a nuestras pruebas de prototipos en laboratorio, por lo que creamos un programa de acceso temprano en línea y enviamos “Explorer Kits” a más de treinta organizaciones —señala Blackie—. La posibilidad de que los usuarios pudieran llevar a cabo pruebas en entornos reales nos permitió recopilar comentarios rápidos y concretos sobre nuestro trabajo». Para el equipo de XMOS la privacidad y la seguridad constituía una prioridad máxima, por lo que aplicaron varias técnicas como, por ejemplo, la codificación del «software» del dispositivo. Además, los datos se procesan de forma local, lo que permite prescindir de servicios externos basados​en la nube; incluso es posible operar sin ningún tipo de conexión de red.

Por una vida mejor y más segura

Además de los beneficios para la salud pública del control sin contacto, el proyecto XMOS podría mejorar la inclusión y la diversidad a medida que las interfaces de voz eliminan las expectativas implícitas de movilidad, agilidad y alfabetización para las tareas diarias. El funcionamiento en modo manos libres también ofrece ventajas en entornos de riesgo. Por ejemplo, en las cocinas, la capacidad del sistema para distinguir entre personas podría evitar que los niños utilicen electrodomésticos peligrosos, como los hornos. El uso de una interfaz de voz de bajo consumo, en vez de un procesador de aplicaciones y servicios en la nube con más consumo energético, ofrece asimismo ahorros de energía, lo que reduce los impactos de carbono relacionados. «Se prevé que el mercado de la inteligencia artificial de las cosas se convierta en una industria de 3 billones de dólares estadounidenses de aquí a 2024. Actualmente estamos estudiando una amplia variedad de aplicaciones en múltiples industrias como, por ejemplo, las oportunidades de biomonitorización en la atención sanitaria. Esperamos impulsar la evolución de uno de los desarrollos tecnológicos más apasionantes de nuestra era», apunta Lippett.

Palabras clave

XMOS, inteligencia artificial, inteligencia de las cosas, sin contacto, COVID-19, manos libres, voz, interfaz, salud pública, sensores, seguridad

Descubra otros artículos del mismo campo de aplicación