European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Robust End-To-End SPEAKER recognition based on deep learning and attention models

Article Category

Article available in the following languages:

Mejorar las capacidades informáticas para reconocer a los oradores

El reconocimiento automático de la voz suele encontrarse con problemas cuando hablan muchas personas. Al aplicar los datos masivos, los investigadores han demostrado cómo se puede enseñar a las máquinas a identificar oradores individuales.

Economía digital icon Economía digital

La tecnología de reconocimiento automático de la voz (RAV) permite el reconocimiento y la traducción del lenguaje hablado en texto a través de ordenadores. Dado que las personas cada vez interactúan más con las máquinas usando la voz —como a través de aplicaciones del móvil, búsquedas y asistentes personales como Google Home—, la demanda de esta tecnología seguirá aumentando. Diferenciar oradores individuales y decir quién y cuándo habla en una grabación determinada (denominado «diarización de oradores») es una labor específica del RAV. Entre sus aplicaciones potenciales se encuentra otorgar acceso a una persona determinada o personalizar dispositivos para ofrecer una funcionalidad específica, según el orador. Sin embargo, para que esta tecnología sea eficaz de manera uniforme, se deben abordar plenamente una serie de desafíos concretos. Los niveles elevados de ruido de fondo, o cuando dos o más oradores se superponen, suelen deteriorar el rendimiento de la máquina. Asimismo, la falta de disponibilidad de un «hardware» para entrenar a sistemas automáticos a fin de que aprendan a partir de grandes cantidades de datos ha dificultado los avances.

Reconocimiento preciso del orador

El proyecto ETE SPEAKER, llevado a cabo con el apoyo de las Acciones Marie Skłodowska-Curie y coordinado por la Universidad Tecnológica de Brno en Chequia, se propuso examinar los potenciales métodos nuevos para el reconocimiento del orador. «Las condiciones que son comunes en aplicaciones de voz reales siguen siendo un desafío para los sistemas automáticos», explica la beneficiaria de una beca Marie Skłodowska-Curie Alicia Lozano-Diez, ahora profesora asociada en la Universidad Autónoma de Madrid en España. Lozano-Diez y su equipo se propusieron desarrollar sistemas de reconocimiento del orador robustos que pudieran realizar la labor en diferentes escenarios. Para ello, usaron algoritmos basados en aprendizaje profundo, capaces de diferenciar oradores directamente a partir de los datos. El proyecto empezó con una exhaustiva revisión de los métodos actuales, para ver en qué lugar las modalidades nuevas podrían ser más eficaces. Posteriormente, probaron dichos métodos nuevos. «Una manera fundamental de lograr avances son las evaluaciones tecnológicas que organizan diversas instituciones y expertos —afirma Lozano-Diez—. En esas evaluaciones, expertos de todo el mundo desarrollan sistemas para resolver una labor específica». El equipo del proyecto ETE SPEAKER usó esas oportunidades para elaborar y probar los diferentes métodos. Luego los compararon con otros equipos, a fin de identificar los desafíos que quedaban por abordar.

Métodos de aprendizaje profundo

La participación en dichas evaluaciones permitió a Lozano-Diez demostrar cómo se podía mejorar el reconocimiento del orador y cómo se podían superar algunas de las limitaciones tradicionales. El equipo fue capaz de aprovechar el potencial de los métodos de aprendizaje profundo, en parte gracias a los datos actualmente disponibles. «Un sistema que desarrollamos para un desafío concreto logró los mejores resultados entre todos los participantes —añade Lozano-Diez—. Esta evaluación se centró en grabaciones de corta duración. Las cuales pueden suponer un desafío adicional para los sistemas automáticos de reconocimiento del orador, teniendo en cuenta que cada grabación solo contiene unos pocos segundos de voz». El proyecto también desarrolló nuevos métodos para afrontar la cuestión de la superposición de oradores para la labor de diarización de oradores. Lozano-Diez planea seguir con su investigación en este ámbito, en busca de una tecnología de diarización y reconocimiento del orador aún más precisa. «Los métodos nuevos ahora son capaces de gestionar la compleja cuestión de las voces superpuestas, al aprender directamente de los datos», explica. Sin embargo, este tipo de datos —recopilados y etiquetados de forma precisa a partir de muchos escenarios diferentes— son escasos. Además, Lozano-Diez cree que se necesita más investigación para lograr que esta tecnología funcione de forma adecuada en condiciones complejas. Un buen ejemplo de ello pueden ser las conversaciones en los restaurantes, donde hay mucho ruido de fondo, o los comentarios en una conferencia grabada desde lejos con micrófonos.

Palabras clave

ETE SPEAKER, voz, traducción, lenguaje, datos, diarización, orador, algoritmos

Descubra otros artículos del mismo campo de aplicación