Confiando en las palabras; nuevos servicios basados en la voz
El reconocimiento automático de voz (ASR) utiliza como entrada la voz del usuario y efectúa una trascripción, que potencialmente incluye errores, de lo que el usuario ha dicho. Las aplicaciones para la tecnología del reconocimiento de voz requieren sistemas fiables que obtengan resultados correctos de forma consistente en diferentes tareas y entornos. Sin embargo, los actuales sistemas de reconocimiento de voz aún no están perfeccionados y el proceso de identificación de errores en el proceso de reconocimiento de voz sigue siendo un aspecto importante. Especialmente, el reconocimiento de un extenso vocabulario de nombres propios es muy difícil. Las medidas de confianza constituyen un medio de controlar la incertidumbre relativa a la exactitud de los resultados de un sistema de reconocimiento de voz. Las medidas de confianza acústica son, así pues, útiles en muchos aspectos del reconocimiento de la voz, tales como la no aceptación de errores, la detección de palabras no incluidas en el vocabulario y la detección de palabras clave. El proyecto SMADA financiado con fondos comunitarios, ha investigado el impacto de dos causas diferentes de errores ASR: la confusión de nombres y palabras acústicamente similares y los problemas causados por el ruido de fondo o la articulación imprecisa. El proyecto encontró que las medidas de confianza basadas en la simple probabilidad acústica proporcionaron los mejores resultados en la corrección de las palabras acústicamente similares. En cuanto a los problemas causados por el ruido o una mala articulación, las medidas de confianza deben basarse en un algoritmo más complejo. El algoritmo debe se capaz de comparar la proporción de masa probabilística de la hipótesis más plausible respecto al resto de hipótesis. El proyecto encontró medidas de confianza lo bastante fiables para permitir que el gestor de diálogos de un sistema automático de ayuda listas (DA) decida cuál es la tarea que el usuario trata de llevar a cabo y como resolver cualquier ambigüedad. Garantiza que, cuando un sistema toma una decisión, la tasa de palabras erróneas (WER) sea aceptablemente baja. Estas medidas permiten reducir el número de diálogos, reduciendo así la duración de la interacción. También pueden limitar el porcentaje de propuestas erróneas efectuadas por el servicio automático. Los resultados de este proyecto también pueden utilizarse en procesos de entrenamiento y adaptación no supervisados.