Confidare nelle parole: nuovi servizi pilotati dal discorso
L'ASR (Automatic speech recognition) usa come input la parola dell'utilizzatore e produce una trascrizione, con possibili errori, di ciò che ha detto. Le applicazioni reali della tecnologia di riconoscimento vocale hanno bisogno di sistemi affidabili in grado di ottenere risultati in massima parte corretti in differenti compiti e contesti. I sistemi attuali non sono però ancora molto perfezionati, e l'identificazione degli errori nel processo di riconoscimento vocale è ancora molto importante. In particolare, è particolarmente difficile riconoscere un vasto vocabolario di nomi. Le misure di affidabilità sono un mezzo per gestire l'incertezza sull'accuratezza dei risultati di un sistema di riconoscimento vocale. Le misure di affidabilità acustica sono quindi in molti aspetti del riconoscimento vocale, ad esempio il rifiuto dell'errore, il rilevamento di parole non presenti nel dizionario e la campionatura su parole chiave. Il progetto SMADA, finanziato dall'UE, ha condotto ricerche sull'impatto di due differenti cause di errore dell'ASR: la confusione tra nomi e parole acusticamente simili, e i problemi dovuti al rumore di fondo o dall'articolazione poco chiara dei suoni. Il progetto ha constatato che le misure di affidabilità basate su somiglianze acustiche hanno dato i migliori risultati nella correzione della confusione tra parole acusticamente simili. Per quanto riguarda i problemi dovuti al rumore o ad una cattiva articolazione del suono, le misure di affidabilità debbono usare un algoritmo più complesso, in grado di comparare il livello di probabilità della migliore ipotesi formulabile rispetto alle altre ipotesi possibili. Il progetto ha messo a punto misure di affidabilità sufficientemente sicure da permettere al gestore di dialogo di un DA automatico di stabilire il compito che l'utilizzatore sta cercando di portare a termine e come risolvere le ambiguità, garantendo così che il WER (Word Error Rate) di una decisione del sistema sia sufficientemente basso. Le misure permettono di ridurre il numero di scambi di dialogo, e quindi la durata dell'interazione, e limitano la percentuale di proposte errate fatte dal servizio automatico. I risultati del progetto possono essere utilizzati per la formazione e l'adattamento non controllati.