Contenuto archiviato il 2024-05-27

Synthesised talking face derived from speech for hearing disabled users of voice channels

Accelerare lo sviluppo dei sistemi di riconoscimento dei suoni

Per il prototipo Synface, è stato sviluppato un sistema ad alto livello di riconoscimento dei fonemi, con un tempo di ritardo minimo. Si tratta di una tecnologia plurilingue per una faccia sintetica basata sulla parola che fornisce importanti informazioni visive sul discorso agli utilizzatori ipoudenti di telefoni o altri canali vocali.

Economia digitale

Le persone affette da menomazioni auditive sono enormemente svantaggiate quando si tratta di usare l'informazione tecnologica parlata. I movimenti visibili della faccia sono un ottimo mezzo per aumentare la intelligibilità del discorso, a disposizione di tutti coloro che sono in aree rumorose in generale e dei soggetti ipoudenti in particolare. Si tratta di nuovi sviluppi resi possibili dalla rapida evoluzione della tecnologia multimodale del linguaggio e dalla maggiore potenza di elaborazione dei PC. In particolare, il prototipo Synface è un sistema che consiste in un ibrido di RNN (recurrent neural network) e HMM (hidden Markov model). Le RNN funzionano come calcolatori immagine per immagine delle probabilità a posteriori di ciascun suono del discorso in base alla rilevanza acustica. Le probabilità vengono poi inviate agli HMM, che contengono un modello di evoluzione temporale. Un decodificatore estrae la miglior sequenza fonetica di un segmento di discorso dato. Il principale vantaggio del riconoscitore è che può essere utile in alcune situazioni che richiedono un riconoscimento rapido, come nel software di allenamento alla pronuncia. Il dispositivo è attualmente disponibile in inglese, fiammingo e svedese.

Informazioni relative al progetto

SYNFACE

ID dell’accordo di sovvenzione: IST-2001-33327