European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS

A Model for Predicting Perceived Quality of Audio-visual Speech based on Automatic Assessment of Intermodal Asynchrony

Article Category

Article available in the following languages:

Valutare la qualità del parlato audiovisivo

Se il video è in ritardo rispetto al parlato, questo può scoraggiare gli utenti dall'usare la tecnologia. Una nuova ricerca sulla misurazione efficace dei segnali audiovideo asincroni potrebbe contribuire a risolvere questo fenomeno.

Tecnologie industriali icon Tecnologie industriali

La comunicazione audiovideo high-tech sta diventando una forma di scambio molto comune, dalle teleconferenze via satellite alle chat live con gli smart phone. Per semplice che possa sembrare il concetto, accoppiare l'immagine e la voce in modo sincronizzato è difficile ma importantissimo per il successo di applicazioni tanto complicate. Se gli utenti si accorgono che la comunicazione non è sincronizzata potrebbero passare ad altri mezzi di comunicazione. In questo contesto, il progetto PERCQUALAVS, finanziato dall'UE, si proponeva di misurare la sincronizzazione tra gli elementi visivi e acustici di queste tecnologie. Basandosi su settori come la visione computerizzata, la scienza cognitiva, l'apprendimento automatico e l'elaborazione del parlato, ha concepito un modello per prevedere la qualità percepita del parlato audiovisivo. Per raggiungere i suoi obiettivi, il progetto è stato diviso in quattro parti. La prima si è occupata di estrarre caratteristiche audiovisive chiave da un segnale di input per applicare una rilevazione automatica dell'asincronia. La seconda comportava la raccolta di dati di risposta percettiva soggettivi mediante diversi esperimenti percettivi. Il terzo componente ha analizzato le risposte percettive raccolte, mentre il quarto era un componente di apprendimento automatico che prevede la percezione umana dell'input asincrono. Il team del progetto è riuscito a sviluppare estrattori di caratteristiche basati sulla visione computerizzata che seguono le labbra in tempo reale ed estraggono dati preziosi, creando anche strumenti di elaborazione del parlato che facilitano l'analisi dei dati. Un altro importante risultato del progetto è stato lo sviluppo di un software per elaborare le caratteristiche estratte in modo da misurare la sincronia e mappare i risultati. Questo ha permesso di fare un confronto tra le risposte percettive degli utenti e i risultati generati automaticamente. Sebbene i risultati del progetto non siano stati divulgati adeguatamente a causa di diversi limiti tecnici e di tempo, hanno gettato le basi per ulteriore ricerca nel settore. È un passo avanti per valutare e migliorare la tecnologia audiovisiva, che sta crescendo rapidamente in tutto il mondo.

Parole chiave

Audiovisivo, qualità del parlato, asincrono, comunicazione, apprendimento automatico, percezione umana, input asincrono

Scopri altri articoli nello stesso settore di applicazione