European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS

Audio-VIsual Speech Processing for Interaction in Realistic Environments

Article Category

Article available in the following languages:

Metodi innovativi consentono di potenziare il sistema di riconoscimento vocale

Se i computer fossero in grado di leggere il labiale proprio come gli esseri umani, quali sarebbero le tecniche da adottare per una corretta acquisizione della voce con l'utilizzo di attrezzature economiche? Questo interrogativo è stato al centro di un lavoro condotto da ricercatori dell'UE che hanno tentato di potenziare i sistemi di riconoscimento vocale offrendo la possibilità di distinguere le voci di parlanti diversi in condizioni reali.

Tecnologie industriali icon Tecnologie industriali

Finora, le ricerche condotte nell'ambito del riconoscimento vocale nel settore degli audiovisivi (AV) sono state incentrate sull'estrazione di informazioni visive dalla bocca dei parlanti al fine di aiutare i computer a comprendere facilmente la lingua parlata. Tuttavia, gran parte delle attività è stata incentrata su scenari ideali, caratterizzati dalla disponibilità di dati visivi di elevata qualità. Il processo si basa nello specifico su informazioni ricavate dall'acquisizione di immagini a elevata risoluzione mediante costose fotocamere puntate su una sola persona che non è libera di muoversi in modo spontaneo ed è posizionata di fronte alla macchina, solitamente in condizioni di luminosità ambientale. In tale scenario, il progetto AVISPIRE ("Audio-visual speech processing for interaction in realistic environments") si è prefissato l'obiettivo di impiegare sistemi AV economici in ambienti più realistici. Partendo quindi dalla situazione tradizionale, caratterizzata dalla presenza di un solo parlante e dalla disponibilità di dati di elevata qualità, l'iniziativa ha condotto ulteriori lavori nel settore del riconoscimento vocale in ambienti con più di un parlante e in condizioni di illuminazione differenti. Gli scienziati hanno inoltre tentato di analizzare i risultati prodotti da nuovi dispositivi di rilevamento in grado di raccogliere dati vocali desiderati. Le attività iniziali sono state incentrate sullo sviluppo dei componenti di base di un riconoscitore vocale audiovisivo automatico che, mediante l'utilizzo di un sottosistema visivo basato sul front-end, è stato integrato dall'algoritmo Adaboost, ovvero un sistema in grado di rilevare il volto del parlante, nonché da un estrattore normalizzato, vale a dire uno strumento che consente di isolare la regione oggetto di interesse dall'immagine (bocca). Per la fusione dei dati audio con i dati visivi, gli esperti si sono serviti di un modello Markov multi-stream. È stata inoltre eseguita un'estensione dei sottosistemi visivi di front-end e di fusione audiovisiva allo scopo di integrare il sensore Microsoft Kinect, ovvero un dispositivo economico in grado di fornire informazioni sui movimenti del parlante e di potenziare, in tal modo, la solidità rispetto alle pose frontali. I lavori sono quindi stati incentrati su una raccolta di dati finalizzata alla creazione del corpus AV bilingue arricchito di informazioni sul movimento che, oltre all'inglese, prevedeva registrazioni in greco. I partecipanti al progetto hanno infine studiato metodi di riconoscimento dei modelli umani da utilizzare ai fini del rafforzamento della solidità dei sistemi di riconoscimento vocale audiovisivo. Una conoscenza pregressa del numero di parlanti in uno specifico scenario, nonché della loro posizione, dovrebbe contribuire in modo significativo al perfezionamento dei risultati mediante tecniche di regolazione incentrate sul contorno della bocca dei parlanti. Oggigiorno, sebbene le interazioni uomo-computer basate su sistemi di riconoscimento vocale siano sempre più diffuse, la strada da percorrere è ancora lunga. La possibilità di comprendere più di un parlante in condizioni simili a quelle della vita reale offerta dall'iniziativa AVISPIRE ha contribuito al rafforzamento di questa tipologia di interazioni.

Scopri altri articoli nello stesso settore di applicazione