Skip to main content
Vai all'homepage della Commissione europea (si apre in una nuova finestra)
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS
Contenuto archiviato il 2024-06-18

Audio-VIsual Speech Processing for Interaction in Realistic Environments

Obiettivo

The topic of audio-visual speech processing has attracted significant interest over the past 15 years. Relevant research has been focusing on recruiting visual speech information, extracted from the speaker's mouth region, as a means to improve robustness of traditional, unimodal, acoustic-only based speech processing. Nevertheless, to-date, most work has been limited to ideal-case scenarios, where the visual data are of high-quality, typically of steady frontal head pose, high resolution, and uniform lighting, while the audio signal contains speech by a single subject, in most cases artificially contaminated by noise in order to demonstrate significant improvements in speech system performance. Obviously, these conditions remain far from unconstrained, multi-party human interaction, thus, not surprisingly, practical audio-visual speech systems have yet to be deployed in real life. In this proposal, we aim to work towards expanding the state-of-the-art from the ideal “toy” examples to realistic human-computer interaction in difficult environments like the office, the automobile, broadcast news, and during meetings. Successful audio-visual speech processing there requires progress beyond the state-of-the-art in processing and robust extraction of visual speech information, as well as its efficient fusion with the acoustic modality, due to the varying quality of the extracted stream information. We propose to study a number of speech technologies in such environments (e.g. speech recognition, activity detection, diarization, separation), which stand to benefit from multimodality. The envisaged work will span 42 months of activity, and is planned as a natural evolution of research efforts of the candidate, Dr. Gerasimos Potamianos, while at AT&T Labs and IBM Research in the US, to be conducted jointly with the host organization, the Institute of Informatics and Telecommunications at the National Center of Scientific Research, "Demokritos", in Athens, Greece.

Campo scientifico (EuroSciVoc)

CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. Cfr.: https://op.europa.eu/it/web/eu-vocabularies/euroscivoc.

È necessario effettuare l’accesso o registrarsi per utilizzare questa funzione

Argomento(i)

Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

Invito a presentare proposte

Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.

FP7-PEOPLE-2009-RG
Vedi altri progetti per questo bando

Meccanismo di finanziamento

Meccanismo di finanziamento (o «Tipo di azione») all’interno di un programma con caratteristiche comuni. Specifica: l’ambito di ciò che viene finanziato; il tasso di rimborso; i criteri di valutazione specifici per qualificarsi per il finanziamento; l’uso di forme semplificate di costi come gli importi forfettari.

MC-IRG - International Re-integration Grants (IRG)

Coordinatore

"NATIONAL CENTER FOR SCIENTIFIC RESEARCH ""DEMOKRITOS"""
Contributo UE
€ 87 500,00
Indirizzo
END OF PATRIARCHOU GRIGORIOU E AND 27 NEAPOLEOS STREET
15 341 AGIA PARASKEVI
Grecia

Mostra sulla mappa

Regione
Αττική Aττική Βόρειος Τομέας Αθηνών
Tipo di attività
Research Organisations
Collegamenti
Costo totale

I costi totali sostenuti dall’organizzazione per partecipare al progetto, compresi i costi diretti e indiretti. Questo importo è un sottoinsieme del bilancio complessivo del progetto.

Nessun dato
Il mio fascicolo 0 0