European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Voice driven interaction in XR spaces

Opis projektu

Doświadczenia rzeczywistości rozszerzonej łączące obraz i dźwięk

Technologie rzeczywistości rozszerzonej, określanej skrótem XR, zyskują coraz większą popularność w dziedzinie kontrolowania urządzeń komputerowych, wypierając tradycyjne rozwiązania. Dwie inne dziedziny, które przeżywają podobny rozkwit, to przetwarzanie języka naturalnego i rozpoznawanie obrazów – wszystko to dzięki pojawieniu się metod opartych na danych w dziedzinach uczenia maszynowego (ML) i sztucznej inteligencji (SI). Projekt VOXreality dąży do połączenia tych równoległych dziedzin w celu zaprojektowania i rozwoju modeli sztucznej inteligencji, które będą wykorzystywać język jako główny sposób interakcji, uzupełniony rozpoznawaniem obrazów. Projekt koncentruje się na opracowywaniu wstępnie wytrenowanych modeli XR łączących wiedzę przestrzenną i semantyczną systemów XR i przetwarzanie języka naturalnego. Prace w ramach projektu mogą zapoczątkować nową erę rozwiązań zbudowanych na podstawie kompleksowego zrozumienia potrzeb użytkowników, które odejdą od urządzeń wejściowych i kontrolerów.

Cel

VOXReality is an ambitious project whose goal will be to facilitate and exploit the convergence of two important technologies, natural language processing (NLP) and computer vision (CV). Both technologies are experiencing a huge performance increase due to the emergence of data-driven methods, specifically machine learning (ML) and artificial intelligence (AI). On the one hand, CV/ML are driving the extended reality (XR) revolution beyond what was possible up to now, and, on the other, speech-based interfaces and text-based content understanding are revolutionising human-machine and human-human interaction. VOXReality will employ an economical approach to combine these two. VOXReality will pursue the integration of language- and vision-based AI models with either unidirectional or bidirectional exchanges between the two modalities. Vision systems drive both AR and VR, while language understanding adds a natural way for humans to interact with the back-ends of XR systems or create multimodal XR experiences combining vision and sound. The results of the project will be twofold: 1) a set of pretrained next-generation XR models combining, in various levels and ways, language and vision AI and enabling richer, more natural immersive experiences that are expected to boost XR adoption, and 2) a set of applications using these models to demonstrate innovations in various sectors. The above technologies will be validated through three use cases: 1) Personal Assistants that are an emerging type of digital technology that seeks to support humans in their daily tasks, with their core functionalities related to human-to-machine interaction; 2) Virtual Conferences that are completely hosted and run online, typically using a virtual conferencing platform that sets up a shared virtual environment, allowing their attendees to view or participate from anywhere in the world; 3) Theaters where VOXReality will combine language translation, audiovisual user associations and AR VFX triggered by predetermined speech.

Koordynator

MAGGIOLI SPA
Wkład UE netto
€ 1 483 750,00
Adres
VIA DEL CARPINO 8
47822 Santarcangelo Di Romagna
Włochy

Zobacz na mapie

Region
Nord-Est Emilia-Romagna Rimini
Rodzaj działalności
Private for-profit entities (excluding Higher or Secondary Education Establishments)
Linki
Koszt całkowity
€ 1 483 750,00

Uczestnicy (9)