Opis projektu
Precyzyjne porównywanie treści w różnych elementach multimedialnych z pomocą uniwersalnej funkcji podobieństwa
Treści multimedialne integrują wiele form komunikacji, w tym filmy, klipy audio, zdjęcia i tekst. Współcześnie są wszechobecne i niezbędne. Analiza takich informacji ma kluczowe znaczenie w wielu zastosowaniach, między innymi określeniu podobieństwa między dwoma przekazami multimedialnymi, co jest szczególnie istotne w erze treści generowanych przez sztuczną inteligencję. Wspierany ze środków programu działania „Maria Skłodowska-Curie” projekt LUSt ma na celu umożliwienie wykonywania jej z dużą dokładnością, dzięki wykorzystaniu uniwersalnej funkcji podobieństwa i modelu ogólnego przeznaczenia. Architektura modelu, bazująca na modułach głębokiego uczenia opartych na transformatorach, zostanie wzmocniona przez pionierskie kodowanie pozycyjne korzystające z metod funkcji jądra. Umożliwi to efektywne zarządzanie zróżnicowanymi topologiami częściowymi w różnych domenach.
Cel
Multimedia content is indispensable in our society, necessitating effective content management. A critical aspect of this is assessing the similarity between two multimedia items like images, videos, and documents. LUSt's mission is to pioneer a universal similarity function capable of precisely measuring similarity across a broad spectrum of multimedia domains and tasks. Diverging from traditional problem-specific approaches prevalent in current literature, LUSt adopts a novel strategy. LUSt plans to break down multimedia items into their constituent parts, including image regions, video frames, and text sentences. Subsequently, a foundational model will be trained on input data comprising part similarities across various multimedia items. This strategic choice yields a universal input space with multiple advantages. Firstly, it promotes seamless collaboration across different domains and tasks, facilitating joint training and mutual enhancement among tasks, which will be further enriched through multi-task learning techniques. Secondly, it streamlines the integration of synthetic data during training, a key ingredient for large-scale training of a foundational model. The model architecture is grounded in transformer-based deep learning modules and will be fortified by pioneering positional encodings rooted in kernel methods. These positional encodings empower us to effectively manage the differing part topologies encountered across diverse domains -- a formidable challenge in itself. The work program commences by focusing on a single domain and task but is thoughtfully designed for extensibility. The ultimate goal is creating a foundational model capable of accommodating all modalities -- visual, audio, text -- and supporting a broad range of similarity types, including uni-modal, cross-modal, and multi-modal scenarios. LUSt's commitment to universality will be thoroughly validated through comprehensive benchmarking, spanning numerous tasks and domains.
Dziedzina nauki (EuroSciVoc)
Klasyfikacja projektów w serwisie CORDIS opiera się na wielojęzycznej taksonomii EuroSciVoc, obejmującej wszystkie dziedziny nauki, w oparciu o półautomatyczny proces bazujący na technikach przetwarzania języka naturalnego.
Klasyfikacja projektów w serwisie CORDIS opiera się na wielojęzycznej taksonomii EuroSciVoc, obejmującej wszystkie dziedziny nauki, w oparciu o półautomatyczny proces bazujący na technikach przetwarzania języka naturalnego.
Aby użyć tej funkcji, musisz się zalogować lub zarejestrować
Słowa kluczowe
Program(-y)
- HORIZON.1.2 - Marie Skłodowska-Curie Actions (MSCA) Main Programme
Zaproszenie do składania wniosków
Zobacz inne projekty w ramach tego zaproszeniaSystem finansowania
HORIZON-TMA-MSCA-PF-EF - HORIZON TMA MSCA Postdoctoral Fellowships - European FellowshipsKoordynator
160 00 Praha
Czechy