Skip to main content
European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

Graphs without Labels: Multimodal Structure Learning without Human Supervision

Descripción del proyecto

Aprendizaje de estructuras semánticas a partir de datos multimodales sin anotación humana

El aprendizaje multimodal consiste en entrenar modelos a partir de datos de varias modalidades, como vídeos que contienen componentes visuales y sonoros o documentos que contienen texto e imágenes. Dicha técnica utiliza datos emparejados, como pares imagen-texto, para entrenar modelos de aprendizaje profundo, lo cual les permite aprender representaciones más robustas sin necesidad de supervisión humana. El equipo del proyecto GraViLa, financiado por el Consejo Europeo de Investigación, propone que los modelos multimodales pueden captar eficazmente entidades semánticas intermodales y resultan especialmente beneficiosos para analizar colecciones de modalidades y temas interconectados, algo habitual en los documentos multimodales. El equipo del proyecto lo consigue aprendiendo estructuras semánticas a partir de datos multimodales mediante aprendizaje multimodal y autosupervisado, eliminando la necesidad de anotación humana. A continuación, esta información se representa en forma de gráfico, lo cual facilita el tratamiento y la comprensión de datos a gran escala.

Objetivo

Multimodal learning focuses on training models with data in more than one modality, such as videos capturing visual and audio information or documents containing image and text. Current approaches use such data to train large-scale deep learning models without human supervision by sampling pair-wise data e.g. an image-text pair from a website and train the network e.g. to identify matching vs. not matching pairs to learn better representations.
We argue that multimodal learning can do more: by combining information from different sources, multimodal models capture cross-modal semantic entities, and as most multimodal documents are a collection of connected modalities and topics, multimodal models should allow us to capture the inherent high-level topology of such data. The goal of the following project is to learn semantic structures from multimodal data to capture long-range concepts and relations in multimodal data via multimodal and self-supervision learning without human annotation. We will represent this information in form of a graph, considering latent semantic concepts as nodes and their connectivity as edges. Based on this structure, we will extend current unimodal approaches to capture and process data from different modalities in a single structure. Finally, we will explore the challenges and opportunities of the proposed idea with respect to their impact on two main challenges in machine learning: data-efficient learning and fairness in label-free learning.
By bridging the gap between those two parallel trends, multimodal supervision and graph-based representations, we combine their strengths of generating and processing topological data, which will not only allow to build new applications and tools but also opens new ways of processing and understanding large-scale data that are out-of-reach at the moment.

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural.

Para utilizar esta función, debe iniciar sesión o registrarse

Régimen de financiación

HORIZON-ERC - HORIZON ERC Grants

Institución de acogida

EBERHARD KARLS UNIVERSITAET TUEBINGEN
Aportación neta de la UEn
€ 1 499 438,00
Dirección
GESCHWISTER-SCHOLL-PLATZ
72074 Tuebingen
Alemania

Ver en el mapa

Región
Baden-Württemberg Tübingen Tübingen, Landkreis
Tipo de actividad
Higher or Secondary Education Establishments
Enlaces
Coste total
€ 1 499 438,00

Beneficiarios (2)