Skip to main content
European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

Provenance for Data-Intensive Systems

Descripción del proyecto

Nuevas herramientas para evaluar la fiabilidad de los datos

Imagine un mundo en el que los resultados de la computación están explicados y justificados; los sistemas serían transparentes y controlables, y los resultados serían creíbles y se podrían reutilizar. El seguimiento de la procedencia de los datos es la capacidad de rastrear la información hasta encontrar el origen y poder así evaluar su fiabilidad. El proyecto financiado con fondos europeos ProDIS desarrollará modelos, algoritmos y herramientas para facilitar las tareas de seguimiento de procedencia en un amplio rango de sistemas con un gran volumen de datos. Colaborará con las tareas de procedencia a fin de fomentar la exploración de los datos y la ciencia de datos, así como otros entornos de analítica. También abordará el problema de los gastos generales de computación generados a raíz del seguimiento de la procedencia. Otro de los objetivos de ProDIS es desarrollar una herramienta sencilla para el análisis basado en la procedencia y la validación experimental basada en la generación de referencias y herramientas prototipo.

Objetivo

In the context of data-intensive systems, data provenance captures the way in which data is used, combined
and manipulated by the system. Provenance information can for instance be used to reveal whether
data was illegitimately used, to reason about hypothetical data modifications, to assess the trustworthiness
of a computation result, or to explain the rationale underlying the computation.
As data-intensive systems constantly grow in use, in complexity and in the size of data they manipulate,
provenance tracking becomes of paramount importance. In its absence, it is next to impossible to follow the
flow of data through the system. This in turn is extremely harmful for the quality of results, for enforcing
policies, and for the public trust in the systems.
Despite important advancements in research on data provenance, and its possible revolutionary impact,
it is unfortunately uncommon for practical data-intensive systems to support provenance tracking. The
goal of the proposed research is to develop models, algorithms and tools that facilitate provenance
tracking for a wide range of data-intensive systems, that can be applied to large-scale data analytics,
allowing to explain and reason about the computation that took place.
Towards this goal, we will address the following main objectives: (1) supporting provenance for modern
data analytics frameworks such as data exploration and data science, (2) overcoming the computational
overhead incurred by provenance tracking, (3) the development of user-friendly, provenance-based analysis
tools and (4) experimental validation based on the development of prototype tools and benchmarks.

Régimen de financiación

ERC-STG - Starting Grant

Institución de acogida

TEL AVIV UNIVERSITY
Aportación neta de la UEn
€ 1 306 250,00
Coste total
€ 1 306 250,00

Beneficiarios (1)