Descripción del proyecto
Los gráficos de conocimiento captan las narrativas cambiantes a lo largo del tiempo para apoyar la investigación en Humanidades
Aprovechar la gran cantidad de información en internet escrita y hablada por seres humanos requiere tecnologías del lenguaje, es decir, tecnologías de la información especializadas en tratar el lenguaje humano. Muchos métodos de tecnología lingüística no pueden reconocer e interpretar entidades y conceptos complejos en sus contextos históricos. El equipo del proyecto TRIFECTA, financiado por el Consejo Europeo de Investigación, pretende resolver dicho problema creando una base de datos que combine la tecnología lingüística y la web semántica. Aprovechando la inteligencia artificial, los expertos en la materia y los datos masivos, en TRIFECTA se pretende tratar las entidades y los conceptos como ricas redes de conocimiento (o grafos). Permitirá a los investigadores de humanidades encontrar información sobre un tema que cambia con el tiempo y está relacionado con muchas narrativas diferentes.
Objetivo
At first blush entities and concepts such as Dutch East India Company or coffee may seem straightforward, but in fact they are complex and multifaceted. The wealth of digital sources presents the massive potential to study these notions at an unprecedented scale. However, current technologies for distant reading are not capable of dealing with this.
TRIFECTA aims to create a database that describes complex entities and concepts and their contexts by combining language and semantic web technology to extract and relate information from different texts over time. In addition, a key aim of TRIFECTA is to advance the state of the art in these technologies to deal with change over time and connections to many different narratives. Sophisticated knowledge representation methods from the semantic web can mitigate the failing that many language technology methods do not incorporate enough background knowledge to recognise and interpret complex entities and concepts in their historical contexts. By treating them as rich networks (or graphs) of knowledge that can express change and relationships to different concepts in space and time, semantic databases can handle the complexity needed to make the outputs of language technology tools suited to humanities research.
Via two use cases, I identify a set of core contentious entities and concepts in maritime and food history. Next, through a data-driven, iterative approach, I advance beyond the state-of-the-art in natural language technology for the humanities by targeting three key aspects of the recognition and modelling of complex concepts (i.e. identity, change, and the long tail). I propose a novel peer-evaluation approach in which a team of humanities scholars, computational linguists, and semantic web researchers collaborate closely to create truly hybrid artificial intelligence systems that will enable humanities research to scale to big data without losing sight of the contextual complexity.
Ámbito científico (EuroSciVoc)
CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural.
CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural.
- ciencias naturalesinformática y ciencias de la informaciónbase de datos
- humanidadeshistoria y arqueologíahistoria
Para utilizar esta función, debe iniciar sesión o registrarse
Palabras clave
Programa(s)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Régimen de financiación
HORIZON-ERC - HORIZON ERC GrantsInstitución de acogida
1011 JV AMSTERDAM
Países Bajos