Skip to main content
European Commission logo
Deutsch Deutsch
CORDIS - Forschungsergebnisse der EU
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

An Application for leveraging large-scale historical textbases

Projektbeschreibung

Datenauswertung in historischen Dokumenten anwenden

Die Digitalisierung hat zwar den Zugang zu historischen Texten vereinfacht, doch stoßen Forschende und Studierende immer noch auf Schwierigkeiten, wenn sie mit Einrichtungen arbeiten, die über umfangreiche digitale Bestände verfügen. Ziel des ERC-finanzierten Projekts HistText ist es, eine innovative Anwendung für die groß angelegte Datenauswertung in historischen Textkorpora zu entwickeln. Diese Zusammenarbeit zwischen Geschichtswissenschaft und Informatik konzentriert sich auf die Anwendung von Verfahren des maschinellen Lernens zur Analyse umfangreicher Textarchive. Die Anwendung ist für die Bearbeitung von Datenbanken mit Milliarden Wörtern in Millionen mehrsprachigen Dokumenten ausgelegt. Sie bietet eine übersichtliche Oberfläche, fortgeschrittene Textanalysemethoden und robuste Funktionen zur Datenvisualisierung. Mit seinem Schwerpunkt auf fortgeschrittener Textanalyse und Übersichtlichkeit will HistText die groß angelegte Textanalyse revolutionieren und einen neuen Ansatz zum Verständnis historischer Dokumente bieten.

Ziel

HistText is a groundbreaking application developed to address the complex challenges of large-scale data mining in textual corpora, with a particular focus on historical documents. Created in the context of the ERC-funded ENP-China project, which aims to study the evolution of Chinese elites from the 19th century to 1949, HistText is the result of a synergistic collaboration between historians and computer scientists exploring machine learning applications for extensive text archives. Designed to manage databases containing billions of words across millions of multilingual documents, HistText offers a robust and versatile platform that streamlines the process of extracting and visualizing valuable insights. The application features a user-friendly interface, advanced text analysis techniques, and powerful data visualization capabilities. It provides a simplified approach for novice users to conduct complex data queries and analyses, while also offering a comprehensive R-library for more expert users. The main challenge that the proof of concept aims to tackle is to make HistText a fully packageable and transferable tool that can cater to the specialized needs of scholars and institutions holding vast digital repositories. With its focus on advanced text analysis and user accessibility, HistText stands as an invaluable resource not only for academics in the digital humanities but also for students and the general public. In terms of broader applications, HistText has the potential to be integrated into a wide range of institutions (libraries, digital content providers, etc.). The platform is exceptionally well-suited for analyzing a wide range of text genres, including newspapers, periodicals, directories, and diaries, among others. By offering a scalable, user-friendly, and methodologically rigorous tool, HistText aims to revolutionize how we approach large-scale textual analysis, providing a new pathway for understanding historical documents.

Programm/Programme

Gastgebende Einrichtung

UNIVERSITE D'AIX MARSEILLE
Netto-EU-Beitrag
€ 150 000,00
Adresse
BOULEVARD CHARLES LIVON 58 LE PHARO
13284 Marseille
Frankreich

Auf der Karte ansehen

Region
Provence-Alpes-Côte d’Azur Provence-Alpes-Côte d’Azur Bouches-du-Rhône
Aktivitätstyp
Higher or Secondary Education Establishments
Links
Gesamtkosten
Keine Daten

Begünstigte (1)