CORDIS - Forschungsergebnisse der EU
CORDIS

Ready-to-use Multilingual Linked Language Data for Knowledge Services across Sectors

Article Category

Article available in the following languages:

Stärkere Verbreitung von Sprachtechnologien

Ein EU-finanziertes Projekt hat sich zum Ziel gesetzt, sprachlich verknüpfte offene Daten nutzbar zu machen, um sicherzustellen, dass kein Mensch von der digitalen Revolution ausgeschlossen bleibt.

Digitale Wirtschaft icon Digitale Wirtschaft
Gesellschaft icon Gesellschaft

Sprachtechnologien übernehmen eine wichtige Rolle beim Abbau von Sprachbarrieren, bei der Förderung des Multikulturalismus und bei der Erschließung des digitalen Jahrzehnts in Europa für alle. Diese Technologien stützen sich auf große Datenmengen – und mit einem besseren Zugang zu und einer besseren Nutzung von Sprachressourcen können sie auch mehrsprachige Lösungen bieten, die den entstehenden digitalen Binnenmarkt in Europa unterstützen. Fachleute für Sprachtechnologie verbringen jedoch rund 80 % ihrer Zeit mit der Bereinigung, Reorganisation und Sammlung von Datensätzen, da die Daten nicht „einsatzbereit“ sind. Der Prozess des Extrahierens, Transformierens und Ladens, bei dem Datensätze mit bestehenden Entwürfen verknüpft werden, birgt das Potenzial, diesen Aufwand zu verringern. Die Technologie bleibt jedoch ungenutzt. Hier setzt das EU-finanzierte Projekt Pret-a-LLOD an. „Unser Ziel war es, Technologien für verknüpfte Daten mit Verfahren zur Verarbeitung natürlicher Sprache zu kombinieren, um die Verfügbarkeit von Sprachtechnologien für Privatpersonen und Unternehmen in Europa zu verbessern“, erklärt Projektkoordinator John McCrae. Die Verwendung von Technologien zur Verknüpfung von Daten lässt eine einfachere gemeinsame Nutzung und Verwaltung von Daten im Internet zu und erhöht somit die Verfügbarkeit und Zugänglichkeit von Daten. „In dieser Hinsicht ähnelt das Projekt den Zielen der Initiative FAIR, die darauf abzielt, den Nutzen von Daten zu vergrößern“, so McCrae.

Bereitstellung einer Datenwertschöpfungskette und wichtiger quelloffener Komponenten

Im Rahmen des Projekts wurde eine Datenwertschöpfungskette entwickelt, die alle Aspekte des Lebenszyklus eines Datensatzes und insbesondere die Entdeckung, Umwandlung, Verwaltung (insbesondere von Lizenzen), Verknüpfung und Anwendung in Arbeitsabläufen zur Verarbeitung natürlicher Sprache umfasst. Zudem wurden fünf wichtige quelloffene Komponenten bereitgestellt, die die vom Projekt angestrebte Datenwertschöpfungskette unterstützen. „Erstens gestattet das LingHub2-Portal das Auffinden von Sprachressourcen unter Verwendung der Prinzipien der verteilten Daten und Abfragemethoden und aggregiert Daten aus einer Vielzahl von Quellen. Zweitens haben wir Fintan entworfen, eine neuartige und flexible Funktionseinheit für die Umwandlung von Daten aus unterschiedlichen Formaten in verknüpfte Daten“, betont McCrae. Es wurden außerdem Instrumente für die richtliniengesteuerte Datenverwaltung ausgearbeitet, mit denen die mögliche Kombination von quelloffenen Lizenzen auf der Grundlage der Offenen digitalen Rechteverwaltung vorhergesagt werden kann. Darüber hinaus wurden mehrere Instrumente für die Verknüpfung von Datensätzen auf verschiedenen Ebenen erstellt, einschließlich der Lexikalisierung bestehender Ressourcen, der Verknüpfung auf konzeptioneller Ebene und der lexikalischen Verknüpfung, die eine einfachere Verbindung und Integration von Datensätzen bieten. „Wir haben ebenso Teanga entwickelt, ein Instrument zur Verwaltung von Arbeitsabläufen, mit dem verschiedene Komponenten und Datensätze in Arbeitsabläufen verwendet werden können, die mit Technologien wie Docker und OpenAPI definiert wurden“, fügt McCrae hinzu.

Den Weg zu flexiblen Pipelines zur Verabeitung natürlicher Sprache ebnen

Diese Instrumente wurden durch Demos mit den kommerziellen Partnern des Projekts validiert, darunter ein neuartiges Chatbot-System, das von Derilinx entwickelt wurde, Erweiterungen des beliebten PoolParty-Instruments der Semantic Web Company für die Terminologieverwaltung, neuartige Methoden für sprachübergreifende Verarbeitung natürlicher Sprache bei Semalytix und Verbesserungen der Prozesse zur Entwicklung der Wörterbücher der Oxford University Press, einschließlich des Oxford English Dictionary. „Wir hoffen, dass dieses Projekt dafür sorgen wird, dass mehr Daten zur Verfügung stehen, damit Pipelines zur Verarbeitung natürlicher Sprache flexibler und schneller eingesetzt werden können“, so McCrae abschließend. Ein besonderes Ziel des Projekts ist die Anwendung von Verfahren zur Verarbeitung natürlicher Sprache auf minorisierte Sprachen in Europa, für die nicht genügend Ressourcen zur Verfügung stehen und deren Situation durch die in diesem Projekt entwickelten Datenmanagement- und Verarbeitungsinstrumente für natürliche Sprache verbessert werden kann.

Schlüsselbegriffe

Pret-a-LLOD, Verarbeitung natürlicher Sprache, Sprachtechnologien, Datenwertschöpfungskette, verknüpfte Datentechnologien, quelloffene Komponenten, digitaler Binnenmarkt

Entdecken Sie Artikel in demselben Anwendungsbereich