CORDIS - Forschungsergebnisse der EU
CORDIS

Article Category

Article available in the following languages:

Computer lernen Maltesisch

Forschende haben ein Sprachmodell mit maltesischen Textdaten trainiert und ihm beigebracht, die Stimmung und Beschriftungsnamen in einem Text zu erkennen.

Digitale Wirtschaft icon Digitale Wirtschaft

KI-basierte Sprachtechnologien eröffnen neue Wege für die digitale Kommunikation in allen europäischen Sprachen. Für Maltesisch fehlt es jedoch an sprachtechnologischen Instrumenten und Ressourcen. Das EU-finanzierte Projekt LT-BRIDGE arbeitet seit seinem Start im Jahr 2021 daran, diese Lücke zu schließen. Bei der Verarbeitung natürlicher Sprache werden Sprachmodelle angelernt, um mithilfe neuronaler Netze Wörter mit anderen Wörtern in einem bestimmten Kontext zu verknüpfen. Forschende der Universität Malta (UM), die das Projekt LT-BRIDGE koordiniert, haben ein solches Modell – BERTu – mit maltesischen Textdaten gefüttert.

Lücken schließen

Doch was genau sind Sprachmodelle? Der UM-Doktorand Kurt Micallef beschreibt sie in einem kürzlich auf der Website der „Times of Malta“ veröffentlichten Artikel: „Sprachmodelle erfassen ein abstraktes Verständnis einer Sprache. Man kann sich das als eine gewisse „Intuition“ für eine Sprache vorstellen. Wenn Sie zum Beispiel die Lücke in dem Satz ‚Jien _____ il-gazzetta‘ (Ich habe die Zeitung ____) ausfüllen müssten, würden Sie vielleicht ‚qrajt‘ (gelesen) oder ‚xtrajt‘ (gekauft) vorschlagen, aber weniger wahrscheinlich ‚kilt‘ (gegessen) oder ‚karozza‘ (Auto).“ Eine Möglichkeit, solche Sprachmodelle anzulernen, ist die maskierte Sprachmodellierung. Wörter in einem Text werden nach dem Zufallsprinzip maskiert oder verdeckt, das Modell muss dann das fehlende Wort vorhersagen. „Im obigen Beispiel sollte das Modell also idealerweise ‚qrajt‘ vorhersagen“, erklärt Micallef. Der Vorgang wird für viele Sätze wiederholt, damit das Sprachmodell Maltesisch erlernen kann. Das neuronale Netz wird bei jedem Satz mithilfe von Algorithmen des maschinellen Lernens aktualisiert, und Wörtern, die in den Satz passen könnten, wird eine Wahrscheinlichkeit zugewiesen.

Andere Aufgaben

Zwei weitere Aufgaben, für die BERTu ausgebildet wurde, sind die Stimmungsanalyse und die Erkennung von Namensausdrücken. „Bei der Stimmungsanalyse handelt es sich um den Prozess, die Stimmung eines vorliegenden Textes zu erkennen“, erklärt der Forscher in einem weiteren Artikel der „Times of Malta“. „In vereinfachter Form geht es um die Einstufung, ob ein Text eine positive oder negative Stimmung in Bezug auf ein Thema oder eine Idee vermittelt. Unterstützt dieser Kommentar den vorgestellten Haushaltsplan Maltas zum Beispiel oder ist er dagegen? Diese Art von Aufgabe wird als Einstufungsproblem bezeichnet, weil wir für den Text, den wir als Eingabe erhalten, eine Inhaltseinstufung ausgeben (in diesem Beispiel positiv oder negativ).“ Micallef beschreibt die zweite Aufgabe weiter: „Die Erkennung von Namensausdrücken ist eine Beschriftungsaufgabe, bei der wir für jedes Wort im Eingabetext eine Kennzeichnung ausgeben. Bei einem Eingabetext besteht die Aufgabe darin, einzustufen, welche Kennzeichnungen sich auf benannte Entitäten beziehen und um welche Art von Entität es sich handelt. Verglichen mit der Stimmungsanalyse ist diese Aufgabe recht anspruchslos und wird in der Regel zur Ergänzung anderer Sprachsysteme eingesetzt. So könnten wir die Einstufungsdaten zum Beispiel verwenden, um Personennamen zu ermitteln und sie zu anonymisieren, damit Datenschutzgesetze eingehalten werden.“ Das Forschungsteam hat das vortrainierte BERTu-Modell für diese Aufgaben feinabgestimmt, indem es für jede Aufgabe eine zusätzliche Ebene über das Modell gelegt und dann Algorithmen für maschinelles Lernen auf den Datensatz angewendet hat, um die Parameter der zusätzlichen Ebene zu erfassen. Es wurde festgestellt, dass BERTu andere Sprachmodelle übertrifft, gelegentlich um mehr als 20 %. Komplexere Aufgaben zum Sprachverständnis können somit nun in Maltesisch untersucht werden. Das Projekt LT-BRIDGE („Bridging the technology gap: Integrating Malta into European Research and Innovation efforts for AI-based language technologies“) endet im Dezember 2023. Weitere Informationen: LT-BRIDGE-Projektwebsite

Schlüsselbegriffe

LT-BRIDGE, KI, Sprache, Maltesisch, Sprachmodell, BERTu, Text, Textdaten, Wort

Verwandte Artikel