Projekt geht neue Wege in der KI, um die „DNS der Sprache“ zu schaffen

Mit neuen Ansätzen des maschinellen Lernens liefert die Forschung sprachunabhängige Repräsentationen von Texten, mit denen KI-Halluzinationen bewältigt werden können.

Grundlagenforschung

Halluzinationen der künstlichen Intelligenz (KI) (Erzeugung von Inhalten, die falsch sind und nicht auf realen Daten beruhen) sind durch die Einführung großer Sprachmodelle wie ChatGPT und Bard zu einem Trendthema geworden. Doch über ein EU-finanziertes Forschungsprojekt können Informatikerinnen und Informatiker der perfekten, sprachunabhängigen Verarbeitung natürlicher Sprache näher kommen und dabei den Faktor der Fehlinformation von KI vermeiden. MOUSSE(öffnet in neuem Fenster), oder Multilingual, Open-text Unified Syntax-independent SEmantics, untersuchte neue Wege, die Fähigkeiten des mehrsprachigen semantischen Parsings zu verbessern, ohne die bedeutende Hürde, Daten für jede einzelne Sprache zu annotieren. „Große Sprachmodelle wie ChatGPT oder Bard sind zwar leistungsfähig und beeindruckend, haben aber immer noch Schwierigkeiten, die Sicherheit und den gesunden Menschenverstand nachzuahmen, die den Menschen ausmachen. MOUSSE schafft die Voraussetzungen für dieses ehrgeizige Ziel. Es bietet ein riesiges Repository an mehrsprachigem Fachwissen, mit dem die Schlussfolgerungen und Ausgaben dieser Modelle begründet und das problematische Phänomen der Halluzination bewältigt werden kann“, erklärt Roberto Navigli(öffnet in neuem Fenster), Leiter der Sapienza Natural Language Processing Group(öffnet in neuem Fenster) und Projektkoordinator von MOUSSE.

Mehrsprachigkeit als Ressource nutzen

Das von MOUSSE entwickelte umfangreiche Repository wird von Navigli als „die DNS der Sprache“ bezeichnet, da es die Grundlage für die Konstruktion sinnvoller Sätze in vielen Sprachen bildet. Dies ist dem Hauptergebnis des Projekts zu verdanken: der Fähigkeit, das rechnerische Äquivalent zu den mentalen Darstellungen zu schaffen, die Menschen von Texten erzeugen, jedoch unabhängig von der Sprache. Navigli führt aus: „Der Computer erstellt ein Bild von der Bedeutung eines Satzes und abstrahiert dabei weg von der Sprache und der Oberflächenform, d. h. von den Wörtern, durch die diese Bedeutung ausgedrückt wird.“ Je mehr Sprachen das Team verwendet, um die Semantik auszudrücken, desto mehr kann es die Qualität der erlernten Darstellung ausbauen. Andererseits können, sobald eine Darstellung eines Satzes in einer Sprache erstellt wurde, Sätze mit der gleichen Bedeutung in anderen Sprachen ausgegeben werden. „Das ähnelt der maschinellen Übersetzung, geht aber noch einen Schritt weiter: Es ist ein formaler, strukturierter Nachweis dafür, was die Maschine verstanden hat“, sagt Navigli. Indem es Mehrsprachigkeit ausnutzt, trägt MOUSSE dazu bei, das Forschungsgebiet der Verarbeitung natürlicher Sprache für alle EU-Sprachen und Hunderte von anderen Sprachen anzugleichen. Das mehrsprachige Repository kann auch beim Spracherwerb nützlich sein, um den Wortschatz zu erweitern und auf eine Weise zu lernen, die mehr auf der Bedeutung als auf einzelnen Wörtern beruht.

Nutzung von KI-Tools für das beste Ergebnis

Die von MOUSSE entwickelten Funktionen werden in vier Hauptschritten erlangt, nämlich Disambiguierung der Wortbedeutung, Entitätsverknüpfung, Markierung der semantischen Funktion und semantisches Parsing. Neben dem Einsatz von Deep Learning wurden die Ergebnisse dadurch erzielt, dass das Modell und dessen Ausgaben interpretierbar und manipulierbar gehalten wurden. Zusammenfassend konnte das Projekt symbolisches Wissen und neuronale Netze miteinander verbinden und so eine innovativen neuro-symbolischen Ansatz einführen. Laut Navigli wird dadurch das Beste aus beiden Welten vereint: die hohe Leistung und Effektivität der neuronalen Modelle und die Interpretierbarkeit, Manipulierbarkeit und Sprachunabhängigkeit des symbolischen Anteils. Symbolisches Wissen wird im Wesentlichen durch mehrsprachige Wissensgraphen wie BabelNet bereitgestellt, einem riesigen mehrsprachigen enzyklopädischen Computerwörterbuch, das aus dem ebenfalls von Navigli koordinierten Projekt MultiJEDI hervorgegangen ist. Die Ergebnisse beider Projekte wurden von seiner erfolgreicher Universitätsausgründung Babelscape(öffnet in neuem Fenster) weiterentwickelt und nachhaltig gesichert.