CORDIS - Forschungsergebnisse der EU
CORDIS

Interactive Machine Learning for Compositional Models of Natural Language

Projektbeschreibung

Unterstützung von Computern beim Verständnis der menschlichen Sprache

Das Verständnis der natürlichen Sprache ist ein Zweig der künstlichen Intelligenz (KI), welcher mithilfe von Computersoftware Eingaben in Form von Sätzen im Text- oder Sprachformat versteht. Stellen Sie sich vor, Siri beantwortet eine Frage zur Verkehrslage heute Morgen oder Alexa wird nach dem Wetter in Ihrer Stadt gefragt. Mit anderen Worten, die Technologie für das Verständnis der natürlichen Sprache verarbeitet einen menschlichen Text, übersetzt ihn in Computersprache und erzeugt eine Ausgabe in menschlicher Sprache. Anwendungen, die auf dem Verständnis der natürlichen Sprache beruhen, haben einen einzigartigen Informationsbedarf und erfordern große Sammlungen annotierter Daten, um gute Ergebnisse zu erzielen. Das EU-finanzierte Projekt INTERACT wird neue interaktive Lernalgorithmen entwickeln, die durch Anwendungen im Bereich Verständnis der natürlichen Sprache motiviert sind. Es wird Repräsentationenlernen und aktives Lernen von Compositional Latent-State-Models (CLSMs) zusammenführen, da die persönliche Sprache reich, komplex und kompositorisch ist.

Ziel

INTERACT will develop new Interactive Learning Algorithms (ILA), motivated by applications in Natural Language Understanding (NLU). The main assumptions behind supervised approaches are unrealistic because most NLU applications have unique information needs, and large collections of annotated data are necessary to achieve good performance. INTERACT follows a collaborative machine learning paradigm that breaks the distinction between annotation and training. We focus on compositional latent-state models (CLSMs) because natural language is rich, complex and compositional. To reduce the amount of human feedback necessary for learning CLSMs we must eliminate annotation redundancy. We argue that to achieve this in the context of CLSMs we must combine: (1) An optimal human feedback strategy, with (2) inducing a latent structure of parts in the compositional domain. Annotation effort will be minimized because the method will only request representative feedback from each latent class. INTERACT marries representation learning (i.e. of parts) and active learning for CLSMs.

Our approach goes beyond classical active learning where the ILA asks labels for samples chosen from a pool of unlabeled data. We empower the ILA with the ability to ask for labels for any complete or partial structure in the domain, i.e. the ILA will be able to generate samples.

We work under the framework of spectral learning of weighted automata and grammars and use ideas from query learning. A key idea is reducing the problem of interactive learning of CLSMs to a form of interactive low-rank matrix completion. Our concrete goals are: (1) Develop ILAs for CLSMs based on spectral learning techniques; and (2) Investigate optimal strategies to leverage human feedback, taking into account what is optimal for the ILA and what is easy for the teacher.

We will experiment with NLU tasks of increasing complexity, from sequence and tree classification to parsing problems where the outputs are trees.

Finanzierungsplan

ERC-STG - Starting Grant

Gastgebende Einrichtung

UNIVERSITAT POLITECNICA DE CATALUNYA
Netto-EU-Beitrag
€ 1 499 375,00
Adresse
CALLE JORDI GIRONA 31
08034 Barcelona
Spanien

Auf der Karte ansehen

Region
Este Cataluña Barcelona
Aktivitätstyp
Higher or Secondary Education Establishments
Links
Gesamtkosten
€ 1 499 375,00

Begünstigte (1)