European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Interactive Machine Learning for Compositional Models of Natural Language

Descripción del proyecto

Una ayuda para que los ordenadores entiendan el lenguaje humano

La comprensión del lenguaje natural (NLU, por sus siglas en inglés) es una rama de la inteligencia artificial (IA) que emplea programas informáticos para entender las entradas de datos en forma de frases, ya sea de un modo escrito o hablado. Es lo que ocurre cuando Siri responde a una pregunta sobre el tráfico o cuando le preguntamos a Alexa qué tiempo hace en nuestra ciudad. Dicho de otro modo, la NLU digiere el texto humano, lo traduce en un idioma informático y genera una salida en lenguaje humano. Las aplicaciones con NLU tienen unas necesidades de información únicas y precisan de grandes conjuntos de datos anotados para ser eficaces. El proyecto INTERACT, financiado con fondos europeos, se basará en las aplicaciones en NLU para desarrollar nuevos algoritmos de aprendizaje interactivo (ILA, por sus siglas en inglés). Fusionará el aprendizaje representativo y activo de los modelos de estado latente composicional (CLSM, por sus siglas en inglés), ya que el lenguaje natural es complejo y composicional.

Objetivo

INTERACT will develop new Interactive Learning Algorithms (ILA), motivated by applications in Natural Language Understanding (NLU). The main assumptions behind supervised approaches are unrealistic because most NLU applications have unique information needs, and large collections of annotated data are necessary to achieve good performance. INTERACT follows a collaborative machine learning paradigm that breaks the distinction between annotation and training. We focus on compositional latent-state models (CLSMs) because natural language is rich, complex and compositional. To reduce the amount of human feedback necessary for learning CLSMs we must eliminate annotation redundancy. We argue that to achieve this in the context of CLSMs we must combine: (1) An optimal human feedback strategy, with (2) inducing a latent structure of parts in the compositional domain. Annotation effort will be minimized because the method will only request representative feedback from each latent class. INTERACT marries representation learning (i.e. of parts) and active learning for CLSMs.

Our approach goes beyond classical active learning where the ILA asks labels for samples chosen from a pool of unlabeled data. We empower the ILA with the ability to ask for labels for any complete or partial structure in the domain, i.e. the ILA will be able to generate samples.

We work under the framework of spectral learning of weighted automata and grammars and use ideas from query learning. A key idea is reducing the problem of interactive learning of CLSMs to a form of interactive low-rank matrix completion. Our concrete goals are: (1) Develop ILAs for CLSMs based on spectral learning techniques; and (2) Investigate optimal strategies to leverage human feedback, taking into account what is optimal for the ILA and what is easy for the teacher.

We will experiment with NLU tasks of increasing complexity, from sequence and tree classification to parsing problems where the outputs are trees.

Régimen de financiación

ERC-STG - Starting Grant

Institución de acogida

UNIVERSITAT POLITECNICA DE CATALUNYA
Aportación neta de la UEn
€ 1 499 375,00
Dirección
CALLE JORDI GIRONA 31
08034 Barcelona
España

Ver en el mapa

Región
Este Cataluña Barcelona
Tipo de actividad
Higher or Secondary Education Establishments
Enlaces
Coste total
€ 1 499 375,00

Beneficiarios (1)