Skip to main content
Ir a la página de inicio de la Comisión Europea (se abrirá en una nueva ventana)
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Interactive Machine Learning for Compositional Models of Natural Language

Descripción del proyecto

Una ayuda para que los ordenadores entiendan el lenguaje humano

La comprensión del lenguaje natural (NLU, por sus siglas en inglés) es una rama de la inteligencia artificial (IA) que emplea programas informáticos para entender las entradas de datos en forma de frases, ya sea de un modo escrito o hablado. Es lo que ocurre cuando Siri responde a una pregunta sobre el tráfico o cuando le preguntamos a Alexa qué tiempo hace en nuestra ciudad. Dicho de otro modo, la NLU digiere el texto humano, lo traduce en un idioma informático y genera una salida en lenguaje humano. Las aplicaciones con NLU tienen unas necesidades de información únicas y precisan de grandes conjuntos de datos anotados para ser eficaces. El proyecto INTERACT, financiado con fondos europeos, se basará en las aplicaciones en NLU para desarrollar nuevos algoritmos de aprendizaje interactivo (ILA, por sus siglas en inglés). Fusionará el aprendizaje representativo y activo de los modelos de estado latente composicional (CLSM, por sus siglas en inglés), ya que el lenguaje natural es complejo y composicional.

Objetivo

INTERACT will develop new Interactive Learning Algorithms (ILA), motivated by applications in Natural Language Understanding (NLU). The main assumptions behind supervised approaches are unrealistic because most NLU applications have unique information needs, and large collections of annotated data are necessary to achieve good performance. INTERACT follows a collaborative machine learning paradigm that breaks the distinction between annotation and training. We focus on compositional latent-state models (CLSMs) because natural language is rich, complex and compositional. To reduce the amount of human feedback necessary for learning CLSMs we must eliminate annotation redundancy. We argue that to achieve this in the context of CLSMs we must combine: (1) An optimal human feedback strategy, with (2) inducing a latent structure of parts in the compositional domain. Annotation effort will be minimized because the method will only request representative feedback from each latent class. INTERACT marries representation learning (i.e. of parts) and active learning for CLSMs.

Our approach goes beyond classical active learning where the ILA asks labels for samples chosen from a pool of unlabeled data. We empower the ILA with the ability to ask for labels for any complete or partial structure in the domain, i.e. the ILA will be able to generate samples.

We work under the framework of spectral learning of weighted automata and grammars and use ideas from query learning. A key idea is reducing the problem of interactive learning of CLSMs to a form of interactive low-rank matrix completion. Our concrete goals are: (1) Develop ILAs for CLSMs based on spectral learning techniques; and (2) Investigate optimal strategies to leverage human feedback, taking into account what is optimal for the ILA and what is easy for the teacher.

We will experiment with NLU tasks of increasing complexity, from sequence and tree classification to parsing problems where the outputs are trees.

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Para utilizar esta función, debe iniciar sesión o registrarse

Palabras clave

Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Régimen de financiación

Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.

ERC-STG - Starting Grant

Ver todos los proyectos financiados en el marco de este régimen de financiación

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

(se abrirá en una nueva ventana) ERC-2019-STG

Ver todos los proyectos financiados en el marco de esta convocatoria

Institución de acogida

UNIVERSITAT POLITECNICA DE CATALUNYA
Aportación neta de la UEn

Aportación financiera neta de la UE. Es la suma de dinero que recibe el participante, deducida la aportación de la UE a su tercero vinculado. Considera la distribución de la aportación financiera de la UE entre los beneficiarios directos del proyecto y otros tipos de participantes, como los terceros participantes.

€ 1 499 375,00
Dirección
CALLE JORDI GIRONA 31
08034 Barcelona
España

Ver en el mapa

Región
Este Cataluña Barcelona
Tipo de actividad
Higher or Secondary Education Establishments
Enlaces
Coste total

Los costes totales en que ha incurrido esta organización para participar en el proyecto, incluidos los costes directos e indirectos. Este importe es un subconjunto del presupuesto total del proyecto.

€ 1 499 375,00

Beneficiarios (1)

Mi folleto 0 0