Skip to main content
Ir a la página de inicio de la Comisión Europea (se abrirá en una nueva ventana)
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Non-sequence models for tokenization replacement

Objetivo

Natural language processing (NLP) is concerned with
computer-based processing of natural language, with
applications such as human-machine interfaces and
information access. The capabilities of NLP are currently
severely limited compared to humans. NLP has high error
rates for languages that differ from English (e.g.
languages with higher morphological complexity like Czech)
and for text genres that are not well edited (or noisy) and
that are of high economic importance, e.g. social media
text.

NLP is based on machine learning, which requires as basis a
representation that reflects the underlying structure of the
domain, in this case the structure of language. But
representations currently used are symbol-based: text is
broken into surface forms by sequence models that implement
tokenization heuristics and treat each surface form as a
symbol or represent it as an embedding (a vector
representation) of that symbol. These heuristics are
arbitrary and error-prone, especially for non-English and
noisy text, resulting in poor performance.


Advances in deep learning now make it possible to take the
embedding idea and liberate it from the limitations of
symbolic tokenization. I have the interdisciplinary
expertise in computational linguistics, computer science and
deep learning required for this project and am thus in the
unique position to design a radically new robust and
powerful non-symbolic text representation that captures all
aspects of form and meaning that NLP needs for successful
processing.

By creating a text representation for NLP that is not
impeded by the limitations of symbol-based tokenization, the
foundations are laid to take NLP applications like
human-machine interaction, human-human communication
supported by machine translation and information access to
the next level.

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Para utilizar esta función, debe iniciar sesión o registrarse

Palabras clave

Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Régimen de financiación

Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.

ERC-ADG - Advanced Grant

Ver todos los proyectos financiados en el marco de este régimen de financiación

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

(se abrirá en una nueva ventana) ERC-2016-ADG

Ver todos los proyectos financiados en el marco de esta convocatoria

Institución de acogida

LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN
Aportación neta de la UEn

Aportación financiera neta de la UE. Es la suma de dinero que recibe el participante, deducida la aportación de la UE a su tercero vinculado. Considera la distribución de la aportación financiera de la UE entre los beneficiarios directos del proyecto y otros tipos de participantes, como los terceros participantes.

€ 2 500 000,00
Dirección
GESCHWISTER SCHOLL PLATZ 1
80539 MUNCHEN
Alemania

Ver en el mapa

Región
Bayern Oberbayern München, Kreisfreie Stadt
Tipo de actividad
Higher or Secondary Education Establishments
Enlaces
Coste total

Los costes totales en que ha incurrido esta organización para participar en el proyecto, incluidos los costes directos e indirectos. Este importe es un subconjunto del presupuesto total del proyecto.

€ 2 500 000,00

Beneficiarios (1)

Mi folleto 0 0