Skip to main content
European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Natural Language Understanding for non-standard languages and dialects

Description du projet

Adapter les systèmes de compréhension des langues naturelles aux langues et dialectes non standard

Lorsque des modèles linguistiques et des algorithmes artificiellement intelligents traitent les chiffres d’énormes ensembles de données, ils sont susceptibles d’être biaisés simplement parce que la diversité linguistique n’est pas suffisamment représentée. Cette exclusion concerne des millions de personnes qui conversent dans des dialectes ou des langues particulières. Ces personnes sont donc également exclues des technologies émergentes futures. Le projet DIALECT, financé par l’UE, créera des algorithmes qui facilitent des niveaux élevés de variation des sources d’informations afin de permettre l’intégration de divers dialectes dans les technologies linguistiques. Il élargira également les marques de réalité du terrain (c’est-à-dire les instructions informatiques utilisées pour vérifier l’exactitude dans le monde réel) dans l’apprentissage interactif en incluant des éléments d’incertitude humaine. Le résultat sera moins gourmand en données et permettra un traitement plus équitable et plus précis de la langue.

Objectif

Dialects are ubiquitous and for many speakers are part of everyday life. They carry important social and communicative functions. Yet, dialects and non-standard languages in general are a blind spot in research on Natural Language Understanding (NLU). Despite recent breakthroughs, NLU still fails to take linguistic diversity into account. This lack of modeling language variation results in biased language models with high error rates on dialect data. This failure excludes millions of speakers today and prevents the development of future technology that can adapt to such users.

To account for linguistic diversity, a paradigm shift is needed: Away from data-hungry algorithms with passive learning from large data and single ground truth labels, which are known to be biased. To go past current learning practices, the key is to tackle variation at both ends: in input data and label bias. With DIALECT, I propose such an integrated approach, to devise algorithms which aid transfer from rich variability in inputs, and interactive learning which integrates human uncertainty in labels. This will reduce the need for data and enable better adaptation and generalization.

Advances in salient areas of deep learning research now make it possible to tackle this challenge. DIALECT’s objectives are to devise a) new algorithms and insights to address extremely scarce data setups and biased labels; b) novel representations which integrate auxiliary sources of information such as complement text data with speech; and c) new datasets with conversational data in its most natural form.

By integrating dialectal variation into models able to learn from scarce data and biased labels, the foundations will be established for fairer and more accurate NLU to break down language and literary barriers. I am privileged to carry out this integration as I have contributed to research in top venues on both cross-lingual learning and learning from biased labels.

Régime de financement

HORIZON-ERC - HORIZON ERC Grants

Institution d’accueil

LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN
Contribution nette de l'UE
€ 1 997 815,00
Adresse
GESCHWISTER SCHOLL PLATZ 1
80539 MUNCHEN
Allemagne

Voir sur la carte

Région
Bayern Oberbayern München, Kreisfreie Stadt
Type d’activité
Higher or Secondary Education Establishments
Liens
Coût total
€ 1 997 815,00

Bénéficiaires (1)