Natural Language Understanding for non-standard languages and dialects

Informations projet

DIALECT

N° de convention de subvention: 101043235

DOI

10.3030/101043235

Date de signature de la CE 7 Juillet 2022

Date de début 1 Octobre 2022

Date de fin 30 Septembre 2027

Financé au titre de

European Research Council (ERC)

Coût total

€ 1 997 815,00

Contribution de l’UE

€ 1 997 815,00

1 997 815,00

Coordonné par

LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN
Germany

Description du projet

Adapter les systèmes de compréhension des langues naturelles aux langues et dialectes non standard

Lorsque des modèles linguistiques et des algorithmes artificiellement intelligents traitent les chiffres d’énormes ensembles de données, ils sont susceptibles d’être biaisés simplement parce que la diversité linguistique n’est pas suffisamment représentée. Cette exclusion concerne des millions de personnes qui conversent dans des dialectes ou des langues particulières. Ces personnes sont donc également exclues des technologies émergentes futures. Le projet DIALECT, financé par l’UE, créera des algorithmes qui facilitent des niveaux élevés de variation des sources d’informations afin de permettre l’intégration de divers dialectes dans les technologies linguistiques. Il élargira également les marques de réalité du terrain (c’est-à-dire les instructions informatiques utilisées pour vérifier l’exactitude dans le monde réel) dans l’apprentissage interactif en incluant des éléments d’incertitude humaine. Le résultat sera moins gourmand en données et permettra un traitement plus équitable et plus précis de la langue.

Objectif

Dialects are ubiquitous and for many speakers are part of everyday life. They carry important social and communicative functions. Yet, dialects and non-standard languages in general are a blind spot in research on Natural Language Understanding (NLU). Despite recent breakthroughs, NLU still fails to take linguistic diversity into account. This lack of modeling language variation results in biased language models with high error rates on dialect data. This failure excludes millions of speakers today and prevents the development of future technology that can adapt to such users.

To account for linguistic diversity, a paradigm shift is needed: Away from data-hungry algorithms with passive learning from large data and single ground truth labels, which are known to be biased. To go past current learning practices, the key is to tackle variation at both ends: in input data and label bias. With DIALECT, I propose such an integrated approach, to devise algorithms which aid transfer from rich variability in inputs, and interactive learning which integrates human uncertainty in labels. This will reduce the need for data and enable better adaptation and generalization.

Advances in salient areas of deep learning research now make it possible to tackle this challenge. DIALECT’s objectives are to devise a) new algorithms and insights to address extremely scarce data setups and biased labels; b) novel representations which integrate auxiliary sources of information such as complement text data with speech; and c) new datasets with conversational data in its most natural form.

By integrating dialectal variation into models able to learn from scarce data and biased labels, the foundations will be established for fairer and more accurate NLU to break down language and literary barriers. I am privileged to carry out this integration as I have contributed to research in top venues on both cross-lingual learning and learning from biased labels.

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Ce projet n'a pas encore été classé par EuroSciVoc.
Proposez les domaines scientifiques qui vous semblent les plus pertinents et aidez-nous à améliorer notre service de classification.

Mots‑clés

Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

HORIZON.1.1 - European Research Council (ERC) PROGRAMME PRINCIPAL
Voir tous les projets financés dans le cadre de ce programme

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

ERC-2021-COG - ERC CONSOLIDATOR GRANTS
Voir tous les projets financés dans ce domaine

Régime de financement

Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.

HORIZON-ERC - HORIZON ERC Grants

Voir tous les projets financés dans le cadre de ce programme de financement

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

(s’ouvre dans une nouvelle fenêtre) ERC-2021-COG

Voir tous les projets financés au titre de cet appel

Institution d’accueil

LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN

Contribution nette de l'UE

€ 1 997 815,00

Adresse

GESCHWISTER SCHOLL PLATZ 1
80539 Planegg
Allemagne

Région

Bayern Oberbayern München, Kreisfreie Stadt

Type d’activité

Higher or Secondary Education Establishments

Liens

Contacter l’organisation

Site web

Participation aux programmes de R&I de l'UE

Réseau de collaboration HORIZON

Coût total

€ 1 997 815,00

Bénéficiaires (1)

LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN

Allemagne

Contribution nette de l'UE

€ 1 997 815,00

Description du projet

Adapter les systèmes de compréhension des langues naturelles aux langues et dialectes non standard

Objectif

Champ scientifique (EuroSciVoc) CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Mots‑clés Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).

Programme(s) Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s) Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

Institution d’accueil

Bénéficiaires (1)

Télécharger Télécharger le contenu de la page

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Mots‑clés

Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.