A prototype system for obtaining and managing training data for multilingual learning

Informations projet

Data4ML

N° de convention de subvention: 101113091

DOI

10.3030/101113091

Projet clôturé

Date de signature de la CE 30 Mars 2023

Date de début 1 Octobre 2023

Date de fin 30 Septembre 2025

Financé au titre de

European Research Council (ERC)

Coût total

Aucune donnée

Contribution de l’UE

€ 150 000,00

Coordonné par

TECHNISCHE UNIVERSITAET MUENCHEN
Germany

Description du projet

Un prototype pour aider les communautés linguistiques disposant de moins de ressources

La génération et la gestion de données parallèles jouent un rôle dans la création de systèmes de traduction automatique de haute qualité, en particulier pour les langues disposant de moins de ressources. Elles permettent de soutenir la création de contenu et de préserver ces langues. Les entreprises s’abstiennent toutefois d’investir sur ce marché en raison du faible retour sur investissement. Le projet Data4ML, financé par le CER, développera une méthode rentable pour générer de nouveaux corpus parallèles. Il impliquera la création d’un prototype libre qui intégrera les connaissances acquises dans le cadre du projet de subvention de démarrage du CER du chercheur, et il répondra aux préoccupations en matière de droits de propriété intellectuelle et garantira un financement futur. Ce prototype pourrait autonomiser les communautés linguistiques disposant de ressources limitées. Le projet se penche également sur la traduction automatique commerciale et aborde les questions de classification multilingue, y compris l’identification des discours haineux.

Objectif

It is difficult to build high quality machine translation systems for less-resourced languages, such as the minority languages of Europe. State-of-the-art machine translation is trained on large parallel corpora, texts and their translations. But such corpora are not available for less-resourced languages. We will provide a system for the rapid and inexpensive creation of new parallel corpora. Our PoC project will both produce an open-source prototype utilizing findings from the PI's ERC StG, and determine IPR and future funding. The key innovation of the prototype will be that it can be used by the less-resourced language community themselves. Current systems require extensive background in natural language processing. Allowing the community to create and curate parallel data has clear social benefits. The creation of high quality machine translation systems for less-resourced languages will allow for more content creation in these languages, playing a strong role in the preservation of these languages. Curated parallel data will also be useful in activities such as education and cultural heritage research. Government funding is available for digital language preservation for many of the 7000 languages spoken on Earth. Companies with online translation systems such as Google and DeepL/Linguee are not addressing this market, as the ROI is too low. It makes more sense to empower local communities to create such parallel data. We will carefully evaluate our prototype to ensure that it meets their needs. Along with the creation of the prototype, we will determine how best to structure the IPR to support future development. Consulting, which we have already carried out for the Sorbian community, and a certification scheme for users of our system are two possibilities we will consider, along with commercial machine translation and multilingual classification problems such as hate speech detection.

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Ce projet n'a pas encore été classé par EuroSciVoc.
Proposez les domaines scientifiques qui vous semblent les plus pertinents et aidez-nous à améliorer notre service de classification.

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

HORIZON.1.1 - European Research Council (ERC) PROGRAMME PRINCIPAL
Voir tous les projets financés dans le cadre de ce programme

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

ERC-2022-POC2 - ERC PROOF OF CONCEPT GRANTS2
Voir tous les projets financés dans ce domaine

Régime de financement

Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.

HORIZON-ERC-POC - HORIZON ERC Proof of Concept Grants

Voir tous les projets financés dans le cadre de ce programme de financement

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

(s’ouvre dans une nouvelle fenêtre) ERC-2022-POC2

Voir tous les projets financés au titre de cet appel

Institution d’accueil

TECHNISCHE UNIVERSITAET MUENCHEN

Contribution nette de l'UE

€ 150 000,00

Adresse

Arcisstrasse 21
80333 Muenchen
Allemagne

Région

Bayern Oberbayern München, Kreisfreie Stadt

Type d’activité

Higher or Secondary Education Establishments

Liens

Contacter l’organisation

Site web

Participation aux programmes de R&I de l'UE

Réseau de collaboration HORIZON

Coût total

Aucune donnée

Bénéficiaires (2)

TECHNISCHE UNIVERSITAET MUENCHEN

Allemagne

Contribution nette de l'UE

€ 150 000,00

LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN

Allemagne

Contribution nette de l'UE

€ 0,00

Description du projet

Un prototype pour aider les communautés linguistiques disposant de moins de ressources

Objectif

Champ scientifique (EuroSciVoc) CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Programme(s) Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s) Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

Institution d’accueil

Bénéficiaires (2)

Télécharger Télécharger le contenu de la page

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.