Descrizione del progetto
Prototipo a supporto delle comunità linguistiche con minori risorse
La generazione e la gestione di dati paralleli svolgono un ruolo importante nella creazione di sistemi di traduzione automatica di alta qualità, in particolare per le lingue con minori risorse. Ciò supporta la creazione di contenuti e contribuisce a preservare tali lingue. Le aziende sono tuttavia restie a investire in questo mercato a causa dei bassi ritorni sugli investimenti. Il progetto Data4ML, finanziato dal CER, svilupperà un metodo economico per generare nuovi corpora paralleli. Il progetto prevede la creazione di un prototipo open source che incorpora le intuizioni del progetto condotto nell’ambito delle sovvenzioni di avviamento CER del ricercatore, affronta le questioni relative ai diritti di proprietà intellettuale e garantisce finanziamenti futuri. Questo prototipo racchiude il potenziale per potenziare le comunità linguistiche con risorse limitate. Il progetto si occupa anche di traduzione automatica commerciale e affronta questioni di classificazione multilingue, tra cui l’individuazione dei discorsi d’odio.
Obiettivo
It is difficult to build high quality machine translation systems for less-resourced languages, such as the minority languages of Europe. State-of-the-art machine translation is trained on large parallel corpora, texts and their translations. But such corpora are not available for less-resourced languages. We will provide a system for the rapid and inexpensive creation of new parallel corpora. Our PoC project will both produce an open-source prototype utilizing findings from the PI's ERC StG, and determine IPR and future funding. The key innovation of the prototype will be that it can be used by the less-resourced language community themselves. Current systems require extensive background in natural language processing. Allowing the community to create and curate parallel data has clear social benefits. The creation of high quality machine translation systems for less-resourced languages will allow for more content creation in these languages, playing a strong role in the preservation of these languages. Curated parallel data will also be useful in activities such as education and cultural heritage research. Government funding is available for digital language preservation for many of the 7000 languages spoken on Earth. Companies with online translation systems such as Google and DeepL/Linguee are not addressing this market, as the ROI is too low. It makes more sense to empower local communities to create such parallel data. We will carefully evaluate our prototype to ensure that it meets their needs. Along with the creation of the prototype, we will determine how best to structure the IPR to support future development. Consulting, which we have already carried out for the Sorbian community, and a certification scheme for users of our system are two possibilities we will consider, along with commercial machine translation and multilingual classification problems such as hate speech detection.
Programma(i)
Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.
Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.
-
HORIZON.1.1 - European Research Council (ERC)
PROGRAMMA PRINCIPALE
Vedi tutti i progetti finanziati nell’ambito di questo programma
Argomento(i)
Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.
Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.
Meccanismo di finanziamento
Meccanismo di finanziamento (o «Tipo di azione») all’interno di un programma con caratteristiche comuni. Specifica: l’ambito di ciò che viene finanziato; il tasso di rimborso; i criteri di valutazione specifici per qualificarsi per il finanziamento; l’uso di forme semplificate di costi come gli importi forfettari.
Meccanismo di finanziamento (o «Tipo di azione») all’interno di un programma con caratteristiche comuni. Specifica: l’ambito di ciò che viene finanziato; il tasso di rimborso; i criteri di valutazione specifici per qualificarsi per il finanziamento; l’uso di forme semplificate di costi come gli importi forfettari.
HORIZON-ERC-POC - HORIZON ERC Proof of Concept Grants
Vedi tutti i progetti finanziati nell’ambito di questo schema di finanziamento
Invito a presentare proposte
Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.
Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.
(si apre in una nuova finestra) ERC-2022-POC2
Vedi tutti i progetti finanziati nell’ambito del bandoIstituzione ospitante
Contributo finanziario netto dell’UE. La somma di denaro che il partecipante riceve, decurtata dal contributo dell’UE alla terza parte collegata. Tiene conto della distribuzione del contributo finanziario dell’UE tra i beneficiari diretti del progetto e altri tipi di partecipanti, come i partecipanti terzi.
80333 Muenchen
Germania
I costi totali sostenuti dall’organizzazione per partecipare al progetto, compresi i costi diretti e indiretti. Questo importo è un sottoinsieme del bilancio complessivo del progetto.