Projektbeschreibung
Prototyp für Sprachgemeinschaften mit weniger Ressourcen
Parallele Daten zu generieren und zu verwalten ist wichtig für hochwertige maschinelle Übersetzungssysteme, insbesondere für Sprachen mit kleineren Trainingsdatensätzen. Dadurch können leichter Inhalte erstellt und diese Sprachen erhalten werden. Doch aufgrund geringer Renditen investieren Unternehmen nur selten in diesen Markt. Das Projekt Data4ML wird über den Europäischen Forschungsrat finanziert mit dem Ziel, eine kostengünstige Methode zur Generierung neuer paralleler Korpora aufzustellen. Dabei wird ein quelloffener Prototyp geschaffen, in dem Erkenntnisse aus dem Projekt der Projektleitung, das über einen ERC Starting Grant bezuschusst wurde, verwertet werden. Außerdem werden Fragen zum Recht des geistigen Eigentums berücksichtigt und weitere Finanzierungen gesichert. Mit diesem Prototypen können Sprachgemeinschaften mit begrenzten Ressourcen unterstützt werden. Das Team befasst sich auch mit kommerzieller maschineller Übersetzung und der mehrsprachigen Klassifizierung, u. a. der Erkennung von Hetze.
Ziel
It is difficult to build high quality machine translation systems for less-resourced languages, such as the minority languages of Europe. State-of-the-art machine translation is trained on large parallel corpora, texts and their translations. But such corpora are not available for less-resourced languages. We will provide a system for the rapid and inexpensive creation of new parallel corpora. Our PoC project will both produce an open-source prototype utilizing findings from the PI's ERC StG, and determine IPR and future funding. The key innovation of the prototype will be that it can be used by the less-resourced language community themselves. Current systems require extensive background in natural language processing. Allowing the community to create and curate parallel data has clear social benefits. The creation of high quality machine translation systems for less-resourced languages will allow for more content creation in these languages, playing a strong role in the preservation of these languages. Curated parallel data will also be useful in activities such as education and cultural heritage research. Government funding is available for digital language preservation for many of the 7000 languages spoken on Earth. Companies with online translation systems such as Google and DeepL/Linguee are not addressing this market, as the ROI is too low. It makes more sense to empower local communities to create such parallel data. We will carefully evaluate our prototype to ensure that it meets their needs. Along with the creation of the prototype, we will determine how best to structure the IPR to support future development. Consulting, which we have already carried out for the Sorbian community, and a certification scheme for users of our system are two possibilities we will consider, along with commercial machine translation and multilingual classification problems such as hate speech detection.
Programm/Programme
Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.
Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.
-
HORIZON.1.1 - European Research Council (ERC)
HAUPTPROGRAMM
Alle im Rahmen dieses Programms finanzierten Projekte anzeigen
Thema/Themen
Aufforderungen zur Einreichung von Vorschlägen sind nach Themen gegliedert. Ein Thema definiert einen bestimmten Bereich oder ein Gebiet, zu dem Vorschläge eingereicht werden können. Die Beschreibung eines Themas umfasst seinen spezifischen Umfang und die erwarteten Auswirkungen des finanzierten Projekts.
Aufforderungen zur Einreichung von Vorschlägen sind nach Themen gegliedert. Ein Thema definiert einen bestimmten Bereich oder ein Gebiet, zu dem Vorschläge eingereicht werden können. Die Beschreibung eines Themas umfasst seinen spezifischen Umfang und die erwarteten Auswirkungen des finanzierten Projekts.
Finanzierungsplan
Finanzierungsregelung (oder „Art der Maßnahme“) innerhalb eines Programms mit gemeinsamen Merkmalen. Sieht folgendes vor: den Umfang der finanzierten Maßnahmen, den Erstattungssatz, spezifische Bewertungskriterien für die Finanzierung und die Verwendung vereinfachter Kostenformen wie Pauschalbeträge.
Finanzierungsregelung (oder „Art der Maßnahme“) innerhalb eines Programms mit gemeinsamen Merkmalen. Sieht folgendes vor: den Umfang der finanzierten Maßnahmen, den Erstattungssatz, spezifische Bewertungskriterien für die Finanzierung und die Verwendung vereinfachter Kostenformen wie Pauschalbeträge.
HORIZON-ERC-POC - HORIZON ERC Proof of Concept Grants
Alle im Rahmen dieses Finanzierungsinstruments finanzierten Projekte anzeigen
Aufforderung zur Vorschlagseinreichung
Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.
Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.
(öffnet in neuem Fenster) ERC-2022-POC2
Alle im Rahmen dieser Aufforderung zur Einreichung von Vorschlägen finanzierten Projekte anzeigenGastgebende Einrichtung
Finanzieller Nettobeitrag der EU. Der Geldbetrag, den der Beteiligte erhält, abzüglich des EU-Beitrags an mit ihm verbundene Dritte. Berücksichtigt die Aufteilung des EU-Finanzbeitrags zwischen den direkten Begünstigten des Projekts und anderen Arten von Beteiligten, wie z. B. Dritten.
80333 Muenchen
Deutschland
Die Gesamtkosten, die dieser Organisation durch die Beteiligung am Projekt entstanden sind, einschließlich der direkten und indirekten Kosten. Dieser Betrag ist Teil des Gesamtbudgets des Projekts.