Descripción del proyecto
Prototipo para comunidades lingüísticas con menos recursos
La generación y gestión de datos paralelos desempeñan un papel importante en la creación de sistemas de traducción automática de alta calidad, sobre todo para las lenguas con menos recursos. Ello favorece la creación de contenidos y ayuda a preservar estas lenguas. Sin embargo, las empresas se abstienen de invertir en este mercado debido al bajo rendimiento de sus inversiones. El equipo del proyecto Data4ML, financiado por el Consejo Europeo de Investigación, desarrollará un método rentable para generar nuevos corpus paralelos. Implicará la creación de un prototipo de código abierto que incorpore los conocimientos obtenidos por el investigador del proyecto de subvención de inicio del Consejo Europeo de Investigación, y abordará los problemas relacionados con los derechos de propiedad intelectual, además de garantizar la financiación en el futuro. El prototipo tiene el potencial de capacitar a las comunidades lingüísticas con recursos limitados. El equipo del proyecto también se adentra en la traducción automática comercial y aborda cuestiones de clasificación multilingüe, incluida la identificación de discursos de odio.
Objetivo
It is difficult to build high quality machine translation systems for less-resourced languages, such as the minority languages of Europe. State-of-the-art machine translation is trained on large parallel corpora, texts and their translations. But such corpora are not available for less-resourced languages. We will provide a system for the rapid and inexpensive creation of new parallel corpora. Our PoC project will both produce an open-source prototype utilizing findings from the PI's ERC StG, and determine IPR and future funding. The key innovation of the prototype will be that it can be used by the less-resourced language community themselves. Current systems require extensive background in natural language processing. Allowing the community to create and curate parallel data has clear social benefits. The creation of high quality machine translation systems for less-resourced languages will allow for more content creation in these languages, playing a strong role in the preservation of these languages. Curated parallel data will also be useful in activities such as education and cultural heritage research. Government funding is available for digital language preservation for many of the 7000 languages spoken on Earth. Companies with online translation systems such as Google and DeepL/Linguee are not addressing this market, as the ROI is too low. It makes more sense to empower local communities to create such parallel data. We will carefully evaluate our prototype to ensure that it meets their needs. Along with the creation of the prototype, we will determine how best to structure the IPR to support future development. Consulting, which we have already carried out for the Sorbian community, and a certification scheme for users of our system are two possibilities we will consider, along with commercial machine translation and multilingual classification problems such as hate speech detection.
Programa(s)
Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.
Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.
-
HORIZON.1.1 - European Research Council (ERC)
PROGRAMA PRINCIPAL
Ver todos los proyectos financiados en el marco de este programa
Tema(s)
Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.
Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.
Régimen de financiación
Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.
Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.
HORIZON-ERC-POC - HORIZON ERC Proof of Concept Grants
Ver todos los proyectos financiados en el marco de este régimen de financiación
Convocatoria de propuestas
Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.
Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.
(se abrirá en una nueva ventana) ERC-2022-POC2
Ver todos los proyectos financiados en el marco de esta convocatoriaInstitución de acogida
Aportación financiera neta de la UE. Es la suma de dinero que recibe el participante, deducida la aportación de la UE a su tercero vinculado. Considera la distribución de la aportación financiera de la UE entre los beneficiarios directos del proyecto y otros tipos de participantes, como los terceros participantes.
80333 Muenchen
Alemania
Los costes totales en que ha incurrido esta organización para participar en el proyecto, incluidos los costes directos e indirectos. Este importe es un subconjunto del presupuesto total del proyecto.