A prototype system for obtaining and managing training data for multilingual learning

Projektinformationen

Data4ML

ID Finanzhilfevereinbarung: 101113091

DOI

10.3030/101113091

Projekt abgeschlossen

EK-Unterschriftsdatum 30 März 2023

Startdatum 1 Oktober 2023

Enddatum 30 September 2025

Finanziert unter

European Research Council (ERC)

Gesamtkosten

Keine Daten

EU-Beitrag

€ 150 000,00

Koordiniert durch

TECHNISCHE UNIVERSITAET MUENCHEN
Germany

CORDIS bietet Links zu öffentlichen Ergebnissen und Veröffentlichungen von HORIZONT-Projekten.

Links zu Ergebnissen und Veröffentlichungen von RP7-Projekten sowie Links zu einigen Typen spezifischer Ergebnisse wie Datensätzen und Software werden dynamisch von OpenAIRE abgerufen.

Leistungen

Veröffentlichungen

EXECUTE: A Multilingual Benchmark for LLM Token Understanding

Autoren: Lukas Edman, Helmut Schmid, Alexander Fraser
Veröffentlicht in: Findings of the Association for Computational Linguistics: ACL 2025, 2025
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2025.FINDINGS-ACL.95

From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora

Autoren: Yingli Shen, Wen Lai, Shuo Wang, Ge Gao, Kangyang Luo, Alexander Fraser, Maosong Sun
Veröffentlicht in: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, 2025
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2025.EMNLP-MAIN.374

Improving Parallel Sentence Mining for Low-Resource and Endangered Languages

Autoren: Shu Okabe, Katharina Hämmerl, Alexander Fraser
Veröffentlicht in: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2025
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2025.ACL-SHORT.17

Mask and You Shall Receive: Optimizing Masked Language Modeling For Pretraining BabyLMs

Autoren: Lukas Edman, Alexander Fraser
Veröffentlicht in: Proceedings of the First BabyLM Workshop, 2025
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2025.BABYLM-MAIN.31

Findings of the WMT 2025 Shared Task LLMs with Limited Resources for Slavic Languages: MT and QA

Autoren: Shu Okabe, Daryna Dementieva, Marion Di Marco, Lukas Edman, Katharina Haemmerl, Marko Měškank, Anita Hendrichowa, Alexander Fraser
Veröffentlicht in: Proceedings of the Tenth Conference on Machine Translation, 2025
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2025.WMT-1.27

Suche nach OpenAIRE-Daten ...

Leistungen

Veröffentlichungen

Herunterladen Den Inhalt der Seite herunterladen