Skip to main content
Weiter zur Homepage der Europäischen Kommission (öffnet in neuem Fenster)
Deutsch Deutsch
CORDIS - Forschungsergebnisse der EU
CORDIS

High Performance Language Technologies

CORDIS bietet Links zu öffentlichen Ergebnissen und Veröffentlichungen von HORIZONT-Projekten.

Links zu Ergebnissen und Veröffentlichungen von RP7-Projekten sowie Links zu einigen Typen spezifischer Ergebnisse wie Datensätzen und Software werden dynamisch von OpenAIRE abgerufen.

Leistungen

Initial release of monolingual and parallel data sets (öffnet in neuem Fenster)

This deliverable consists of initial set of textual data acquired from web and non-web sources, both in monolingual and parallel parts, after cleaning done in WP2.

Software for cleaning data sets (öffnet in neuem Fenster)

Free and open-source software will be released on GitHub.

First language models trained (öffnet in neuem Fenster)

Language models will be made available for download however it may not have all or the cleanest data.

Translation models for select language pairs (öffnet in neuem Fenster)

Models available for download trained using the pipeline.

Veröffentlichungen

Four Approaches to Low-Resource Multilingual NMT: The Helsinki Submission to the AmericasNLP 2023 Shared Task (öffnet in neuem Fenster)

Autoren: Ona De Gibert, Raúl Vázquez, Mikko Aulamo, Yves Scherrer, Sami Virpioja, Jörg Tiedemann
Veröffentlicht in: 2023, ISBN 978-1-959429-91-3
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2023.AMERICASNLP-1.20

CUNI Systems for the WMT22 Czech-Ukrainian Translation Task (öffnet in neuem Fenster)

Autoren: Popel, Martin; Libovický, Jindřich; Helcl, Jindřich
Veröffentlicht in: 2022, ISBN 978-1-959429-29-6
Herausgeber: Association for Computational Linguistics
DOI: 10.48550/ARXIV.2212.00486

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India (öffnet in neuem Fenster)

Autoren: Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay Cohen, Manish Shrivastava, Barry Haddow
Veröffentlicht in: 2023, ISBN 979-8-89176-061-5
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-EMNLP.777

Towards Effective Disambiguation for Machine Translation with Large Language Models (öffnet in neuem Fenster)

Autoren: Vivek Iyer, Pinzhen Chen, and Alexandra Birch
Veröffentlicht in: 2023, ISBN 979-8-89176-041-7
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2023.WMT-1.44

FinGPT: Large Generative Models for a Small Language (öffnet in neuem Fenster)

Autoren: Luukkonen, Risto; Komulainen, Ville; Luoma, Jouni; Eskelinen, Anni; Kanerva, Jenna; Kupari, Hanna-Mari; Ginter, Filip; Laippala, Veronika; Muennighoff, Niklas; Piktus, Aleksandra; Wang, Thomas; Tazi, Nouamane; Scao, Teven Le; Wolf, Thomas; Suominen, Osma; Sairanen, Samuli; Merioksa, Mikko; Heinonen, Jyrki; Vahtola, Aija; Antao, Samuel; Pyysalo, Sampo
Veröffentlicht in: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, ISBN 979-8-89176-060-8
Herausgeber: Association for Computational Linguistics
DOI: 10.48550/arxiv.2311.05640

Tokenization with Factorized Subword Encoding (öffnet in neuem Fenster)

Autoren: David Samuel and Lilja Øvrelid
Veröffentlicht in: 2023, ISBN 978-1-959429-62-3
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-ACL.890

Towards Interpretable Mental Health Analysis with Large Language Models (öffnet in neuem Fenster)

Autoren: Yang, Kailai; Ji, Shaoxiong; Zhang, Tianlin; Xie, Qianqian; Kuang, Ziyan; Ananiadou, Sophia
Veröffentlicht in: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, ISBN 979-8-89176-060-8
Herausgeber: Association for Computational Linguistics
DOI: 10.48550/arxiv.2304.03347

The OPUS-MT Dashboard – A Toolkit for a Systematic Evaluation of Open Machine Translation Models (öffnet in neuem Fenster)

Autoren: Jörg Tiedemann and Ona de Gibert
Veröffentlicht in: 2023, ISBN 978-1-959429-70-8
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2023.ACL-DEMO.30

Terminology-Aware Translation with Constrained Decoding and Large Language Model Prompting (öffnet in neuem Fenster)

Autoren: Bogoychev, Nikolay and Chen, Pinzhen
Veröffentlicht in: 2023, ISBN 979-8-89176-041-7
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2023.WMT-1.80

Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca (öffnet in neuem Fenster)

Autoren: Chen, Pinzhen; Ji, Shaoxiong; Bogoychev, Nikolay; Kutuzov, Andrey; Haddow, Barry; Heafield, Kenneth
Veröffentlicht in: EACL, 2023, ISBN 979-8-89176-088-2
Herausgeber: Association for Computational Linguistics
DOI: 10.48550/arxiv.2309.08958

Unsupervised Feature Selection for Effective Parallel Corpus Filtering

Autoren: Mikko Aulamo, Ona de Gibert, Sami Virpioja, and Jörg Tiedemann
Veröffentlicht in: Proceedings of the 24th Annual Conference of the European Association for Machine Translation, 2023, ISBN 978-952-03-2947-1
Herausgeber: European Association for Machine Translation

Exploring Data Augmentation for Code Generation Tasks

Autoren: Pinzhen Chen, Gerasimos Lampouras
Veröffentlicht in: 2023, ISBN 978-1-959429-47-0
Herausgeber: Association for Computational Linguistics

Scaling Data-Constrained Language Models (öffnet in neuem Fenster)

Autoren: Muennighoff, Niklas; Rush, Alexander M.; Barak, Boaz; Scao, Teven Le; Piktus, Aleksandra; Tazi, Nouamane; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin
Veröffentlicht in: 2023, ISSN 2331-8422
Herausgeber: NeurIPS'23
DOI: 10.48550/arxiv.2305.16264

CUNI Non-Autoregressive System for the WMT 22 Efficient Translation Shared Task (öffnet in neuem Fenster)

Autoren: Helcl, Jindřich
Veröffentlicht in: 2022, ISBN 978-1-959429-29-6
Herausgeber: Association for Computational Linguistics
DOI: 10.48550/ARXIV.2212.00477

Cheating to Identify Hard Problems for Neural Machine Translation (öffnet in neuem Fenster)

Autoren: Proyag Pal, Kenneth Heafield
Veröffentlicht in: 2023, ISBN 978-1-959429-47-0
Herausgeber: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-EACL.120

Large Language Model Inference with Lexical Shortlisting (öffnet in neuem Fenster)

Autoren: Nikolay Bogoychev and Pinzhen Chen and Barry Haddow and Alexandra Birch
Veröffentlicht in: AAAI Workshop on Deployable AI, 2024, ISSN 2331-8422
Herausgeber: arXiv
DOI: 10.48550/ARXIV.2311.09709

SpringerPlus (öffnet in neuem Fenster)

Autoren: Tiedemann J.; Aulamo M.; Bakshandaeva D.; Boggia M.; Grönroos S. A.; Nieminen T.; Raganato A.; Scherrer Y.; Vázquez R.; Virpioja S.
Veröffentlicht in: Springer, 2023, ISSN 2193-1801
Herausgeber: Springer Science and Business Media Deutschland GmbH
DOI: 10.48550/ARXIV.2212.01936

HPLT High-Performance Language Technology: Building LLMs and TMs in European languages

Autoren: Hajič, Jan
Veröffentlicht in: 2023
Herausgeber: Oral presentation at Skeikampen, Norway

Iterative Translation Refinement with Large Language Models (öffnet in neuem Fenster)

Autoren: Chen, Pinzhen and Guo, Zhicheng and Haddow, Barry and Heafield, Kenneth
Veröffentlicht in: 2023, ISSN 2331-8422
Herausgeber: arXiv
DOI: 10.48550/ARXIV.2306.03856

{EEE-QA}: Exploring effective and efficient question-answer representations (öffnet in neuem Fenster)

Autoren: Zhanghao Hu and Yijun Yang and Junjie Xu and Yifu Qiu and Pinzhen Chen
Veröffentlicht in: 2024, ISSN 2331-8422
Herausgeber: arXiv
DOI: 10.48550/ARXIV.2403.02176

Velké jazykové modely: Co znamená velké a co jazykové?

Autoren: Libovický, Jindřich
Veröffentlicht in: 2023
Herausgeber: Talk at FI MUNI, Brno, Czechia

OpusCleaner and OpusTrainer, open source toolkits for training Machine Translation and Large language models (öffnet in neuem Fenster)

Autoren: Nikolay Bogoychev and Jelmer van der Linde and Graeme Nail and Barry Haddow and Jaume Zaragoza-Bernabeu and Gema Ramírez-Sánchez and Lukas Weymann and Tudor Nicolae Mateiu and Jindřich Helcl and Mikko Aulamo
Veröffentlicht in: 2023, ISSN 2331-8422
Herausgeber: arXiv
DOI: 10.48550/ARXIV.2311.14838

Suche nach OpenAIRE-Daten ...

Bei der Suche nach OpenAIRE-Daten ist ein Fehler aufgetreten

Es liegen keine Ergebnisse vor

Mein Booklet 0 0