High Performance Language Technologies

Informazioni relative al progetto

HPLT

ID dell’accordo di sovvenzione: 101070350

DOI

10.3030/101070350

Data della firma CE 13 Giugno 2022

Data di avvio 1 Settembre 2022

Data di completamento 31 Dicembre 2025

Finanziato da

Digital, Industry and Space

Costo totale

€ 4 058 287,50

Contributo UE

€ 3 880 687,50

3 880 687,50

177 600,00

Coordinato da

UNIVERZITA KARLOVA
Czechia

CORDIS fornisce collegamenti ai risultati finali pubblici e alle pubblicazioni dei progetti ORIZZONTE.

I link ai risultati e alle pubblicazioni dei progetti del 7° PQ, così come i link ad alcuni tipi di risultati specifici come dataset e software, sono recuperati dinamicamente da .OpenAIRE .

Risultati finali

Initial release of monolingual and parallel data sets

This deliverable consists of initial set of textual data acquired from web and non-web sources, both in monolingual and parallel parts, after cleaning done in WP2.

Software for cleaning data sets

Free and open-source software will be released on GitHub.

First language models trained

Language models will be made available for download however it may not have all or the cleanest data.

Translation models for select language pairs

Models available for download trained using the pipeline.

Pubblicazioni

Four Approaches to Low-Resource Multilingual NMT: The Helsinki Submission to the AmericasNLP 2023 Shared Task

Autori: Ona De Gibert, Raúl Vázquez, Mikko Aulamo, Yves Scherrer, Sami Virpioja, Jörg Tiedemann
Pubblicato in: 2023, ISBN 978-1-959429-91-3
Editore: Association for Computational Linguistics
DOI: 10.18653/V1/2023.AMERICASNLP-1.20

CUNI Systems for the WMT22 Czech-Ukrainian Translation Task

Autori: Popel, Martin; Libovický, Jindřich; Helcl, Jindřich
Pubblicato in: 2022, ISBN 978-1-959429-29-6
Editore: Association for Computational Linguistics
DOI: 10.48550/ARXIV.2212.00486

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India

Autori: Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay Cohen, Manish Shrivastava, Barry Haddow
Pubblicato in: 2023, ISBN 979-8-89176-061-5
Editore: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-EMNLP.777

Towards Effective Disambiguation for Machine Translation with Large Language Models

Autori: Vivek Iyer, Pinzhen Chen, and Alexandra Birch
Pubblicato in: 2023, ISBN 979-8-89176-041-7
Editore: Association for Computational Linguistics
DOI: 10.18653/V1/2023.WMT-1.44

FinGPT: Large Generative Models for a Small Language

Autori: Luukkonen, Risto; Komulainen, Ville; Luoma, Jouni; Eskelinen, Anni; Kanerva, Jenna; Kupari, Hanna-Mari; Ginter, Filip; Laippala, Veronika; Muennighoff, Niklas; Piktus, Aleksandra; Wang, Thomas; Tazi, Nouamane; Scao, Teven Le; Wolf, Thomas; Suominen, Osma; Sairanen, Samuli; Merioksa, Mikko; Heinonen, Jyrki; Vahtola, Aija; Antao, Samuel; Pyysalo, Sampo
Pubblicato in: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, ISBN 979-8-89176-060-8
Editore: Association for Computational Linguistics
DOI: 10.48550/arxiv.2311.05640

Tokenization with Factorized Subword Encoding

Autori: David Samuel and Lilja Øvrelid
Pubblicato in: 2023, ISBN 978-1-959429-62-3
Editore: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-ACL.890

Towards Interpretable Mental Health Analysis with Large Language Models

Autori: Yang, Kailai; Ji, Shaoxiong; Zhang, Tianlin; Xie, Qianqian; Kuang, Ziyan; Ananiadou, Sophia
Pubblicato in: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, ISBN 979-8-89176-060-8
Editore: Association for Computational Linguistics
DOI: 10.48550/arxiv.2304.03347

The OPUS-MT Dashboard – A Toolkit for a Systematic Evaluation of Open Machine Translation Models

Autori: Jörg Tiedemann and Ona de Gibert
Pubblicato in: 2023, ISBN 978-1-959429-70-8
Editore: Association for Computational Linguistics
DOI: 10.18653/V1/2023.ACL-DEMO.30

Terminology-Aware Translation with Constrained Decoding and Large Language Model Prompting

Autori: Bogoychev, Nikolay and Chen, Pinzhen
Pubblicato in: 2023, ISBN 979-8-89176-041-7
Editore: Association for Computational Linguistics
DOI: 10.18653/V1/2023.WMT-1.80

Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca

Autori: Chen, Pinzhen; Ji, Shaoxiong; Bogoychev, Nikolay; Kutuzov, Andrey; Haddow, Barry; Heafield, Kenneth
Pubblicato in: EACL, 2023, ISBN 979-8-89176-088-2
Editore: Association for Computational Linguistics
DOI: 10.48550/arxiv.2309.08958

Unsupervised Feature Selection for Effective Parallel Corpus Filtering

Autori: Mikko Aulamo, Ona de Gibert, Sami Virpioja, and Jörg Tiedemann
Pubblicato in: Proceedings of the 24th Annual Conference of the European Association for Machine Translation, 2023, ISBN 978-952-03-2947-1
Editore: European Association for Machine Translation

Exploring Data Augmentation for Code Generation Tasks

Autori: Pinzhen Chen, Gerasimos Lampouras
Pubblicato in: 2023, ISBN 978-1-959429-47-0
Editore: Association for Computational Linguistics

Scaling Data-Constrained Language Models

Autori: Muennighoff, Niklas; Rush, Alexander M.; Barak, Boaz; Scao, Teven Le; Piktus, Aleksandra; Tazi, Nouamane; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin
Pubblicato in: 2023, ISSN 2331-8422
Editore: NeurIPS'23
DOI: 10.48550/arxiv.2305.16264

CUNI Non-Autoregressive System for the WMT 22 Efficient Translation Shared Task

Autori: Helcl, Jindřich
Pubblicato in: 2022, ISBN 978-1-959429-29-6
Editore: Association for Computational Linguistics
DOI: 10.48550/ARXIV.2212.00477

Cheating to Identify Hard Problems for Neural Machine Translation

Autori: Proyag Pal, Kenneth Heafield
Pubblicato in: 2023, ISBN 978-1-959429-47-0
Editore: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-EACL.120

Large Language Model Inference with Lexical Shortlisting

Autori: Nikolay Bogoychev and Pinzhen Chen and Barry Haddow and Alexandra Birch
Pubblicato in: AAAI Workshop on Deployable AI, 2024, ISSN 2331-8422
Editore: arXiv
DOI: 10.48550/ARXIV.2311.09709

SpringerPlus

Autori: Tiedemann J.; Aulamo M.; Bakshandaeva D.; Boggia M.; Grönroos S. A.; Nieminen T.; Raganato A.; Scherrer Y.; Vázquez R.; Virpioja S.
Pubblicato in: Springer, 2023, ISSN 2193-1801
Editore: Springer Science and Business Media Deutschland GmbH
DOI: 10.48550/ARXIV.2212.01936

HPLT High-Performance Language Technology: Building LLMs and TMs in European languages

Autori: Hajič, Jan
Pubblicato in: 2023
Editore: Oral presentation at Skeikampen, Norway

Iterative Translation Refinement with Large Language Models

Autori: Chen, Pinzhen and Guo, Zhicheng and Haddow, Barry and Heafield, Kenneth
Pubblicato in: 2023, ISSN 2331-8422
Editore: arXiv
DOI: 10.48550/ARXIV.2306.03856

{EEE-QA}: Exploring effective and efficient question-answer representations

Autori: Zhanghao Hu and Yijun Yang and Junjie Xu and Yifu Qiu and Pinzhen Chen
Pubblicato in: 2024, ISSN 2331-8422
Editore: arXiv
DOI: 10.48550/ARXIV.2403.02176

Velké jazykové modely: Co znamená velké a co jazykové?

Autori: Libovický, Jindřich
Pubblicato in: 2023
Editore: Talk at FI MUNI, Brno, Czechia

OpusCleaner and OpusTrainer, open source toolkits for training Machine Translation and Large language models

Autori: Nikolay Bogoychev and Jelmer van der Linde and Graeme Nail and Barry Haddow and Jaume Zaragoza-Bernabeu and Gema Ramírez-Sánchez and Lukas Weymann and Tudor Nicolae Mateiu and Jindřich Helcl and Mikko Aulamo
Pubblicato in: 2023, ISSN 2331-8422
Editore: arXiv
DOI: 10.48550/ARXIV.2311.14838

È in corso la ricerca di dati su OpenAIRE...

Risultati finali

Pubblicazioni

Condividi questa pagina Condividi questa pagina sui social network

Scarica Scarica il contenuto della pagina