Skip to main content
Ir a la página de inicio de la Comisión Europea (se abrirá en una nueva ventana)
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

High Performance Language Technologies

CORDIS proporciona enlaces a los documentos públicos y las publicaciones de los proyectos de los programas marco HORIZONTE.

Los enlaces a los documentos y las publicaciones de los proyectos del Séptimo Programa Marco, así como los enlaces a algunos tipos de resultados específicos, como conjuntos de datos y «software», se obtienen dinámicamente de OpenAIRE .

Resultado final

Initial release of monolingual and parallel data sets (se abrirá en una nueva ventana)

This deliverable consists of initial set of textual data acquired from web and non-web sources, both in monolingual and parallel parts, after cleaning done in WP2.

Software for cleaning data sets (se abrirá en una nueva ventana)

Free and open-source software will be released on GitHub.

First language models trained (se abrirá en una nueva ventana)

Language models will be made available for download however it may not have all or the cleanest data.

Translation models for select language pairs (se abrirá en una nueva ventana)

Models available for download trained using the pipeline.

Publicaciones

Four Approaches to Low-Resource Multilingual NMT: The Helsinki Submission to the AmericasNLP 2023 Shared Task (se abrirá en una nueva ventana)

Autores: Ona De Gibert, Raúl Vázquez, Mikko Aulamo, Yves Scherrer, Sami Virpioja, Jörg Tiedemann
Publicado en: 2023, ISBN 978-1-959429-91-3
Editor: Association for Computational Linguistics
DOI: 10.18653/V1/2023.AMERICASNLP-1.20

CUNI Systems for the WMT22 Czech-Ukrainian Translation Task (se abrirá en una nueva ventana)

Autores: Popel, Martin; Libovický, Jindřich; Helcl, Jindřich
Publicado en: 2022, ISBN 978-1-959429-29-6
Editor: Association for Computational Linguistics
DOI: 10.48550/ARXIV.2212.00486

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India (se abrirá en una nueva ventana)

Autores: Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay Cohen, Manish Shrivastava, Barry Haddow
Publicado en: 2023, ISBN 979-8-89176-061-5
Editor: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-EMNLP.777

Towards Effective Disambiguation for Machine Translation with Large Language Models (se abrirá en una nueva ventana)

Autores: Vivek Iyer, Pinzhen Chen, and Alexandra Birch
Publicado en: 2023, ISBN 979-8-89176-041-7
Editor: Association for Computational Linguistics
DOI: 10.18653/V1/2023.WMT-1.44

FinGPT: Large Generative Models for a Small Language (se abrirá en una nueva ventana)

Autores: Luukkonen, Risto; Komulainen, Ville; Luoma, Jouni; Eskelinen, Anni; Kanerva, Jenna; Kupari, Hanna-Mari; Ginter, Filip; Laippala, Veronika; Muennighoff, Niklas; Piktus, Aleksandra; Wang, Thomas; Tazi, Nouamane; Scao, Teven Le; Wolf, Thomas; Suominen, Osma; Sairanen, Samuli; Merioksa, Mikko; Heinonen, Jyrki; Vahtola, Aija; Antao, Samuel; Pyysalo, Sampo
Publicado en: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, ISBN 979-8-89176-060-8
Editor: Association for Computational Linguistics
DOI: 10.48550/arxiv.2311.05640

Tokenization with Factorized Subword Encoding (se abrirá en una nueva ventana)

Autores: David Samuel and Lilja Øvrelid
Publicado en: 2023, ISBN 978-1-959429-62-3
Editor: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-ACL.890

Towards Interpretable Mental Health Analysis with Large Language Models (se abrirá en una nueva ventana)

Autores: Yang, Kailai; Ji, Shaoxiong; Zhang, Tianlin; Xie, Qianqian; Kuang, Ziyan; Ananiadou, Sophia
Publicado en: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, ISBN 979-8-89176-060-8
Editor: Association for Computational Linguistics
DOI: 10.48550/arxiv.2304.03347

The OPUS-MT Dashboard – A Toolkit for a Systematic Evaluation of Open Machine Translation Models (se abrirá en una nueva ventana)

Autores: Jörg Tiedemann and Ona de Gibert
Publicado en: 2023, ISBN 978-1-959429-70-8
Editor: Association for Computational Linguistics
DOI: 10.18653/V1/2023.ACL-DEMO.30

Terminology-Aware Translation with Constrained Decoding and Large Language Model Prompting (se abrirá en una nueva ventana)

Autores: Bogoychev, Nikolay and Chen, Pinzhen
Publicado en: 2023, ISBN 979-8-89176-041-7
Editor: Association for Computational Linguistics
DOI: 10.18653/V1/2023.WMT-1.80

Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca (se abrirá en una nueva ventana)

Autores: Chen, Pinzhen; Ji, Shaoxiong; Bogoychev, Nikolay; Kutuzov, Andrey; Haddow, Barry; Heafield, Kenneth
Publicado en: EACL, 2023, ISBN 979-8-89176-088-2
Editor: Association for Computational Linguistics
DOI: 10.48550/arxiv.2309.08958

Unsupervised Feature Selection for Effective Parallel Corpus Filtering

Autores: Mikko Aulamo, Ona de Gibert, Sami Virpioja, and Jörg Tiedemann
Publicado en: Proceedings of the 24th Annual Conference of the European Association for Machine Translation, 2023, ISBN 978-952-03-2947-1
Editor: European Association for Machine Translation

Exploring Data Augmentation for Code Generation Tasks

Autores: Pinzhen Chen, Gerasimos Lampouras
Publicado en: 2023, ISBN 978-1-959429-47-0
Editor: Association for Computational Linguistics

Scaling Data-Constrained Language Models (se abrirá en una nueva ventana)

Autores: Muennighoff, Niklas; Rush, Alexander M.; Barak, Boaz; Scao, Teven Le; Piktus, Aleksandra; Tazi, Nouamane; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin
Publicado en: 2023, ISSN 2331-8422
Editor: NeurIPS'23
DOI: 10.48550/arxiv.2305.16264

CUNI Non-Autoregressive System for the WMT 22 Efficient Translation Shared Task (se abrirá en una nueva ventana)

Autores: Helcl, Jindřich
Publicado en: 2022, ISBN 978-1-959429-29-6
Editor: Association for Computational Linguistics
DOI: 10.48550/ARXIV.2212.00477

Cheating to Identify Hard Problems for Neural Machine Translation (se abrirá en una nueva ventana)

Autores: Proyag Pal, Kenneth Heafield
Publicado en: 2023, ISBN 978-1-959429-47-0
Editor: Association for Computational Linguistics
DOI: 10.18653/V1/2023.FINDINGS-EACL.120

Large Language Model Inference with Lexical Shortlisting (se abrirá en una nueva ventana)

Autores: Nikolay Bogoychev and Pinzhen Chen and Barry Haddow and Alexandra Birch
Publicado en: AAAI Workshop on Deployable AI, 2024, ISSN 2331-8422
Editor: arXiv
DOI: 10.48550/ARXIV.2311.09709

SpringerPlus (se abrirá en una nueva ventana)

Autores: Tiedemann J.; Aulamo M.; Bakshandaeva D.; Boggia M.; Grönroos S. A.; Nieminen T.; Raganato A.; Scherrer Y.; Vázquez R.; Virpioja S.
Publicado en: Springer, 2023, ISSN 2193-1801
Editor: Springer Science and Business Media Deutschland GmbH
DOI: 10.48550/ARXIV.2212.01936

HPLT High-Performance Language Technology: Building LLMs and TMs in European languages

Autores: Hajič, Jan
Publicado en: 2023
Editor: Oral presentation at Skeikampen, Norway

Iterative Translation Refinement with Large Language Models (se abrirá en una nueva ventana)

Autores: Chen, Pinzhen and Guo, Zhicheng and Haddow, Barry and Heafield, Kenneth
Publicado en: 2023, ISSN 2331-8422
Editor: arXiv
DOI: 10.48550/ARXIV.2306.03856

{EEE-QA}: Exploring effective and efficient question-answer representations (se abrirá en una nueva ventana)

Autores: Zhanghao Hu and Yijun Yang and Junjie Xu and Yifu Qiu and Pinzhen Chen
Publicado en: 2024, ISSN 2331-8422
Editor: arXiv
DOI: 10.48550/ARXIV.2403.02176

Velké jazykové modely: Co znamená velké a co jazykové?

Autores: Libovický, Jindřich
Publicado en: 2023
Editor: Talk at FI MUNI, Brno, Czechia

OpusCleaner and OpusTrainer, open source toolkits for training Machine Translation and Large language models (se abrirá en una nueva ventana)

Autores: Nikolay Bogoychev and Jelmer van der Linde and Graeme Nail and Barry Haddow and Jaume Zaragoza-Bernabeu and Gema Ramírez-Sánchez and Lukas Weymann and Tudor Nicolae Mateiu and Jindřich Helcl and Mikko Aulamo
Publicado en: 2023, ISSN 2331-8422
Editor: arXiv
DOI: 10.48550/ARXIV.2311.14838

Buscando datos de OpenAIRE...

Se ha producido un error en la búsqueda de datos de OpenAIRE

No hay resultados disponibles

Mi folleto 0 0