Skip to main content
Przejdź do strony domowej Komisji Europejskiej (odnośnik otworzy się w nowym oknie)
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Exchanges for SPEech ReseArch aNd TechnOlogies

CORDIS oferuje możliwość skorzystania z odnośników do publicznie dostępnych publikacji i rezultatów projektów realizowanych w ramach programów ramowych HORYZONT.

Odnośniki do rezultatów i publikacji związanych z poszczególnymi projektami 7PR, a także odnośniki do niektórych konkretnych kategorii wyników, takich jak zbiory danych i oprogramowanie, są dynamicznie pobierane z systemu OpenAIRE .

Rezultaty

Communication and Dissemination Plan (odnośnik otworzy się w nowym oknie)

Organise communication activities, workshops, courses and other knowledge share actions. Ensure that the dissemination is compliant with open access requirements.

Report on four workshops (odnośnik otworzy się w nowym oknie)

4 workshops will take place annually either in the US, in collaboration with JSALT workshops and in Europe, in Le Mans. A report will be writen after each workshop and a final report will be delivered after the fourth workshop.

Guidance for evaluation of explainability in speech (odnośnik otworzy się w nowym oknie)

Description of protocols, metrics and scenarios to evaluate explainability of speech algorithms for different speech processing tasks.

Description of explainability for speech (odnośnik otworzy się w nowym oknie)

This deliverable will provide a list and description of criteria for explainability in the context of speech processing

Scientific dissemination guidelines (odnośnik otworzy się w nowym oknie)

Identify partners specificities and needs Writing guidelines to the attention of partners to ensure an active and coherent communication activity among countries

Guidance for evaluation with low resources (odnośnik otworzy się w nowym oknie)

Description of protocols, metrics and scenarios designed to evaluate different systems for different speech tasks with low resources.

Solutions for corpus augmentation (odnośnik otworzy się w nowym oknie)

Esperanto partners will study various methods to make use of limited corpora and artificially or automatically extend those corpora.This deliverable will report methods and performance of various approaches that can generalize well from only a few examples and can leverage diverse types of knowledge, such as typological information, annotated data from other languages or domains, unlabelled data, or multimodal data.

International open challenges for HAL speech processing (odnośnik otworzy się w nowym oknie)

Esperanto consortium will organize open international research challenges to encourage and evaluate human assisted learning systems. Organisation of challenges will include the development of new metrics and protocols to evaluate human assisted learning systems in a fair and reproducible environment.

Guidance for evaluation of human assisted learning (odnośnik otworzy się w nowym oknie)

Description of protocols, metrics and scenarios designed to evaluate different modes of human assisted learning (active learning, interactive learning) for different speech tasks.

Project website and visual identity (odnośnik otworzy się w nowym oknie)

Setting up a visual identity and a website presenting to the general public the objectives of the project, its partners and the main tools employed. The website will also be a resource for the partners for all that concerns good practices.

Corpora for under-resource task (odnośnik otworzy się w nowym oknie)

Esperanto will support the collection or extension of several corpora for under-resourced tasks such as a corpus for pronunciation evaluation and a corpus of pathological speech.

Corpora for under-resourced languages (odnośnik otworzy się w nowym oknie)

ESPERANTO will create and extend corpora for under-resourced languages such as African languages including Ewondo, Féfé, Fufuldé, as well as Arabic Tunisian dialect.

Methods for explainability by design (SDK) (odnośnik otworzy się w nowym oknie)

Implementation of various architecture designed for explainability. This SDK will include various modules designed to be shared amongst speech processing tasks to highlight the part of the incoming data that leads to the resulting decision and identify and characterize the bias induced in the system.

SDK for human assisted learning speech processing (odnośnik otworzy się w nowym oknie)

Software library developed in open-source licence to tackle to issue of human assisted learning for various tasks of speech processing such as speaker diarization, speaker verification, speech translation of speech recognition.

Models that learn from small data (odnośnik otworzy się w nowym oknie)

To deal with under-resource task, this deliverable will implement different approaches dealing with low or zero resource learning such as transfer learning and modeling based on the same information shared between languages or tasks, approaches that do not need annotated data, use of expert knowledge in empirical systems, systems using multimodal data for semantic supervision.

Publikacje

Cross-Corpus Speech Emotion Recognition with HuBERT Self-Supervised Representation (odnośnik otworzy się w nowym oknie)

Autorzy: Miguel Pastor; Dayana Ribas; Alfonso Ortega; Antonio Miguel; Eduardo Lleida
Opublikowane w: Proc. IberSPEECH, Numer 12, 2022
Wydawca: ISCA
DOI: 10.21437/iberspeech.2022-16

Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer (odnośnik otworzy się w nowym oknie)

Autorzy: Mošner Ladislav, Plchot Oldřich, Burget Lukáš, Černocký Jan
Opublikowane w: Proceedings of ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, Strona(/y) 7982-7986, ISBN 978-1-6654-0540-9
Wydawca: IEEE Signal Processing Society
DOI: 10.1109/icassp43922.2022.9747771

A transfer learning based approach for pronunciation scoring (odnośnik otworzy się w nowym oknie)

Autorzy: Sancinetti, Marcelo; Vidal, Jazmin; Bonomi, Cyntia; Ferrer, Luciana
Opublikowane w: ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Numer 4, 2022, Strona(/y) 6812-6816, ISBN 978-1-6654-0540-9
Wydawca: IEEE
DOI: 10.48550/arxiv.2111.00976

Microphone Array Channel Combination Algorithms for Overlapped Speech Detection (odnośnik otworzy się w nowym oknie)

Autorzy: Theo Mariotte; Anthony Larcher; Silvio Montrésor; Jean-Hugh Thomas
Opublikowane w: Interspeech 2022 Human and Humanizing Speech Technology, Numer 12, 2022
Wydawca: ISCA
DOI: 10.21437/interspeech.2022-10758

Log-Likelihood-Ratio Cost Function as Objective Loss for Speaker Verification Systems (odnośnik otworzy się w nowym oknie)

Autorzy: Victoria Mingote, Antonio Miguel, Alfonso Ortega, Eduardo Lleida
Opublikowane w: Interspeech 2021, 2021, Strona(/y) 2361-2365
Wydawca: ISCA
DOI: 10.21437/interspeech.2021-1085

Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing (odnośnik otworzy się w nowym oknie)

Autorzy: Martin Lebourdais, Théo Mariotte, Antonio Almudévar, Marie Tahon, Alfonso Ortega
Opublikowane w: Interspeech 2024, 2024, Strona(/y) 4753-4757
Wydawca: ISCA
DOI: 10.21437/interspeech.2024-791

Extracting Speaker and Emotion Information from Self-Supervised Speech Models via Channel-Wise Correlations (odnośnik otworzy się w nowym oknie)

Autorzy: Themos Stafylakis; Ladislav Mosner; Sofoklis Kakouros; Oldrich Plchot; Lukas Burget; Jan Cernocky
Opublikowane w: 2022 IEEE Spoken Language Technology Workshop (SLT), Numer 22, 2023, ISBN 979-8-3503-9690-4
Wydawca: IEEE
DOI: 10.1109/slt54892.2023.10023345

ALLIES: A Speech Corpus for Segmentation, Speaker Diarization, Speech Recognition and Speaker Change Detection

Autorzy: Marie Tahon, Anthony Larcher, Martin Lebourdais, Fethi Bougares, Anna Silnova, Pablo Gimeno
Opublikowane w: Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024),, 2024
Wydawca: LREC-COLING

Learnable Sparse Filterbank for Speaker Verification (odnośnik otworzy się w nowym oknie)

Autorzy: PENG Junyi, GU Rongzhi, MOŠNER Ladislav, PLCHOT Oldřich, BURGET Lukáš and ČERNOCKÝ Jan.
Opublikowane w: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, Numer "ISSN = ""1990-9772""", 2022, Strona(/y) 5110-5114
Wydawca: International Speech Communication Association (ISCA)
DOI: 10.21437/interspeech.2022-11309

Analysis of the domain mismatch problem in the Speech Emotion Recognition Task (odnośnik otworzy się w nowym oknie)

Autorzy: Miguel A. Pastor, Alfonso Ortega, Dayana Ribas
Opublikowane w: IberSPEECH 2024, 2024, Strona(/y) 181-185
Wydawca: ISCA
DOI: 10.21437/iberspeech.2024-37

On the Use of Semantically-Aligned Speech Representations for Spoken Language Understanding (odnośnik otworzy się w nowym oknie)

Autorzy: Gaelle Laperriere; Valentin Pelloin; Mickael Rouvier; Themos Stafylakis; Yannick Esteve
Opublikowane w: 2022 IEEE Spoken Language Technology Workshop (SLT), Numer 24, 2023
Wydawca: IEEE
DOI: 10.1109/slt54892.2023.10023013

Multisv: Dataset for Far-Field Multi-Channel Speaker Verification (odnośnik otworzy się w nowym oknie)

Autorzy: Mošner Ladislav, Plchot Oldřich, Burget Lukáš, Černocký Jan
Opublikowane w: Proceedings of ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, Strona(/y) 7977-7981, ISBN 978-1-6654-0540-9
Wydawca: IEEE Signal Processing Society
DOI: 10.1109/icassp43922.2022.9746833

Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings. (odnośnik otworzy się w nowym oknie)

Autorzy: BRUMMER Johan Nikolaas Langenhoven, SWART Albert du Preez, MOŠNER Ladislav, SILNOVA Anna, PLCHOT Oldřich, STAFYLAKIS Themos and BURGET Lukáš.
Opublikowane w: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH., Numer "ISSN = ""1990-9772""", 2022, Strona(/y) 1446-1450
Wydawca: International Speech Communication Association (ISCA)
DOI: 10.21437/interspeech.2022-731

Speaker Embeddings for Diarization of Broadcast Data In The Allies Challenge (odnośnik otworzy się w nowym oknie)

Autorzy: Anthony Larcher; Ambuj Mehrish; Marie Tahon; Sylvain Meignier; Jean Carrive; David Doukhan; Olivier Galibert; Nicholas Evans
Opublikowane w: ICASSP, Numer 1, 2021
Wydawca: IEEE
DOI: 10.1109/icassp39728.2021.9414215

Semantic Enrichment Towards Efficient Speech Representations (odnośnik otworzy się w nowym oknie)

Autorzy: Gaëlle Laperrière; Ha Nguyen; Sahar Ghannay; Bassam Jabaian; Yannick Estève
Opublikowane w: Proc. INTERSPEECH 2023, 2023, Strona(/y) 705-709, ISSN 1990-9772
Wydawca: ISCA
DOI: 10.21437/interspeech.2023-2234

S3prl-Disorder: Open-Source Voice Disorder Detection System based in the Framework of S3PRL-toolkit (odnośnik otworzy się w nowym oknie)

Autorzy: Dayana Ribas, Miguel Angel Pastor Yoldi, Antonio Miguel, David Martínez, Alfonso Ortega, Eduardo Lleida
Opublikowane w: IberSPEECH 2022, 2024, Strona(/y) 136-140
Wydawca: ISCA
DOI: 10.21437/iberspeech.2022-28

Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing (odnośnik otworzy się w nowym oknie)

Autorzy: Sofoklis Kakouros; Themos Stafylakis; Ladislav Mošner; Lukáš Burget
Opublikowane w: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Numer 19, 2023, Strona(/y) pp. 1-5, ISBN 978-1-7281-6327-7
Wydawca: IEEE
DOI: 10.1109/icassp49357.2023.10094673

Multi-Channel Speech Separation with Cross-Attention and Beamforming (odnośnik otworzy się w nowym oknie)

Autorzy: "Ladislav Mosner, Oldřich Plchot, Junyi Peng, Lukáš Burget, Jan ""Honza"" Černocký"
Opublikowane w: Proc. INTERSPEECH 2023, 2023, Strona(/y) 693-1697, ISSN 1990-9772
Wydawca: International Speech Communication Association
DOI: 10.21437/interspeech.2023-2537

Predefined Prototypes for Intra-Class Separation and Disentanglement (odnośnik otworzy się w nowym oknie)

Autorzy: Antonio Almudévar, Théo Mariotte, Alfonso Ortega, Marie Tahon, Luis Vicente, Antonio Miguel, Eduardo Lleida
Opublikowane w: Interspeech 2024, 2024, Strona(/y) 3809-3813
Wydawca: ISCA
DOI: 10.21437/interspeech.2024-825

Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information? (odnośnik otworzy się w nowym oknie)

Autorzy: Lin Zhang, Themos Stafylakis, Federico Landini, Mireia Diez, Anna Silnova, Lukáš Burget
Opublikowane w: The Speaker and Language Recognition Workshop (Odyssey 2024), 2024, Strona(/y) 123-130
Wydawca: ISCA
DOI: 10.21437/odyssey.2024-18

Speaker Embeddings by Modeling Channel-Wise Correlations (odnośnik otworzy się w nowym oknie)

Autorzy: Themos Stafylakis, Johan Rohdin, Lukáš Burget
Opublikowane w: Interspeech 2021, 2021, Strona(/y) 501-505
Wydawca: ISCA
DOI: 10.21437/interspeech.2021-1442

A Study on the Use of wav2vec Representations for Multiclass Audio Segmentation (odnośnik otworzy się w nowym oknie)

Autorzy: Pablo Gimeno; Alfonso Ortega; Antonio Miguel; Eduardo Lleida
Opublikowane w: Proc. IberSPEECH2022, Numer 8, 2022, Strona(/y) 56-60
Wydawca: ISCA
DOI: 10.21437/iberspeech.2022-12

End-to-End Speech Translation of Arabic to English Broadcast News (odnośnik otworzy się w nowym oknie)

Autorzy: Fethi Bougares; Salim Jouili
Opublikowane w: WANLP@ACL 2022: Abu Dhabi, United Arab Emirates, Numer 5, 2022, Strona(/y) 312–319, ISBN 978-1-959429-27-2
Wydawca: Association for Computational Linguistics
DOI: 10.18653/v1/2022.wanlp-1.29

A Phonetic Analysis of Speaker Verification Systems through Phoneme selection and Integrated Gradients (odnośnik otworzy się w nowym oknie)

Autorzy: Thomas Thebaud, Gabriel Hernández, Sarah Flora Samson Juan, Marie Tahon
Opublikowane w: The Speaker and Language Recognition Workshop (Odyssey 2024), 2024, Strona(/y) 59-66
Wydawca: ISCA
DOI: 10.21437/odyssey.2024-9

Improving Prosodic Features Extraction for Tone Detection in Yemba Language (odnośnik otworzy się w nowym oknie)

Autorzy: Sturm, Kenfack Jeuguim Marc; Paulin, Melatagia Yonta
Opublikowane w: CCIS, Numer 17, 2024, ISBN 978-0-7961-6069-0
Wydawca: Southern African Conference for Artificial Intelligence Research
DOI: 10.5281/zenodo.10174710

A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding (odnośnik otworzy się w nowym oknie)

Autorzy: Gaëlle Laperrière, Sahar Ghannay, Bassam Jabaian, Yannick Estève
Opublikowane w: Interspeech 2024, 2024, Strona(/y) 812-816
Wydawca: ISCA
DOI: 10.21437/interspeech.2024-1133

Leveraging Self-Supervised Learning for Speaker Diarization (odnośnik otworzy się w nowym oknie)

Autorzy: Jiangyu Han, Federico Landini, Johan Rohdin, Anna Silnova, Mireia Diez, Lukáš Burget
Opublikowane w: ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2025, Strona(/y) 1-5
Wydawca: IEEE
DOI: 10.1109/icassp49660.2025.10889475

Improving Speaker Verification with Self-Pretrained Transformer Models (odnośnik otworzy się w nowym oknie)

Autorzy: "Junyi Peng, Oldřich Plchot, Themos Stafylakis, Ladislav Mosner, Lukáš Burget, Jan ""Honza"" Černocký"
Opublikowane w: Proc. INTERSPEECH 2023, 2023, Strona(/y) 5361-5365, ISSN 1990-9772
Wydawca: International Speech Communication Association
DOI: 10.21437/interspeech.2023-453

Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries. (odnośnik otworzy się w nowym oknie)

Autorzy: STAFYLAKIS Themos, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna, BURGET Lukáš and ČERNOCKÝ Jan.
Opublikowane w: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, Numer "ISSN = ""1990-9772""", 2022, Strona(/y) 605-609
Wydawca: International Speech Communication Association (ISCA)
DOI: 10.21437/interspeech.2022-10165

BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge (odnośnik otworzy się w nowym oknie)

Autorzy: Alexander Polok, Dominik Klement, Jiangyu Han, Šimon Sedláček, Bolaji Yusuf, Matthew Maciejewski, Matthew S Wiesner, Lukáš Burget
Opublikowane w: 8th International Workshop on Speech Processing in Everyday Environments (CHiME 2024), 2024, Strona(/y) 18-22
Wydawca: ISCA
DOI: 10.21437/chime.2024-4

Unsupervised multiple domain translation through controlled Disentanglement in variational autoencoder (odnośnik otworzy się w nowym oknie)

Autorzy: Antonio Almudévar, Théo Mariotte, Alfonso Ortega, Marie Tahon
Opublikowane w: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024, Strona(/y) 7010-7014
Wydawca: IEEE
DOI: 10.1109/icassp48485.2024.10446649

Improving Speaker Diarization for Low-Resourced Sarawak Malay Language Conversational Speech Corpus (odnośnik otworzy się w nowym oknie)

Autorzy: Mohd Zulhafiz Rahim; Sarah Samson Juan; Fitri Suraya Mohamad
Opublikowane w: 2023 International Conference on Asian Language Processing (IALP), 2023, Strona(/y) 228-233
Wydawca: IEEE
DOI: 10.1109/ialp61005.2023.10337314

Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization (odnośnik otworzy się w nowym oknie)

Autorzy: Federico Landini; Mireia Diez; Alicia Lozano-Diez; Lukáš Burget
Opublikowane w: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Numer 6, 2023, Strona(/y) 1-5, ISBN 978-1-7281-6327-7
Wydawca: IEEE
DOI: 10.1109/icassp49357.2023.10097049

Description and Analysis of ABC Submission to NIST LRE 2022 (odnośnik otworzy się w nowym oknie)

Autorzy: Pavel Matejka, Anna Silnova, Josef Slavíček, Ladislav Mosner, Oldřich Plchot, Michal Klčo, Junyi Peng, Themos Stafylakis, Lukáš Burget
Opublikowane w: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2023, Strona(/y) 511-515, ISSN 1990-9772
Wydawca: International Speech Communication Association
DOI: 10.21437/interspeech.2023-1529

An Attention-Based Backend Allowing Efficient Fine-Tuning of Transformer Models for Speaker Verification (odnośnik otworzy się w nowym oknie)

Autorzy: Junyi Peng; Oldrich Plchot; Themos Stafylakis; Ladislav Mosner; Lukas Burget; Jan Cernocky
Opublikowane w: 2022 IEEE Spoken Language Technology Workshop (SLT), Numer 5, 2023, Strona(/y) 555-562, ISBN 979-8-3503-9690-4
Wydawca: IEEE
DOI: 10.1109/slt54892.2023.10022775

Improved Vocal Effort Transfer Vector Estimation For Vocal Effort-Robust Speaker Verification (odnośnik otworzy się w nowym oknie)

Autorzy: Iván López-Espejo, Santi Prieto, Alfonso Ortega, Eduardo Lleida
Opublikowane w: 2023 IEEE 33rd International Workshop on Machine Learning for Signal Processing (MLSP), 2023, Strona(/y) 1-6
Wydawca: IEEE
DOI: 10.1109/mlsp55844.2023.10285923

Active Correction for Incremental Speaker Diarization of a Collection with Human in the Loop (odnośnik otworzy się w nowym oknie)

Autorzy: Larcher, Yevhenii Prokopalo; Meysam Shamsi; Loïc Barrault; Sylvain Meignier; Anthony
Opublikowane w: Applied Sciences; Volume 12; Numer 4;, Numer 20, 2022, Strona(/y) Pages: 1782, ISSN 2076-3417
Wydawca: MDPI
DOI: 10.3390/app12041782

Diacorrect: Error Correction Back-End for Speaker Diarization (odnośnik otworzy się w nowym oknie)

Autorzy: Jiangyu Han, Federico Landini, Johan Rohdin, Mireia Diez, Lukáš Burget, Yuhang Cao, Heng Lu, Jan Černocký
Opublikowane w: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024, Strona(/y) 11181-11185
Wydawca: IEEE
DOI: 10.1109/icassp48485.2024.10446968

Unsupervised Representation Learning for Speech Activity Detection in the Fearless Steps Challenge 2021 (odnośnik otworzy się w nowym oknie)

Autorzy: Pablo Gimeno, Alfonso Ortega, Antonio Miguel, Eduardo Lleida
Opublikowane w: Interspeech 2021, 2021, Strona(/y) 4359-4363
Wydawca: ISCA
DOI: 10.21437/interspeech.2021-309

An Explainable Proxy Model for Multilabel Audio Segmentation (odnośnik otworzy się w nowym oknie)

Autorzy: Mariotte, Théo; Almudévar, Antonio; Tahon, Marie; Ortega, Alfonso
Opublikowane w: International Conference on Acoustics Speech and Signal Processing, IEEE, Apr 2024, Seoul (Korea), Numer 5, 2024
Wydawca: IEEE Signal Processing Society
DOI: 10.1109/icassp48485.2024.10446648

Lifelong Learning MOS Prediction for Synthetic Speech Quality Evaluation (odnośnik otworzy się w nowym oknie)

Autorzy: Félix Saget, Meysam Shamsi, Marie Tahon
Opublikowane w: Interspeech 2024, 2024, Strona(/y) 1220-1224
Wydawca: ISCA
DOI: 10.21437/interspeech.2024-959

Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch (odnośnik otworzy się w nowym oknie)

Autorzy: SILNOVA Anna, STAFYLAKIS Themos, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., MATĚJKA Pavel, BURGET Lukáš, GLEMBEK Ondřej a BRUMMER Johan Nikolaas Langenhoven.
Opublikowane w: Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022), 2022, Strona(/y) 9-16
Wydawca: International Speech Communication Association (ISCA)
DOI: 10.21437/odyssey.2022-2

EnCodecMAE: leveraging neural codecs for universal audio representation learning (odnośnik otworzy się w nowym oknie)

Autorzy: Leonardo Pepino, Pablo Riera, Luciana Ferrer
Opublikowane w: Interspeech 2025, 2025, Strona(/y) 3519-3523
Wydawca: ISCA
DOI: 10.21437/interspeech.2025-506

Toroidal Probabilistic Spherical Discriminant Analysis (odnośnik otworzy się w nowym oknie)

Autorzy: Anna Silnova; Niko Brümmer; Albert Swart; Lukáš Burget
Opublikowane w: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Numer 2, 2023, Strona(/y) 1-5, ISBN 978-1-7281-6327-7
Wydawca: IEEE
DOI: 10.1109/icassp49357.2023.10095580

The ViVoLab System for the Odyssey Emotion Recognition Challenge 2024 Evaluation (odnośnik otworzy się w nowym oknie)

Autorzy: Miguel Ángel Pastor, Alfonso Ortega, Antonio Miguel, Dayana Ribas
Opublikowane w: The Speaker and Language Recognition Workshop (Odyssey 2024), 2024, Strona(/y) 274-280
Wydawca: ISCA
DOI: 10.21437/odyssey.2024-39

Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction (odnośnik otworzy się w nowym oknie)

Autorzy: Sergio Burdisso, Srikanth Madikeri, Petr Motlicek
Opublikowane w: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024, Strona(/y) 5421-5440
Wydawca: Association for Computational Linguistics
DOI: 10.18653/v1/2024.emnlp-main.310

Automatic Voice Identification after Speech Resynthesis using PPG (odnośnik otworzy się w nowym oknie)

Autorzy: Thibault Gaudier, Marie Tahon, Anthony Larcher, Yannick Estève
Opublikowane w: The Speaker and Language Recognition Workshop (Odyssey 2024), 2024, Strona(/y) 187-193
Wydawca: ISCA
DOI: 10.21437/odyssey.2024-27

Cross-Lingual Transfer Learning for Low-Resource Speech Translation (odnośnik otworzy się w nowym oknie)

Autorzy: Sameer Khurana, Nauman Dawalatabad, Antoine Laurent, Luis Vicente, Pablo Gimeno, Victoria Mingote, James Glass
Opublikowane w: 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), 2024, Strona(/y) 670-674
Wydawca: IEEE
DOI: 10.1109/icasspw62465.2024.10626683

3MAS: a multitask, multilabel, multidataset semi-supervised audio segmentation model (odnośnik otworzy się w nowym oknie)

Autorzy: Martin Lebourdais, Pablo Gimeno, Théo Mariotte, Marie Tahon, Alfonso Ortega, Anthony Larcher
Opublikowane w: The Speaker and Language Recognition Workshop (Odyssey 2024), 2024, Strona(/y) 232-239
Wydawca: ISCA
DOI: 10.21437/odyssey.2024-33

The CONILIUM proposition for Odyssey Emotion Challenge : Leveraging major class with complex annotations (odnośnik otworzy się w nowym oknie)

Autorzy: Meysam Shamsi, Lara Gauder, Marie Tahon
Opublikowane w: The Speaker and Language Recognition Workshop (Odyssey 2024), 2024, Strona(/y) 281-287
Wydawca: ISCA
DOI: 10.21437/odyssey.2024-40

Challenging margin-based speaker embedding extractors by using the variational information bottleneck (odnośnik otworzy się w nowym oknie)

Autorzy: Themos Stafylakis, Anna Silnova, Johan Rohdin, Oldřich Plchot, Lukáš Burget
Opublikowane w: Interspeech 2024, 2024, Strona(/y) 3220-3224
Wydawca: ISCA
DOI: 10.21437/interspeech.2024-2058

Sur la vérification du locuteur à partir de traces d’exécution de modèles acoustiques personnalisés (odnośnik otworzy się w nowym oknie)

Autorzy: Tomashenko, Natalia; Mdhaffar, Salima; Tommasi, Marc; Estève, Yannick; Bonastre, Jean-François
Opublikowane w: Journées d'Études sur la Parole - JEP2022, Jun 2022, Île de Noirmoutier, France, Numer 13, 2022
Wydawca: ISCA
DOI: 10.21437/jep.2022-91

ON-TRAC Consortium Systems for the IWSLT 2023 Dialectal and Low-resource Speech Translation Tasks (odnośnik otworzy się w nowym oknie)

Autorzy: Antoine Laurent, Souhir Gahbiche, Ha Nguyen, Haroun Elleuch, Fethi Bougares, Antoine Thiol, Hugo Riguidel, Salima Mdhaffar, Gaëlle Laperrière, Lucas Maison, Sameer Khurana, Yannick Estève
Opublikowane w: Proceedings of the 20th International Conference on Spoken Language Translation (IWSLT 2023), 2023, Strona(/y) 219–226, ISBN 2-9517408-4-0
Wydawca: Association for Computational Linguistics
DOI: 10.18653/v1/2023.iwslt-1.18

Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models (odnośnik otworzy się w nowym oknie)

Autorzy: Santosh Kesiraju; Marek Sarvaš; Tomáš Pavlíček; Cécile Macaire; Alejandro Ciuba
Opublikowane w: Proc. INTERSPEECH 2023, Numer 14, 2023, Strona(/y) 2148--2152, ISSN 1990-9772
Wydawca: ISCA
DOI: 10.21437/interspeech.2023-2506

Discriminative Training of VBx Diarization (odnośnik otworzy się w nowym oknie)

Autorzy: Klement, Dominik; Diez, Mireia; Landini, Federico; Burget, Lukáš; Silnova, Anna; Delcroix, Marc; Tawara, Naohiro
Opublikowane w: Crossref, Numer 5, 2024
Wydawca: IEEE
DOI: 10.1109/icassp48485.2024.10446119

BUT CHiME-7 system description (odnośnik otworzy się w nowym oknie)

Autorzy: Karafiát, Martin; Veselý, Karel; Szöke, Igor; Mošner, Ladislav; Beneš, Karel; Witkowski, Marcin; Barchi, Germán; Pepino, Leonardo
Opublikowane w: CHiME-7 proceedings, Numer 8, 2023
Wydawca: arxiv
DOI: 10.48550/arxiv.2310.11921

Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect (odnośnik otworzy się w nowym oknie)

Autorzy: Salima Mdhaffar, Haroun Elleuch, Fethi Bougares, Yannick Estève
Opublikowane w: Proceedings of The Second Arabic Natural Language Processing Conference, 2024, Strona(/y) 130-139
Wydawca: Association for Computational Linguistics
DOI: 10.18653/v1/2024.arabicnlp-1.12

Development of ABC systems for the 2021 edition of NIST Speaker Recognition Evaluation (odnośnik otworzy się w nowym oknie)

Autorzy: ALAM Jahangir, BURGET Lukáš, GLEMBEK Ondřej, MATĚJKA Pavel, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna and STAFYLAKIS Themos et al.
Opublikowane w: Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022), 2022, Strona(/y) 346-353
Wydawca: International Speech Communication Association (ISCA)
DOI: 10.21437/odyssey.2022-48

ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings (odnośnik otworzy się w nowym oknie)

Autorzy: Théo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas
Opublikowane w: Interspeech 2024, 2024, Strona(/y) 1620-1624
Wydawca: ISCA
DOI: 10.21437/interspeech.2024-917

Parameter-Efficient Transfer Learning of Pre-Trained Transformer Models for Speaker Verification Using Adapters (odnośnik otworzy się w nowym oknie)

Autorzy: Junyi Peng; Themos Stafylakis; Rongzhi Gu; Oldřich Plchot; Ladislav Mošner; Lukáš Burget; Jan Černocký
Opublikowane w: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Numer 6, 2023, Strona(/y) 1-5, ISBN 978-1-7281-6327-7
Wydawca: IEEE
DOI: 10.1109/icassp49357.2023.10094795

Automatic Speech Interruption Detection: Analysis, Corpus, and System

Autorzy: Lebourdais, Martin; Tahon, Marie; Laurent, Antoine; Meignier, Sylvain
Opublikowane w: Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-Coling 2024), Numer 21, 2024
Wydawca: ELRA and ICCL

Generalizing AUC Optimization to Multiclass Classification for Audio Segmentation With Limited Training Data (odnośnik otworzy się w nowym oknie)

Autorzy: Pablo Gimeno; Victoria Mingote; Alfonso Ortega; Antonio Miguel; Eduardo Lleida
Opublikowane w: IEEE Signal Processing Letters, Numer 4, 2021, Strona(/y) 1135 - 1139, ISSN 1070-9908
Wydawca: Institute of Electrical and Electronics Engineers
DOI: 10.1109/lsp.2021.3084501

YembaTones: a syllable-tone annotated dataset for speech recognition and prosodic analysis of the Yemba language. (odnośnik otworzy się w nowym oknie)

Autorzy: Kenfack Jeuguim Marc Sturm; Paulin Melatagia Yonta; Sandembouo Etienne
Opublikowane w: Data in Brief, Numer 11, 2023, ISSN 2352-3409
Wydawca: Elsevier BV
DOI: 10.1016/j.dib.2023.109860

Towards Lifelong Human Assisted Speaker Diarization (odnośnik otworzy się w nowym oknie)

Autorzy: Meysam Shamsi; Anthony Larcher; Loic Barrault; Sylvain Meignier; Yevheni Prokopalo; Marie Tahon; Ambuj Mehrish; Simon Petitrenaud; Olivier Galibert; Samuel Gaist; André Anjos; Sebastien Marcel; Marta R. Costa-jussà
Opublikowane w: Computer Speech & Language, Numer 4, 2023, ISSN 0885-2308
Wydawca: Academic Press
DOI: 10.1016/j.csl.2022.101437

aDCF Loss Function for Deep Metric Learning in End-to-End Text-Dependent Speaker Verification Systems (odnośnik otworzy się w nowym oknie)

Autorzy: Victoria Mingote; Antonio Miguel; Dayana Ribas; Alfonso Ortega; Eduardo Lleida
Opublikowane w: IEEE/ACM Transactions on Audio, Speech, and Language Processing, Numer 25 January 2022, 2022, Strona(/y) 772-784, ISSN 2329-9290
Wydawca: IEEE Advancing Technology for Humanity
DOI: 10.1109/taslp.2022.3145307

Direct Text to Speech Translation System Using Acoustic Units (odnośnik otworzy się w nowym oknie)

Autorzy: Victoria Mingote, Pablo Gimeno, Luis Vicente, Sameer Khurana, Antoine Laurent and Jarod Duret
Opublikowane w: IEEE Signal Processing Letters, Numer vol. 30, 2023, Strona(/y) 1262-1266, ISSN 1070-9908
Wydawca: Institute of Electrical and Electronics Engineers
DOI: 10.1109/lsp.2023.3313513

An Overview of the IberSpeech-RTVE 2022 Challenges on Speech Technologies (odnośnik otworzy się w nowym oknie)

Autorzy: Eduardo Lleida; Luis Javier Rodriguez-Fuentes; Javier Tejedor; Alfonso Ortega; Antonio Miguel; Virginia Bazán; Carmen Pérez; Alberto de Prada; Mikel Penagarikano; Amparo Varona; Germán Bordel; Doroteo Torre-Toledano; Aitor Álvarez; Haritz Arzelus
Opublikowane w: Applied Sciences; Volume 13; Numer 15;, Numer 5, 2023, Strona(/y) Pages: 8577, ISSN 2076-3417
Wydawca: MDPI
DOI: 10.3390/app13158577

Application of the multilingual acoustic representation model XLSR for the transcription of Ewondo (odnośnik otworzy się w nowym oknie)

Autorzy: Nzeuhang Yannick Yomie, Yonta Paulin Melatagia, Lecouteux Benjamin
Opublikowane w: Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, Numer Volume 42 - Special issue CRI..., 2024, ISSN 1638-5713
Wydawca: Centre pour la Communication Scientifique Directe (CCSD)
DOI: 10.46298/arima.13621

Class token and knowledge distillation for multi-head self-attention speaker verification systems (odnośnik otworzy się w nowym oknie)

Autorzy: Victoria Mingote; Antonio Miguel; Alfonso Ortega; Eduardo Lleida
Opublikowane w: Digital Signal Processing, Numer 6, 2023, ISSN 1051-2004
Wydawca: Academic Press
DOI: 10.1016/j.dsp.2022.103859

Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration

Autorzy: Ferrer, Luciana; Ramos, Daniel
Opublikowane w: back arrowBack to Homepage Transactions on Machine Learning Research, Numer 14, 2025, ISSN 2835-8856
Wydawca: TMLR

Multimodal Diarization Systems by Training Enrollment Models as Identity Representations (odnośnik otworzy się w nowym oknie)

Autorzy: Victoria Mingote; Ignacio Viñals; Pablo Gimeno; Antonio Miguel; Alfonso Ortega; Eduardo Lleida
Opublikowane w: Applied Sciences, Numer 12-3, 2022, Strona(/y) 1141, ISSN 2076-3417
Wydawca: MDPI
DOI: 10.3390/app12031141

Channel-Combination Algorithms for Robust Distant Voice Activity and Overlapped Speech Detection (odnośnik otworzy się w nowym oknie)

Autorzy: Théo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas
Opublikowane w: IEEE/ACM Transactions on Audio, Speech, and Language Processing, Numer 32, 2024, Strona(/y) 1859-1872, ISSN 2329-9290
Wydawca: IEEE Advancing Technology for Humanity
DOI: 10.1109/taslp.2024.3369531

pathfinder: A Semantic Framework for Literature Review and Knowledge Discovery in Astronomy (odnośnik otworzy się w nowym oknie)

Autorzy: Kartheik G. Iyer, Mikaeel Yunus, Charles O’Neill, Christine Ye, Alina Hyk, Kiera McCormick, Ioana Ciucă, John F. Wu, Alberto Accomazzi, Simone Astarita, Rishabh Chakrabarty, Jesse Cranney, Anjalie
Opublikowane w: The Astrophysical Journal Supplement Series, Numer 275, 2024, Strona(/y) 38, ISSN 0067-0049
Wydawca: University of Chicago Press
DOI: 10.3847/1538-4365/ad7c43

Wiener Filter and Deep Neural Networks: A Well-Balanced Pair for Speech Enhancement (odnośnik otworzy się w nowym oknie)

Autorzy: Dayana Ribas; Antonio Miguel; Alfonso Ortega; Eduardo Lleida
Opublikowane w: Applied Sciences, Numer 3 ; Volume 12; Numer 18;, 2022, Strona(/y) Pages: 9000, ISSN 2076-3417
Wydawca: MDPI
DOI: 10.3390/app12189000

Automatic Voice Disorder Detection Using Self-Supervised Representations (odnośnik otworzy się w nowym oknie)

Autorzy: Dayana Ribas; Miguel A. Pastor; Antonio Miguel; David Martinez; Alfonso Ortega; Eduardo Lleida
Opublikowane w: IEEE Access, Numer 6, 2023, Strona(/y) 14915-14927,, ISSN 2169-3536
Wydawca: Institute of Electrical and Electronics Engineers Inc.
DOI: 10.1109/access.2023.3243986

Cross-Corpus Training Strategy for Speech Emotion Recognition Using Self-Supervised Representations (odnośnik otworzy się w nowym oknie)

Autorzy: Miguel A. Pastor; Dayana Ribas; Alfonso Ortega; Antonio Miguel; Eduardo Lleida
Opublikowane w: Applied Sciences, Numer 13, 2023, Strona(/y) 9062, ISSN 2076-3417
Wydawca: MDPI
DOI: 10.3390/app13169062

Unsupervised Adaptation of Deep Speech Activity Detection Models to Unseen Domains (odnośnik otworzy się w nowym oknie)

Autorzy: Pablo Gimeno; Dayana Ribas; Alfonso Ortega; Antonio Miguel; Eduardo Lleida
Opublikowane w: Applied Sciences, Numer 3, 2022, ISSN 2076-3417
Wydawca: MDPI
DOI: 10.3390/app12041832

DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors (odnośnik otworzy się w nowym oknie)

Autorzy: Federico Landini, Mireia Diez, Themos Stafylakis, Lukáš Burget
Opublikowane w: IEEE/ACM Transactions on Audio, Speech, and Language Processing, Numer 32, 2024, Strona(/y) 3450-3465, ISSN 2329-9290
Wydawca: IEEE Advancing Technology for Humanity
DOI: 10.1109/taslp.2024.3422818

The Domain Mismatch Problem in the Broadcast Speaker Attribution Task (odnośnik otworzy się w nowym oknie)

Autorzy: Ignacio Viñals, Alfonso Ortega, Antonio Miguel, Eduardo Lleida
Opublikowane w: Applied Sciences, Numer 11/18, 2021, Strona(/y) 8521, ISSN 2076-3417
Wydawca: MDPI
DOI: 10.3390/app11188521

Automatic Voice Disorder Detection from a Practical Perspective (odnośnik otworzy się w nowym oknie)

Autorzy: Jazmin Vidal, Dayana Ribas, Cyntia Bonomi, Eduardo Lleida, Luciana Ferrer, Alfonso Ortega
Opublikowane w: Journal of Voice, 2024, ISSN 0892-1997
Wydawca: Mosby Inc.
DOI: 10.1016/j.jvoice.2024.03.001

Wyszukiwanie danych OpenAIRE...

Podczas wyszukiwania danych OpenAIRE wystąpił błąd

Brak wyników

Moja broszura 0 0