Skip to main content

Robust End-To-End SPEAKER recognition based on deep learning and attention models

Article Category

Article available in the folowing languages:

Migliorare le capacità dei computer per riconoscere chi parla

Spesso, il riconoscimento vocale automatico si imbatte in problemi quando parlano più persone. Applicando i megadati, alcuni ricercatori hanno dimostrato in che modo è possibile insegnare alle macchine a individuare le singole persone che parlano.

Economia digitale

La tecnologia del riconoscimento vocale automatico permette ai computer di riconoscere e tradurre la lingua parlata in testi scritti. Data la crescente interazione degli esseri umani con le macchine tramite la voce, ad esempio, utilizzando applicazioni mobili, chiavi di ricerca e assistenti di ricerca quale Google Home, la domanda per questo tipo di tecnologia è destinata ad aumentare. La capacità di distinguere i singoli parlanti e di indicare chi sta parlando in un determinato momento durante una registrazione (nota come diarizzazione dei parlanti) è un compito specifico del riconoscimento vocale automatico). Tra le potenziali applicazioni figurano il permesso di accesso a persone autorizzate o la personalizzazione dei dispositivi per offrire funzionalità specifiche a seconda del parlante. Tuttavia, per far sì che tale tecnologia si dimostri sistematicamente efficace, occorre affrontare appieno determinate difficoltà. Il forte rumore di fondo o la sovrapposizione di due o più parlanti spesso peggiora le prestazioni delle macchine. L’assenza di hardware disponibili per addestrare i sistemi automatici ad apprendere da grandi quantità di dati ha a sua volta ostacolato i progressi in questo ambito.

Riconoscimento preciso del parlante

Il progetto ETE SPEAKER, intrapreso grazie al sostegno del programma di azioni Marie Skłodowska-Curie e coordinato dal Politecnico di Brno in Cechia, si prefiggeva di esaminare nuovi approcci potenziali al riconoscimento del parlante. «Le condizioni presenti comunemente nelle applicazioni vocali reali rappresentano ancora una sfida per i sistemi automatici», spiega la borsista del programma di azioni Marie Skłodowska-Curie Alicia Lozano-Diez, attualmente docente assistente presso l’Università autonoma di Madrid, in Spagna. Lozano-Diez e il suo gruppo hanno lavorato alla realizzazione di solidi sistemi di riconoscimento del parlante, in grado di eseguire il proprio compito in diversi scenari. A tal fine, si sono avvalsi di algoritmi basati sull’apprendimento profondo, capaci di distinguere i parlanti affidandosi direttamente ai dati. All’inizio, il progetto si è soffermato sulla revisione approfondita degli approcci esistenti per capire dove potessero risultare più efficaci i nuovi metodi. Successivamente, si è dedicato al collaudo dei nuovi approcci. «Un fattore chiave che permette di compiere progressi consiste nelle valutazioni della tecnologia organizzate da vari esperti e diverse istituzioni», afferma Lozano-Diez. «Durante queste valutazioni, esperti provenienti da tutto il mondo elaborano sistemi per l’assoluzione di un compito specifico». Il gruppo del progetto ETE SPEAKER ha approfittato di tali opportunità per sviluppare e sperimentare i diversi approcci che avevano sviluppato. Hanno quindi confrontato questi approcci con altri gruppi per individuare le restanti difficoltà da affrontare.

Approcci di apprendimento profondo

La partecipazione a queste valutazioni ha permesso a Lozano-Diez di dimostrare come poter migliorare il riconoscimento del parlante e come superare alcuni dei limiti degli approcci tradizionali. Il gruppo è riuscito a sfruttare il potenziale degli approcci di apprendimento profondo, in parte grazie ai dati attualmente disponibili. «Uno dei sistemi che abbiamo sviluppato per una difficoltà particolare ha ottenuto i migliori risultati tra tutti i partecipanti», aggiunge Lozano-Diez. «Questa valutazione era incentrata sulle registrazioni di breve durata. Ciò può rappresentare un’ulteriore difficoltà per i sistemi di riconoscimento automatico del parlante, poiché ciascuna registrazione contiene appena una manciata di secondi di discorso.» Il progetto ha inoltre elaborato nuovi metodi di gestione della sovrapposizione dei parlanti per il compito di diarizzazione. Lozano-Diez intende proseguire con la sua ricerca in questo campo, al fine di approdare a una tecnologia di riconoscimento del parlante e di diarizzazione ancora più precisa. «I nuovi approcci sono ora in grado di gestire l’arduo problema della sovrapposizione dei discorsi apprendendo direttamente dai dati», spiega. Tuttavia, vi è una scarsità di questo tipo di dati, etichettati accuratamente e raccolti da vari scenari differenti, e Lozano-Diez ritiene che sia necessaria una maggiore attività di ricerca per far funzionare correttamente questa tecnologia in condizioni difficili. Un buon esempio di queste ultime potrebbero essere le conversazioni che intercorrono nei ristoranti quando il rumore di fondo è elevato, o anche i commenti durante una conferenza registrata da microfoni lontani.

Parole chiave

ETE SPEAKER, discorso, traduzione, lingua, dati, diarizzazione, parlante, algoritmi

Scopri altri articoli nello stesso settore di applicazione