European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS

Domain Adaptation for Statistical Machine Translation

Article Category

Article available in the following languages:

Superare i confini della traduzione automatica

La nostra realtà interconnessa e globalizzata richiede strumenti di traduzione automatica sempre più intelligenti. Grazie all’apprendimento profondo, un gruppo di ricerca fornisce soluzioni per la traduzione automatica statistica.

Economia digitale icon Economia digitale

La traduzione istantanea fra le lingue europee è fondamentale per una governance efficace nell’Unione e per le attività accademiche e commerciali. A tal fine, vengono ampiamente utilizzati approcci basati sui dati e su tecniche di apprendimento automatico. La conoscenza di base deriva da un corpus parallelo di testi e delle loro traduzioni. Ciò significa che si raggiunge un elevato livello di qualità della traduzione in domini con grandi corpora paralleli, come le organizzazioni internazionali e dell’Unione. Numerosi altri domini, invece, quali la letteratura medica o legale, non dispongono di grandi corpora paralleli e soffrono perciò di una qualità di traduzione irregolare e tendenzialmente bassa. Utilizzando un duplice approccio, il progetto DASMT, finanziato dall’UE, ha migliorato l’acquisizione di conoscenze per la traduzione automatica. Il progetto si è concentrato su come trarre vantaggio da grandi corpora paralleli di altri domini nei sistemi di traduzione per domini specifici e su come ponderare adeguatamente ed estrarre le conoscenze disponibili da testi che appartengono a un dato dominio ma non sono paralleli.

L’apprendimento profondo: una sfida e un’opportunità

Il gruppo responsabile di DASMT si è inizialmente avvicinato all’apprendimento profondo, che richiede unità di elaborazione grafica, acquistando PC da gioco con processori grafici di consumo. Il coordinatore del progetto Alexander Fraser commenta: «Sembravano davvero macchine da gioco con, ad esempio, un sistema di raffreddamento esterno ad acqua... ma abbiamo subito stabilito che dovevamo cambiare il nostro intero programma di ricerca per lavorare con modelli di apprendimento profondo per la traduzione, il che ha comportato un grande sforzo nel secondo e terzo anno del progetto e ha richiesto un considerevole acquisto di server. Alla fine, però, tutto ciò ha fatto una grande differenza nell’impatto che abbiamo avuto». Le soluzioni di DASMT hanno un impatto diretto sui fornitori di servizi di traduzione e un impatto accademico, poiché l’adattamento del dominio si applica a tutti i sistemi di elaborazione del linguaggio naturale e a molti ambiti di ricerca sull’intelligenza artificiale.

Risultati olistici per il regno della traduzione automatica

DASMT ha migliorato la traduzione in lingue morfologicamente ricche che utilizzano classificatori. Di conseguenza, l’interesse si è spostato sulla traduzione automatica neurale, una nuova tecnologia che supera alcuni limiti della traduzione automatica statistica basata su frasi, il precedente stato dell’arte. In questo caso, è stato fatto un lavoro importante sia sulla generalizzazione dell’inflessione che sul miglioramento della rappresentazione linguistica, oltre che su algoritmi di addestramento veloci. Sorprendentemente, i ricercatori si sono trovati a lavorare sull’addestramento di sistemi di traduzione automatica senza l’uso di dati paralleli. Inoltre, hanno studiato la traduzione di documenti utilizzando l’intero contesto e ottenendo così una modellizzazione migliore. Il progetto si è concentrato anche su alcune lingue poco sfruttate e con poche risorse digitali, quali l’ilongo, un’importante lingua parlata nelle Filippine. Attraverso casi di studio speciali con l’alto sorabo (una lingua slava minoritaria della Germania) e il ciuvascio (una lingua minoritaria della Russia), il gruppo ha arricchito la ricerca su un pre-addestramento efficace per la traduzione automatica neurale non supervisionata. Infine, DASMT è riuscito a ideare un sistema di rilevamento dei discorsi d’odio ad alte prestazioni. Il gruppo responsabile di DASMT ha reso disponibili i propri sistemi migliorati e si impegna a comunicare i risultati alle comunità che si occupano di traduzione automatica e di elaborazione del linguaggio naturale multilingue. «In futuro cercheremo di ottenere ulteriori finanziamenti per la ricerca da agenzie europee e nazionali, e creeremo anche uno spin-off con finalità sia commerciali che no profit, visto il notevole interesse di entrambi i settori per i nostri modelli multilingue migliorati», conclude Fraser.

Parole chiave

DASMT, traduzione automatica statistica, traduzione automatica, traduzione, corpora paralleli, apprendimento profondo, lingua, multilingue,

Scopri altri articoli nello stesso settore di applicazione