Progetto UE per eliminare le barriere linguistiche
Oltre la metà dei cittadini europei è in grado di sostenere una conversazione esclusivamente nella propria lingua, eppure sono molte le persone che lavorano in un ambiente multilinguistico. Nella maggior parte dei casi, per riuscire a comprendere documenti in altre lingue, ci si affida a servizi di traduzione professionale oppure on line, i cui risultati, però, sono spesso imprecisi. Il progetto SMART (Statistical Multilingual Analysis for Retrieval and Translation - Analisi statistica multilinguistica a fini di ricerca e traduzione), lanciato di recente e finanziato dall'Unione europea, mira a ridurre tali barriere linguistiche applicando tecniche di traduzione automatica statistica. La traduzione automatica statistica (Statistical machine translation - SMT) è un paradigma di traduzione automatica che elabora le traduzioni sulla base di modelli teoretici statistici e informatici. Una parola o una frase viene tradotta in una delle diverse opzioni possibili in base alla probabilità di occorrenza in un determinato contesto. Queste tecniche sono particolarmente promettenti ai fini della traduzione poiché raggiungono prestazioni equivalenti o superiori a quelle dei sistemi di traduzione basati su regole, che richiedono l'inserimento manuale di un vasto numero di «regole» da parte di linguisti esperti, con uno sforzo di sviluppo minimo. Tali metodi, tuttavia, presentano alcuni difetti ben precisi. Ad esempio, benché a livello lessicale le traduzioni tendano a essere più accurate con i sistemi di traduzione automatica statistica che con le loro controparti basate su regole, il testo che producono risulta tendenzialmente meno scorrevole. I sistemi di traduzione automatica statistica, inoltre, funzionano in modalità batch e non si adattano al feedback degli utenti. «In passato, diverse tecniche di apprendimento automatico sono state applicate alla traduzione automatica», afferma il dottor Craig Saunders, partner del progetto della School of Electronics & Computer Science (ECS) dell'Università di Southampton. «Obiettivo del progetto è ampliare i metodi più tradizionali basati su modelli log-lineari, nonché applicare le ultime tecniche di apprendimento automatico per la previsione strutturata da cui sono scaturiti molti nuovi metodi efficaci che dimostrano un grande potenziale in quest'area». Nei prossimi tre anni, il consorzio SMART, guidato dal Centro di ricerca europeo di Xerox, in Francia, applicherà tecniche perfezionate di apprendimento automatico statistico a tre scenari utente utilizzando l'inglese, il francese, lo spagnolo e lo sloveno. Nel primo scenario, l'attenzione sarà rivolta al miglioramento dei sistemi utilizzati dai traduttori professionisti. Attualmente questi sistemi memorizzano moltissime frasi standard, ma, se una parola viene tradotta nel modo sbagliato, il sistema non è in grado di autocorreggersi, ha spiegato Saunders. «Valuteremo il modo di rendere adattivi questi sistemi», ha dichiarato. Il secondo scenario esamina la situazione degli analisti di supporto al cliente che lavorano nei call centre. «Può verificarsi che un tecnico di una determinata madrelingua consulti un manuale in una lingua diversa dalla sua e parli con un cliente in un'altra lingua ancora», ha rilevato Saunders. Nel caso in cui l'analista sia una persona di madrelingua inglese dotata solo di un'infarinatura di tedesco, si potrebbe progettare un'interfaccia basata sull'apprendimento automatico grazie alla quale il soggetto, formulando una ricerca in inglese, potrebbe trovare un documento in tedesco. Perfezionando ulteriormente tale sistema si potrebbero addirittura evidenziare le parole chiave o i punti salienti di un testo nei risultati della ricerca. Infine, con il terzo scenario utente si vuole permettere all'utente di accedere a sezioni dell'enciclopedia multilingue Wikipedia in lingue di cui gli utenti hanno una padronanza limitata. Questi scenari verranno applicati ad ambienti aziendali concreti, coinvolgendo gruppi di utenti di piccole e medie imprese (PMI) orientate all'innovazione e Xerox. «È la prima volta che si utilizzano tecniche di apprendimento automatico in questo modo», ha affermato Craig Saunders. «Xerox opera avvalendosi di diverse lingue e l'accesso trasversale alle informazioni linguistiche potrebbe rivelarsi molto utile in tale contesto; la possibilità di impostare una ricerca in una lingua e di trovare le informazioni richieste in un'altra è utile in un'ampia serie di applicazioni. «Stiamo davvero cercando di mettere a punto tecniche che aiutino i cittadini europei in generale, ma, se vogliamo cercare di valutare i miglioramenti in maniera quantitativa, è più semplice farlo in un contesto industriale», ha dichiarato Saunders al Notiziario CORDIS. «Se al termine del progetto le tecniche si riveleranno efficaci, metteremo indubbiamente in rete alcuni programmi dimostrativi che possano essere utilizzati dal grande pubblico».