Migliorare la diffusione delle tecnologie del linguaggio
Le tecnologie del linguaggio svolgono un ruolo fondamentale nell’abbattere gli ostacoli linguistici, promuovendo il multiculturalismo e permettendo a tutte le persone di partecipare al decennio digitale europeo. Queste tecnologie si basano su ingenti quantità di dati e, grazie a un migliore accesso e impiego delle risorse linguistiche, sono inoltre in grado di offrire soluzioni multilingue a sostegno del mercato unico digitale emergente in Europa. Tuttavia, le figure specializzate in tecnologie del linguaggio impiegano circa l’80 % del proprio tempo a pulire, organizzare e raccogliere serie di dati poiché questi ultimi non sono «pronti all’uso». Il processo scandito dalle operazioni di estrazione, trasformazione e caricamento, che implica il collegamento delle serie di dati a modelli esistenti, potrebbe riuscire a ridurre tale sforzo. Malgrado ciò, la tecnologia rimane poco sfruttata, ed è qui che entra in scena il progetto Pret-a-LLOD, finanziato dall’UE. «Puntavamo a combinare le tecnologie dei dati collegati con tecniche di elaborazione del linguaggio naturale (NLP, Natural Language Processing) allo scopo di aumentare la disponibilità di tecnologie del linguaggio per le persone e le imprese in Europa», spiega John McCrae, coordinatore del progetto. L’utilizzo di tecnologie basate sui dati collegati permette una condivisione e gestione più semplice dei dati sul web, migliorandone così la disponibilità e l’accessibilità. «In questo modo, il progetto segue gli obiettivi dell’iniziativa FAIR volta a ottimizzare l’utilità dei dati», osserva McCrae.
Mettere a punto una catena del valore dei dati e i principali componenti open source
Il progetto ha sviluppato una catena del valore dei dati che contempla tutti gli aspetti del ciclo di vita delle serie di dati e, in particolare, la scoperta, la trasformazione, la gestione (soprattutto delle licenze), il collegamento e l’applicazione di flussi di lavoro NLP. Inoltre, ha realizzato cinque componenti principali open source che sostengono la catena del valore dei dati prevista dal progetto. «In primo luogo, il portale LingHub2 consente l’individuazione di risorse linguistiche adottando i principi e i metodi di interrogazione dei dati collegati, aggregando i dati provenienti da un ampio spettro di fonti. In secondo luogo, abbiamo creato Fintan, un motore inedito e versatile per la trasformazione dei dati provenienti da una ricca varietà di formati in dati collegati», sottolinea McCrae. Inoltre, sono stati sviluppati alcuni strumenti per la gestione dei dati orientati alla politica che permettono la previsione della possibile combinazione di licenze open source basata sull’Open Digital Rights Language, ossia il linguaggio dei diritti digitali aperto. Oltre a ciò, sono stati costruiti diversi strumenti per collegare le serie di dati a vari livelli, tra cui la lessicalizzazione delle risorse esistenti, il collegamento a livello concettuale e il collegamento lessicale, consentendo di collegare e integrare le serie di dati più facilmente. «Abbiamo inoltre sviluppato Teanga, uno strumento per la gestione dei flussi di lavoro che permette l’impiego di componenti e serie di dati differenti in flussi di lavoro definiti con tecnologie quali Docker e OpenAPI», aggiunge McCrae.
Spianare la strada a canali flessibili di elaborazione del linguaggio naturale
Questi strumenti sono stati convalidati da dimostrazioni condotte con i partner commerciali del progetto, tra cui figurano un nuovo sistema di chatbot sviluppato da Derilinx, estensioni del rinomato strumento PoolParty dell’azienda Semantic Web Company per la gestione della terminologia, nuove metodologie per l’elaborazione del linguaggio naturale interlinguistica presso Semalytix e miglioramenti ai processi utilizzati per la realizzazione dei dizionari dell’Oxford University Press, incluso l’Oxford English Dictionary. «Ci auguriamo che questo progetto garantirà la disponibilità di un numero maggiore di dati, permettendo ai canali NLP di essere più flessibili e applicati rapidamente», conclude McCrae. Un obiettivo particolare del progetto riguarda l’applicazione di tecniche di elaborazione del linguaggio naturale alle lingue minoritarie in Europa dato che le risorse non sono sufficientemente disponibili; tuttavia, gli strumenti di gestione dei dati e di elaborazione del linguaggio naturale sviluppate durante il progetto possono migliorare questa situazione.
Parole chiave
Pret-a-LLOD, NLP, tecnologie del linguaggio, catena del valore dei dati, tecnologie dei dati collegati, componenti open source, elaborazione del linguaggio naturale, mercato unico digitale