Verso un computer in grado di descrivere ciò che vede: il progetto CogViSys
'Fino ad oggi la gente comunicava con suoni o segni, e la conversione veniva effettuata nel cervello umano. Adesso vogliano che avvenga in una macchina'. Ecco come Hans-Hellmut Nagel, coordinatore del progetto CogViSys, descrive il suo lavoro per sviluppare un 'commentatore virtuale' capace di tradurre l'informazione visiva in descrizione testuale. Il progetto - che riunisce team di ricerca di Belgio, Francia, Germania, Regno Unito e Svizzera - è stato avviato nel 2001 e viene finanziato nell'ambito della sezione TSI (Tecnologie della società dell'informazione) del Quinto programma quadro (5PQ) Abbiamo già compiuto importanti passi verso un computer in grado di simulare la capacità umana di riconoscere e categorizzare: disponiamo di videocamere digitali per schermate video, di processori digitali, di sistemi di archiviazione ad elevata capacità, e nelle fabbriche molti computer sono in grado di riconoscere gli oggetti e di controllarne la qualità. La ricerca nel settore della visione cognitiva - il trattamento dell'informazione visuale per agire e reagire in un contesto dinamico - si pone obiettivi sempre più ambiziosi che imitano da presso le attività umane e le sue specializzazioni. Le possibilità di un 'commentatore virtuale', un computer che descrive ciò che vede, sono infinite, come ben mostra la ricca gamma di applicazioni che il consorzio CogViSys ha preso in esame: riconoscere e 'tradurre' in parole il linguaggio dei segni americano, fornire una descrizione testuale delle condizioni del traffico usando le informazioni fornite dalle telecamere di sorveglianza, fornire descrizioni testuali delle sitcom dopo aver appreso le interazioni 'rituali' di un piccolo gruppo di esseri umani, imparare le rappresentazioni descrittive degli oggetti a partire dai video e agevolare così la ricerca automatizzata nelle grandi videoteche di particolari persone, oggetti o configurazioni spazio-temporali. 'In sintesi, si potrebbe pensare a una specie di 'Google delle immagini', ha detto Nagel parlando della possibilità di ricerca nelle videoteche. 'Il vantaggio di un approccio di questo genere consiste nel fatto che non si è obbligati a definire dettagliatamente ciò che si sta cercando (cosa che ridurrebbe la ridondanza delle risposte, ma aumenterebbe al tempo stesso le probabilità di mancare l'immagine cercata, che potrebbe essere non selezionata per differenze semanticamente irrilevanti)'. Nagel ha detto al Notiziario CORDIS che si sono ottenuti significativi progressi nel 'tradurre' il linguaggio dei segni americano, ed ha aggiunto che per aver successo una macchina dovrebbe riconoscere all'incirca il 95% dei movimenti gestuali di una persona, in modo da permettere agli utilizzatori di comunicare senza doversi reciprocamente interrompere troppo spesso. CogViSys sta facendo grossi passi verso questa meta, in parte grazie alla possibilità di accedere a computer estremamente potenti. Nagel ha detto che l'uso di questa tecnologia potrebbe spingere sempre di più la gente a dipendere dalle macchine per interpretare il proprio ambiente, ed ha aggiunto che sarebbe interessato a studiare più a fondo come ne verrebbero influenzate le percezioni. Un'altra possibile applicazione consiste in un sistema di osservazione e allarme per gli anziani e i malati: una videocamera in ciascun locale della casa registrerà i movimenti e un algoritmo imparerà a 'capire' le immagini, per familiarizzarsi con gli abitanti, i loro movimenti e l'ambiente. In caso di avvenimenti anormali, il sistema farà scattare un allarme. In condizioni normali, tuttavia, la privacy degli abitanti non verrà violata, perché le immagini verranno controllate da un computer e non da un essere umano. Perché le applicazioni possano trasformarsi da possibilità in realtà, bisognerà prima ottenere una serie di risultati concettuali, ad esempio nel campo della categorizzazione: la tecnologia dovrà essere in grado non solo di riconoscere specifiche trame, oggetti o movimenti, ma anche instanziazioni di classi. 'È difficile comunicare con gente che vuol sapere cosa stanno ricevendo in cambio del loro denaro', ha ammesso Nagel. Nagel è tuttavia convinto che si tratta di somme ben spese, perché il consorzio ha ben capito quali sono i problemi legati allo sviluppo di un commentatore virtuale, ed è quasi disposto a promettere che la tecnologia da lui descritta sarà presto disponibile sul mercato. 'Non ho detto che ci siamo già arrivati, e non voglio promettere più di quanto possiamo dare: so per esperienza personale i danni che affermazioni inopportune possono causare', ma considera 'non inconcepibile' che le applicazioni siano ben presto disponibili. Nell'appoggiare pubblicamente il futuro Spazio europeo della ricerca, Nagel ha concluso: 'Non posso dire quando sarà veramente disponibile. Non si conoscono mai le buone idee degli altri, ed ecco perché facciamo ricerca di base: non si può mai sapere quanto varrà in futuro la soluzione trovata'.