Servizio Comunitario di Informazione in materia di Ricerca e Sviluppo - CORDIS

FP6

Articolo in primo piano

Finanziato nell'ambito di: FP6-IST

Storie di successo dei progetti - Vedere il futuro

Un progetto innovativo per sviluppare un motore di ricerca audio-visivo potrebbe avere diverse implicazioni, dal migliorare la vita dei documentaristi, al prevenire la criminalità internazionale. Inoltre potrebbe trasformare l'utilizzo delle piattaforme audio-visive come ad esempio YouTube.
Storie di successo dei progetti - Vedere il futuro
L'idea che sta dietro allo sviluppo di un motore di ricerca audio-visivo è, in realtà, piuttosto semplice: affrontare una debolezza fondamentale dei computer attuali, i quali, se da un lato sono efficientissimi per la ricerca di parole in un testo, non lo sono altrettanto per il reperimento di immagini e video.

Per capirne il perché, si pensi a quanta interpretazione è direttamente codificata nella scrittura: mentre parliamo al telefono, creiamo un segnale fisico. Ma quando queste informazioni sono messe per iscritto, questo segnale fisico è stato codificato in una serie di simboli digitali - le lettere - posti l'uno dopo l'altro. I computer sono molto efficaci nel trattare questi simboli perché non necessitano realmente di interpretarli, ma solo di trovare le combinazioni tra loro.

Questo non è però valido per un video. Si immaginino, per esempio, 10 diversi frammenti video di gatti. Una descrizione testuale del loro contenuto sarebbe molto facile da ricercare perché si userebbe la parola "gatto" per descrivere ognuno di essi. In ogni frammento, però, il gruppo di pixel che rappresenta il gatto si differenzia molto in termini di forma, misura e colore. È molto difficile per un computer riconoscere che questi gruppi di pixel molto differenti rappresentano lo stesso tipo di oggeto, un gatto.

Per affrontare questo problema, il progetto finanziato dall'Unione europea Vidivideo ("Interactive semantic video search with a large thesaurus of machine-learned audio-visual concepts") ha sviluppato una ricerca semantica interattiva di video con un ampio thesaurus di concetti audio-visivi appresi automaticamente.

Vidivideo è un progetto di ricerca e in quanto tale non ha l'obiettivo o le risorse per risolvere questo problema nella sua interezza. Piuttosto, cercherebbe di fornire i mattoni per abilitare i computer a identificare - con velocità, coerenza e accuratezza - cosa sia un oggetto in un formato video"Abbiamo lavorato sull'analisi video a lungo," dice Marcel Worring, professore associato all'Università di Amsterdam e coordinatore del progetto Vidivideo. "Ma abbiamo constatato l'assenza di alcuni elementi. Ci sono tre livelli nell'analisi dei video: la divisione del video in scatti, il tentativo di descrivere cosa sia nel video e, infine, l'apprendimento automatico. Abbiamo pensato che la segmentazione in scatti potesse essere realizzata meglio e abbiamo voluto lavorare con i massimi esperti nel mondo dell'apprendimento automatico. Abbiamo voluto aggiungere anche un altro elemento mancante: il parlato e l'audio".

Questo è stato lo stimolo dietro al progetto Vidivideo. Ci sono di certo molti video in circolazione. Ogni minuto, per esempio, più di 24 ore di video sono caricati su YouTube. Con il fine di gestire e di avere un'idea di quello cui tutto questo contenuto sia relativo, c'è bisogno di sviluppare dei sistemi che operino molto velocemente.

"Una sfida considerevole sono la velocità e l'ordine di grandezza", ha detto il prof. Worring. "Gli strumenti che abbiamo ora a disposizione sono molto più accurati, ma occorre ancora del tempo computazionale. Dobbiamo preparare i nostri sistemi, per esempio video per cui utenti esperti hanno etichettato il contenuto, e questo è un compito che richiede tempo." Parte della soluzione è lasciare che i sistemi eseguano i loro compiti in parallelo con molti computer. Ma il gruppo di Vidivideo ha anche constatato che usare un sistema con un'architettura modulare potresse essere altrettato molto importante. Si inizia con poca intelligenza e se ne aggiunge di più via via che diventa disponibile.

Ma come funziona Vidivideo, che ha ricevuto finanziamenti attraverso il sesto programma quadro dell'Unione europea per la ricerca sulle TIC?

Si immagini di avere un gruppo di persone che guardano un video di una procedura complessa, come l'assemblaggio di una stampante giapponese. Le prime due persone riconoscono che la scena contiene una stampante. Subentra la terza persona e riconosce dov'è la cartuccia, mentre le quarta persona (che sa leggere il giapponese) riconosce la marca della cartuccia, e così via. Ad ogni passo c'è qualcosa in più da dire sulla stampante, qualcosa che rende l'immagine più precisa.

Vidivideo funziona esattamente allo stesso modo. Sono stati sviluppati fino a 1000 moduli specialistici che esaminano il video nello stesso momento. Quando uno di loro riconosce quello che è stato preparato a riconoscere, lo contrassegna. Di per sé questi moduli non sono in genere intelligenti, ma, lavorando insieme, forniscono un'immagine via via più completa.

Altro vantaggio di Vidivideo è che la sua architettura è altamente flessibile, permettendo agli scienziati e ai ricercatori di aggiungere moduli a piacere all'intelligenza complessiva del sistema. All'inizio del progetto, nel 2007, ce n'erano circa un centinaio; al suo completamento, all'inizio del 2010, erano oltre mille. Vidivideo contiene anche dei moduli audio che sono stati preparati a riconoscere un gran numero di suoni diversi, dagli uccelli ai colpi di pistola, alla piogga, ai tuoni.

Il motore di ricerca è stato convalidato con utenti finali nei campi delle telecomunicazioni, della sorveglianza e dei beni culturali. Il motore di ricerca ha dimostrato la sua qualità nei tre maggiori sistemi internazionali di valutazione del campo, cioè Trecvid, "Pascal VOC" e Imageclef. In tutti e tre i sistemi di valutazione il motore di ricerca di Vidivideo ha ottenuto la massima votazione quanto ad annotazione automatica immagine/video, mentre in Trecvid ha anche ottenuto il massimo nella ricerca interattiva.

Alcuni dei partner coinvolti nel progetto hanno continuato a lavorare sul progetto "internet più sicuro" I-Dash per aiutare nella lotta contro la pedopornografia. Questo è grave criminalità organizzata: migliaia di video sono spesso prodotti dalla stessa fonte. La tecnologia Vidivideo aiuta a stabilire connessioni tra i video. Per esempio, lo stesso dettaglio visivo - una pianta o la parte di un mobile - potrebbe apparire in più di un video. Questo strumento permette perciò alle forze di polizia di raggruppare video che pensano siano stati filmati nella stessa stanza, aiutando eventualmente a identificare i luoghi dei criminali.

La sorveglianza è un altro settore di grande potenzialità. Finora è stato enfatizzato il riconoscimento di oggetti fisici nei video, ma Vidivideo può essere usato anche per riconoscere forme di comportamento. Per esempio, qualcuno arriva in un posto con una valigia e ne esce senza. Questo cambiamente può essere captato. Queste possibilità potrebbero essere interessanti come applicazioni per la polizia per contrastare il terrorismo.

Qualora si consideri che nel Regno Unito ci sono più di 4 milioni di telecamere a circuiro chiuso, risulterà chiaro che sarebbe utile quella tecnologia che offre almeno un primo livello di interpretazione. In molti centri cittadini c'è pericolo di violenze, soprattutto in notte tarda. Vidivideo potrebbe essere preparato ad identificare alcuni prodromi di violenza, come voci dal tono alto o movimenti aggressivi, prima che sorga il problema.

Un'altra - forse più banale ma comunque significativa - opportunità offerta da questa tecnologia è un'efficace archiviazione audio-visiva. Documentaristi alla ricerca di esempi specifici di video sarebbero capaci di concentrarsi con più rapidità esattamente su cosa stanno cercando, e lo stesso sarebbe per piattaforme pubbliche come YouTube.

Cosa avverrebbe se una ricerca del termine "gatto" fosse basata non su come il video è stato etichettato ma sullo stesso contenuto audio-visivo? Esperimenti con siti di social networking hanno già dimostrato che questa tecnologia ha un enorme potenziale. Vidivideo promette un futuro che non solo fa del nostro mondo audio-visivo un capitale, ma anche un futuro in cui le barriere e i limiti del linguaggio saranno rimossi in modo significativo.

Informazioni correlate