Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

FP6

Top Story

Financé au titre de: FP6-IST

Success stories de projets - visualiser le futur

Un projet innovant visant à concevoir un moteur de recherche audiovisuel pourrait avoir des retombées très variées, telles que faciliter le travail des réalisateurs de documentaires ou lutter contre le crime international. Il pourrait également transformer l'utilité de plateformes audiovisuelles telles que YouTube.
Success stories de projets - visualiser le futur
De prime abord, le concept d'un moteur de recherche audiovisuel est plutôt simple. Il vise à combler une déficience fondamentale des ordinateurs, qui savent très bien rechercher des mots dans un texte mais sont bien moins doués pour reconnaître des objets dans des images ou des vidéos.

L'explication tient à l'interprétation qui est directement intégrée dans l'écriture. Lors d'une conversation téléphonique, nous générons un signal physique. Mais lorsque la même information est écrite, ce signal physique a été traduit en une série de symboles numériques (les lettres) placés en séquence. Les ordinateurs manipulent très efficacement ces symboles car ils n'ont pas besoin de les comprendre; il leur suffit de reconnaître des modèles, des suites données de lettres.

Mais ce n'est pas le cas pour de la vidéo. Imaginons par exemple 10 extraits de vidéos sur les chats. Il serait très facile de conduire des recherches dans la description écrite de leur contenu, car toutes comporteraient le mot «chat» (en français). Mais l'ensemble de pixels qui représente un chat dans chaque extrait sera très différent par sa forme, sa taille et sa couleur. Il est très difficile pour un ordinateur de déterminer que des ensembles de pixels aussi différents concernent tous le même concept, dans ce cas précis un chat.

Le projet «Interactive semantic video search with a large thesaurus of machine-learned audio-visual concepts» (Vidivideo), financé par l'UE, s'est attaqué à ce problème en concevant un système interactif de recherche vidéo sémantique disposant d'un vaste dictionnaire de concepts audiovisuels réalisés par apprentissage automatique.

Vidivideo est un projet de recherche, et n'a donc pas pour but de résoudre le problème dans sa totalité, ni les ressources nécessaires. Il s'est plutôt attaché à fournir les éléments de base permettant aux ordinateurs d'identifier ce qu'est un objet dans un format vidéo, de manière rapide, exacte et homogène.

«Nous travaillons à l'analyse vidéo depuis longtemps», déclare Marcel Worring, l'un des coordinateurs du projet Vidivideo et professeur agrégé à l'université d'Amsterdam, aux Pays-Bas. «Nous avons constaté l'absence de plusieurs éléments. L'analyse d'une vidéo se décompose en trois niveaux: séparer la séquence en plans, essayer de décrire le contenu, et enfin procéder à l'apprentissage automatique. Nous avons estimé que la segmentation en plans pouvait être améliorée, et nous voulions travailler sur l'apprentissage automatique avec les meilleurs experts au monde. Nous souhaitions également combler un autre manque, la prise en compte de la parole et de l'audio.»

C'est ainsi que le projet Vidivideo a été lancé. Il est clair que de nos jours, la vidéo est présente partout et en très grande quantité. Par exemple, à chaque minute, plus de 24 heures de vidéo sont envoyées sur YouTube. Pour suivre ce rythme et extraire du sens de tout ce contenu, il faut concevoir des systèmes très rapides.

«La vitesse et l'évolutivité sont parmi les défis majeurs», déclare le professeur Worring. «Les outils dont nous disposons aujourd'hui sont bien plus exacts, mais ils demandent toujours du temps. Nous devons éduquer nos systèmes avec des échantillons de vidéos dont le contenu a été étiqueté par des experts, ce qui prend beaucoup de temps.» Pour contribuer à résoudre le problème, on peut permettre au système de conduire plusieurs tâches en parallèle en utilisant de nombreux ordinateurs. Mais l'équipe de Vidivideo a également compris toute l'importance de concevoir un système doté d'une architecture modulaire: il peut ainsi commencer avec un peu d'intelligence, et en ajouter lorsqu'elle devient disponible.

La question reste donc de savoir comment fonctionne le système Vidivideo, financé par l'UE au titre du sixième programme-cadre (6e PC) de recherche en TIC.

Imaginons un groupe de personnes regardant une vidéo décrivant une procédure complexe, comme le montage d'une imprimante de marque japonaise. Les deux premières personnes reconnaissent que la vidéo concerne une imprimante. Une troisième personne reconnaît la cartouche d'encre et son emplacement, une quatrième personne (qui lit le japonais) reconnaît la marque sur la cartouche, etc. Chacun apporte de nouvelles informations sur l'imprimante, rendant plus précise la description de la vidéo.

C'est comme cela que Vidivideo fonctionne. Le projet a conçu plus d'un millier de modules spécialisés qui étudient simultanément la vidéo. Lorsque l'un d'eux reconnaît quelque chose (qu'il a été éduqué à reconnaître), il l'indique. Pris séparément, les modules ne sont pas intelligents, mais en travaillant ensemble, ils parviennent à une interprétation de plus en plus détaillée de la vidéo.

Autre avantage de Vidivideo, la très grande souplesse de son architecture qui permet aux scientifiques et aux chercheurs d'ajouter à loisir des modules pour développer l'intelligence collective du système. À ses débuts en 2007, le projet ne disposait que d'une centaine de modules. Lorsqu'il s'est achevé au début de l'année 2010, il en comptait plus d'un millier. Vidivideo dispose également de modules audio éduqués pour reconnaître de nombreux sons différents, depuis des oiseaux et des coups de feu jusqu'à la pluie et le tonnerre.

Le moteur de recherche a été validé par des utilisateurs des secteurs de la télédiffusion, de la surveillance et du patrimoine culturel. Il a également démontré sa qualité dans le cadre des trois principaux tests du secteur: Trecvid, «Pascal VOC» et Imageclef. Vidivideo a été classé premier par les trois tests pour l'annotation d'image et de vidéo, et également premier par Trecvid pour la recherche interactive.

Certains des partenaires du projet ont également collaboré au projet I-Dash pour «un Internet plus sûr» afin de lutter contre la pornographie enfantine. Le crime organisé est à l'origine de ces vidéos, et souvent, la même source en produit des milliers. Le système Vidivideo facilite l'établissement de relations entre elles: en effet, un même détail visuel (plante, meuble, etc.) peut être présent dans plusieurs vidéos. L'outil a permis aux enquêteurs de regrouper des vidéos qu'ils supposent avoir été filmées dans la même pièce, ce qui peut les aider à découvrir où se trouvent les criminels.

La surveillance est un autre domaine dans lequel le système dispose d'un grand potentiel. Jusqu'ici, ce domaine a surtout mis l'accent sur la détection d'objets, mais Vidivideo peut aussi servir à reconnaître certains comportements. Par exemple, quelqu'un entre avec une mallette mais ressort sans elle. Ce comportement peut être repéré, et cette capacité pourrait être intéressante pour lutter contre le terrorisme.

Si l'on considère que le Royaume-Uni compte plus de 4 millions de caméras de vidéosurveillance, il est clair qu'un système assurant au moins un premier niveau d'interprétation serait d'une grande utilité. Beaucoup de centres-villes sont sous la menace de la violence, spécialement tard dans la nuit. Vidivideo pourrait être éduqué pour reconnaître certains précurseurs de la violence comme des voix fortes ou des mouvements agressifs, avant le passage à l'acte.

Un autre usage possible de ce système, peut-être plus anodin mais tout aussi intéressant, est celui de l'archivage audiovisuel. Un réalisateur de documentaire cherchant des vidéos particulières pourrait les trouver plus rapidement et exactement, et les mêmes avantages s'appliquent à des sites publics comme YouTube.

Vous cherchez des vidéos sur les «chats»? Imaginez le résultat si votre recherche s'appuyait sur le contenu lui-même de la vidéo, plutôt que sur son titre ou ses mots-clés! Les expériences réalisées au niveau des sites sociaux ont déjà montré le potentiel énorme d'un tel système. Vidivideo promet ainsi un futur qui s'appuie sur notre monde audiovisuel numérique, mais qui s'affranchit également davantage des barrières et des limitations du langage.

Informations connexes