Skip to main content
European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

Article Category

Contenu archivé le 2023-01-20

Article available in the following languages:

Le projet CogViSys: vers un ordinateur qui décrit ce qu'il voit

"Jusqu'à présent, les gens ont communiqué par le langage et par les signes, mais la conversion s'est faite dans le cerveau humain. Aujourd'hui, nous voulons qu'une machine procède à cette conversion." Voilà comment Hans-Hellmut Nagel, coordinateur du projet CogViSys, présente ...

"Jusqu'à présent, les gens ont communiqué par le langage et par les signes, mais la conversion s'est faite dans le cerveau humain. Aujourd'hui, nous voulons qu'une machine procède à cette conversion." Voilà comment Hans-Hellmut Nagel, coordinateur du projet CogViSys, présente son travail visant à mettre au point un "commentateur virtuel" capable de traduire une information visuelle en description textuelle. Entamé en 2001, le projet réunit des équipes de recherche d'Allemagne, de France, de Belgique, de Grande-Bretagne et de Suisse. Il est financé au titre de la section Technologies pour la société de l'information (TSI) du cinquième programme-cadre (5e PCRD). Des avancées significatives ont déjà été réalisées en vue de doter l'ordinateur de la faculté humaine de reconnaître et de catégoriser. Nous disposons déjà de caméras numériques capables de réaliser des vidéos, de processeurs numériques et de supports de stockage de haute capacité. Bon nombre d'ordinateurs sont également en mesure de reconnaître des objets afin d'assurer un contrôle de la qualité dans un environnement manufacturier. La recherche dans le secteur de la vision cognitive (traiter des informations sensorielles visuelles en vue d'agir et de réagir dans un environnement dynamique) porte de plus en plus sur des missions plus ambitieuses qui se rapprochent davantage des activités et des compétences humaines. Le potentiel que recèle un "commentateur virtuel" (un ordinateur qui décrit ce qu'il voit) est illimité, comme le montre la gamme d'applications étudiées par le consortium CogViSys: reconnaître et traduire le langage des signes américain en mots; fournir une description textuelle de la circulation automobile à l'aide d'informations provenant de caméras de surveillance; fournir des descriptions textuelles de comédies de situation (sitcoms) en assimilant les relations "ritualisées" au sein d'un groupe restreint de personnes; et apprendre à représenter de manière descriptive des objets visualisés dans des vidéos, facilitant ainsi la recherche par une machine de grands ensembles de données vidéo dans lesquelles apparaissent des personnes ou des objectifs particuliers ou des configurations spatio-temporelles de ces derniers. "Concrètement, on pourrait imaginer une sorte de "Google axé sur des images"", a déclaré le professeur Nagel à propos de la fonction de recherche d'ensembles de données vidéo. "L'avantage de ce type d'approche, c'est de ne pas être contraint de détailler l'objet de sa recherche (ce qui permettrait de réduire le nombre de réponses redondantes, mais accroîtrait par contre le taux d'échec, dans la mesure où des différences sémantiquement inopportunes entre les images empêcheraient d'afficher ces dernières)." Des progrès considérables ont été réalisés concernant la traduction du langage des signes américain, a confié le professeur Nagel à CORDIS Nouvelles. Pour être efficace, une machine devrait reconnaître près de 95% des mouvements gestuels d'une personne, de sorte que les utilisateurs du système puissent communiquer sans devoir s'interrompre trop souvent, a expliqué le professeur Nagel. Le système CogViSys a bien progressé dans cette voie, notamment grâce à l'accès à des ordinateurs puissants. Le professeur Nagel a déclaré que cette technologie ferait en sorte que les gens perçoivent de plus en plus leur environnement à travers une machine et a ajouté qu'il serait disposé à étudier plus en profondeur dans quelle mesure cela agirait sur les perceptions humaines. Une autre application potentielle réside dans un système d'observation et d'alerte destiné aux personnes âgées ou handicapées. Une caméra installée dans chaque pièce d'une maison enregistrerait les mouvements effectués, tandis qu'un algorithme "comprendrait" les images (il aurait le temps de se familiariser avec les occupants du lieu, leurs mouvements et l'environnement). Si un événement extraordinaire devait se produire, l'alarme serait enclenchée. Dans des conditions normales, l'occupant bénéficierait néanmoins toujours du respect de sa vie privée dans la mesure où seul un ordinateur et non un homme contrôlerait les images fournies par la caméra. Pour que l'une de ces applications potentielles puisse fonctionner, il convient d'atteindre un certain nombre d'objectifs secondaires relatifs à la conception du système, notamment en matière de catégorisation - la technologie doit être capable de reconnaître non seulement des textures, des objets ou des mouvements particuliers, mais également les instanciations des catégories auxquelles ils appartiennent. "C'est difficile à communiquer à ceux qui souhaitent savoir ce qu'ils auront pour leur argent", a admis le professeur Nagel. Le professeur Nagel est toutefois persuadé qu'il s'agit d'argent bien investi. Le consortium a pris la mesure des problèmes inhérents à la mise au point d'un commentateur virtuel. M. Nagel est loin de promettre que la technologie qu'il a évoquée sera prochainement disponible sur le marché ("Je n'ai pas dit que nous y sommes arrivés. Je ne voudrais pas promettre plus que ce que nous sommes en mesure d'offrir. En effet, j'ai déjà connu les méfaits de formulations malheureuses"), mais il estime qu'il n'est pas "inconcevable" que ces applications soient disponibles bientôt. Soutenant avec vigueur le futur Conseil européen de la recherche, le professeur Nagel a ajouté: "Je ne peux pas vraiment dire quand cette technologie sera disponible. Il est impossible d'anticiper les bonnes idées d'autrui. C'est pourquoi nous faisons de la recherche fondamentale; vous ne savez jamais dans quelle mesure une solution peut s'avérer utile à l'avenir."