Skip to main content

Visual perception in deep neural networks

Article Category

Article available in the folowing languages:

Grâce à la modélisation humaine, la vision artificielle pourrait bientôt devenir une réalité

Si l’on veut qu’un jour les machines puissent réellement voir, il faut commencer par modéliser le fonctionnement d’un cerveau. C’est ce sur quoi travaille une équipe soutenue par l’UE.

Économie numérique

La vision humaine est le résultat de processus neurologiques très complexes, obtenus grâce à un ensemble de modules cérébraux spécialisés mais relativement simples qui agissent de concert. Quelque chose de similaire peut être reproduit dans les ordinateurs, leur conférant ainsi une sorte de vision. Cette application n’est pas nouvelle et a été testée dans diverses industries, qu’il s’agisse de systèmes de sécurité ou de vaisseaux spatiaux et de voitures autonomes. Toutefois, ces systèmes sont limités et peuvent ne pas fonctionner dans des situations non connues au préalable. Par exemple, si une voiture autonome ne dispose pas de données visuelles sur les déserts, elle peut avoir du mal à appliquer sa connaissance des paysages urbains à ce nouvel environnement. Dans ce cas, les réactions du véhicule peuvent devenir confuses et il risque de commettre des erreurs. Une vision informatique véritablement fiable et autonome n’est pas encore à l’ordre du jour. Outre ses applications évidentes pour les machines, l’étude de la vision par ordinateur permet également de mieux comprendre le fonctionnement de ce sens chez les êtres humains. Le projet DEEPCEPTION, financé par l’UE et entrepris avec le soutien du programme Marie Skłodowska-Curie, a travaillé sur les deux aspects du problème. Les chercheurs du projet ont développé des modèles de vision artificielle qui imitent et illustrent les processus du cerveau humain.

Réseaux neuronaux profonds

Inspirés des systèmes biologiques, les réseaux neuronaux sont constitués de processeurs informatiques qui fonctionnent de manière analogue aux neurones (cellules du cerveau). Ils utilisent des algorithmes pour reconnaître des modèles, sans être spécifiquement programmés pour le faire. Le concept de «réseau neuronal profond», sur lequel repose le projet, est similaire mais implique de nombreuses couches de traitement et un entrainement spécifique pour effectuer une tâche donnée. La mission de DEEPCEPTION consistait à apprendre aux ordinateurs à reconnaître des objets à partir de photographies. Les chercheurs ont comparé les réponses d’un réseau neuronal profond à celles de cerveaux de primates réels (singe et humain) visualisant les mêmes images. «Si le modèle informatique représente avec précision le processus biologique réel, alors la réponse du réseau neuronal et celle du cerveau devraient correspondre», explique le chef de projet Jonas Kubilius. L’équipe de recherche a établi une série de points de référence qui permettent d’évaluer et de quantifier la correspondance entre ces deux processus. Le test d’évaluation neuronal et comportemental intégratif établi par l’équipe, appelé Brain-Score, est le plus complet au monde à ce jour. En utilisant les connaissances acquises grâce à cette comparaison, les chercheurs ont ensuite construit un modèle informatique, appelé CORnet, qui a obtenu un score élevé lors de ce test.

Le modèle le plus précis

Actuellement, peu de modèles de la vision humaine sont capables de prédire avec précision la réponse neuronale ou comportementale. Le modèle DEEPCEPTION s’est révélé plus performant que d’autres systèmes de vision informatique plus complexes et reste celui qui se rapproche le plus de la compréhension actuelle du fonctionnement de la reconnaissance d’objets dans le système visuel des primates. «J’étais très fier lorsque notre modèle a pu prédire les réponses neuronales sur un ensemble de données complètement nouveau», ajoute Jonas Kubilius. «De tels tests sur de nouvelles données fournissent un moyen rigoureux de démontrer les limites d’un modèle.» Si un modèle ne peut rien prévoir au-delà des données sur la base desquelles il a été établi, cela signifie que ce modèle ne permet pas réellement de mieux comprendre un phénomène. Par contre, si un modèle permet de disposer de prédictions fiables sur un ensemble de données totalement nouveau, c’est un signe positif qui indique que le modèle est précis. Le projet a permis de disposer d’un modèle amélioré de la vision des primates. Bien que DEEPCEPTION n’ait eu aucun objectif commercial, les outils développés aideront ses propres chercheurs et d’autres à mettre au point des modèles encore plus précis.

Mots‑clés

DEEPCEPTION, vision, réseau neuronal, machine, réseau neuronal profond, primate, vision artificielle, modélisation, cerveau humain, Brain-Score, CORnet

Découvrir d’autres articles du même domaine d’application