Skip to main content

Integrated and Detailed Image Understanding

Article Category

Article available in the folowing languages:

Enseigner à l’IA à s’enseigner à elle-même

De nouveaux algorithmes entendent donner à l’intelligence artificielle non seulement la capacité d’identifier des objets, mais aussi d’interpréter ce qu’elle voit.

Économie numérique

Bien que l’être humain se serve de sa vision dans quasiment toutes ses activités, elle est souvent considérée comme une évidence. Parvenir à donner un sens à une image représente pourtant un processus incroyablement complexe. Certains chercheurs estiment même que la vision fait appel approximativement à la moitié du cerveau. «Ce processus complexe nous permet non seulement de voir une voiture, mais aussi de remarquer qu’elle est bleue, ou de voir non seulement une personne, mais d’identifier également qu’il s’agit d’un homme portant un T-shirt rouge», explique Andrea Vedaldi, professeur de vision par ordinateur et d’apprentissage automatique à l’université d’Oxford. Selon Andrea Vedaldi, cette compréhension détaillée des éléments que nous voyons revêt une importance cruciale pour la prise de décision. «Si nous voyons un feu rouge et un autre véhicule qui ne ralentit pas, nous l’interprétons immédiatement comme une situation potentiellement dangereuse et agissons en conséquence», ajoute-t-il. Et c’est précisément à ce niveau que se situe le principal problème de l’intelligence artificielle (IA). Si l’IA s’en sort plutôt bien quand il s’agit d’identifier des objets, il lui manque la capacité d’interpréter ce qu’elle voit, ce qui peut s’avérer assez problématique dans des applications comme les véhicules autonomes ou les drones sans pilote. «Alors que les bébés apprennent à comprendre les images par eux-mêmes, avec peu ou pas d’apports extérieurs, l’IA doit acquérir cette compétence par le biais d’une supervision manuelle poussée et détaillée», explique Andrea Vedaldi. C’est précisément ce qu’Andrea Vedaldi et son équipe de chercheurs s’efforcent de mettre en œuvre avec le soutien du projet IDIU, financé par l’UE. «Notre objectif consistait à développer une nouvelle génération d’algorithmes de compréhension d’images offrant une puissance et une flexibilité plus proches de la vision humaine», fait-il remarquer.

Pas besoin de supervision

Le projet IDIU, qui a reçu le soutien du Conseil européen de la recherche (CER), s’attaque à l’un des principaux goulets d’étranglement du domaine moderne de la vision par ordinateur: le besoin de supervision. Bien que les algorithmes puissent apprendre à résoudre des tâches complexes d’analyse d’images, il leur faut d’abord, pour y parvenir, des milliers — voire des millions — d’exemples étiquetés, essentiellement des images annotées manuellement avec leur interprétation. Il va sans dire que le coût de cette démarche est significatif. Pour rationaliser ce processus, les chercheurs ont mis au point plusieurs nouvelles technologies, notamment des algorithmes capables de «procéder à leurs propres recherches». Ils peuvent le faire en consultant automatiquement des ressources sur Internet, comme Google et Wikipédia, ainsi qu’en s’appuyant sur une nouvelle approche mathématique leur permettant d’apprendre la géométrie des objets dans les images et les vidéos sans avoir besoin d’une source de supervision externe. «Nous avons démontré, pour la première fois, qu’il était possible d’apprendre la structure spatiale des objets rien qu’en consultant des images, sans aucune supervision externe», déclare Andrea Vedaldi. «En d’autres termes, un algorithme peut apprendre de manière indépendante qu’une personne possède deux bras, deux jambes et adopte une certaine posture.»

Une flexibilité comparable à celle des êtres humains

Si l’IA est encore loin d’égaler l’intelligence humaine, les développements du projet IDIU lui confèrent un niveau de flexibilité similaire à celui dont disposent les êtres humains. «En ouvrant la voie à un nouveau sous-domaine de l’IA, que nous appelons l’apprentissage interne, ce projet est appelé à avoir un impact majeur sur la recherche et l’industrie», ajoute-t-il. Cet impact se fait déjà sentir, puisque les résultats du projet sont actuellement utilisés dans le cadre d’une subvention de consolidation du CER. «En nous appuyant sur les résultats d’IDIU, nous fabriquons actuellement des machines capables d’apprendre à voir de manière totalement automatique grâce à l’ingestion passive d’images et de vidéos enregistrées au hasard», conclut Andrea Vedaldi. «Nous pensons que cette technologie rendra la vision par ordinateur beaucoup plus facilement applicable, et donc flexible et utile pour de nombreuses applications critiques du monde de demain.»

Mots‑clés

IDIU, intelligence artificielle, IA, algorithmes, vision par ordinateur, apprentissage automatique

Découvrir d’autres articles du même domaine d’application