Description du projet
Interaction humain-objet pour des systèmes plus intelligents
La perception de l’interaction humain-objet (IHO) est essentielle aux systèmes intelligents qui aident les personnes à accomplir des tâches. La perception précise de ces interactions à partir d’images en couleurs du corps entier présente toutefois des difficultés liées à des occlusions, au flou de mouvement, à des ambiguïtés de profondeur et à la faible résolution des détails. Les efforts se sont toujours concentrés sur l’estimation du corps humain ou des objets séparément, en ignorant souvent des aspects cruciaux tels que les détails des mains ou du corps. Dans ce contexte, le projet STRIPES, financé par le CER, entend développer des modèles 3D pour les objets et les humains, permettant d’estimer l’IHO à partir d’images et de vidéos en couleurs naturelles. Durant les cinq prochaines années, STRIPES va améliorer la reconstruction de l’IHO, ce qui renforcera la capacité des robots d’assistance et des assistants virtuels à aider les personnes dans leurs tâches quotidiennes.
Objectif
People constantly interact with objects to perform tasks. To help people accomplish these, computers need to perceive Human-Object Interactions (HOI), and for this, they need to reconstruct HOI from whole-body color images of people interacting with objects or scenes. This is challenging, due to the occlusions between bodies and objects, motion blur, depth ambiguities, and the low image resolution of hands and graspable object parts. There has been significant prior work on estimating 3D humans without considering objects, and estimating 3D objects without considering humans. Little prior work estimates these jointly, but, for tractability, focuses either on interacting hands, ignoring the body, or on interacting bodies, ignoring hands. Only recent work addresses dexterous interaction of whole bodies, but instruments bodies with intrusive markers or sensors, and uses non-standard cameras to capture video of interactions. Moreover, reconstruction lacks hand detail that is crucial for grasping, and videos are captured in constrained settings, consequently, methods trained on these struggle generalizing. My goal is to infer HOI from natural whole-body images/videos. To this end, I present an ambitious 5-year research agenda with novelties in four directions: (1) developing strong generative 3D shape models for objects and humans for a novel HOI representation; (2) developing methods that estimate 3D HOI from a color image with rich contact and proximal awareness; (3) instilling spatiotemporal reasoning into the heart of these for estimating 4D HOI from color video; and (4) extending these methods to also infer their own confidence that will be correlated with the reconstruction quality. The outcome will be novel and robust methods for HOI reconstruction from natural images/videos. This will fill an important gap, enabling future intelligent systems to amplify people’s skills and help them accomplish tasks, e.g. for assistive robots or virtual 3D assistants or trainers.
Champ scientifique (EuroSciVoc)
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. La classification de ce projet a été validée par l’équipe qui en a la charge.
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. La classification de ce projet a été validée par l’équipe qui en a la charge.
Mots‑clés
Programme(s)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Thème(s)
Appel à propositions
(s’ouvre dans une nouvelle fenêtre) ERC-2024-STG
Voir d’autres projets de cet appelRégime de financement
HORIZON-ERC - HORIZON ERC GrantsInstitution d’accueil
1012WX Amsterdam
Pays-Bas