Description du projet
Entraîner les ordinateurs à voir
La vision par ordinateur est un domaine de l’intelligence artificielle (IA). L’objectif de la vision par ordinateur consiste à doter les machines d’une compréhension visuelle de leur environnement, le but ultime étant de permettre aux ordinateurs d’identifier les objets dans les images et les vidéos tout comme le font les humains. La plupart des progrès récents dans le domaine de la vision par ordinateur s’appuient sur des techniques d’apprentissage automatique qui assimilent des représentations visuelles à partir de vastes jeux de données annotés par les humains. Étiqueter des données pour l’apprentissage de modèles profonds s’avère toutefois coûteux et les simulateurs photoréalistes existants n’offrent ni la variété ni la fidélité requises. Le projet LEGO-3D, financé par l’UE, s’attaquera à ce problème en développant des modèles probabilistes capables de synthétiser des scènes 3D conjointement avec des projections 2D photoréalistes à partir de points de vue arbitraires et avec un contrôle total sur les éléments de la scène. Il mettra au point des algorithmes pour la décomposition automatique de scènes réelles et synthétiques en représentations 3D latentes capturant la géométrie, les matériaux, la lumière et les mouvements.
Objectif
Recently, the field of computer vision has witnessed a major transformation away from expert designed shallow models towards more generic deep representation learning. However, collecting labeled data for training deep models is costly and existing simulators with artist-designed scenes do not provide the required variety and fidelity. Project LEGO-3D will tackle this problem by developing probabilistic models capable of synthesizing 3D scenes jointly with photo-realistic 2D projections from arbitrary viewpoints and with full control over the scene elements. Our key insight is that data augmentation, while hard in 2D, becomes considerably easier in 3D as physical properties such as viewpoint invariances and occlusion relationships are captured by construction. Thus, our goal is to learn the entire 3D-to-2D simulation pipeline. In particular, we will focus on the following problems:
(A) We will devise algorithms for automatic decomposition of real and synthetic scenes into latent 3D primitive representations capturing geometry, material, light and motion.
(B) We will develop novel probabilistic generative models which are able to synthesize large-scale 3D environments based on the primitives extracted in project (A). In particular, we will develop unconditional, conditioned and spatio-temporal scene generation networks.
(C) We will combine differentiable and neural rendering techniques with deep learning based image synthesis, yielding high-fidelity 2D renderings of the 3D representations generated in project (B) while capturing ambiguities and uncertainties.
Project LEGO-3D will significantly impact a large number of application areas. Examples include vision systems which require access to large amounts of annotated data, safety-critical applications such as autonomous cars that rely on efficient ways for training and validation, as well as the entertainment industry which seeks to automate the creation and manipulation of 3D content.
Champ scientifique
- engineering and technologymechanical engineeringvehicle engineeringautomotive engineeringautonomous vehicles
- natural sciencescomputer and information sciencesartificial intelligencecomputer vision
- natural sciencescomputer and information sciencesartificial intelligencegenerative artificial intelligence
- natural sciencescomputer and information sciencesartificial intelligencemachine learningdeep learning
- natural sciencesmathematicspure mathematicsgeometry
Mots‑clés
Programme(s)
Thème(s)
Régime de financement
ERC-STG - Starting GrantInstitution d’accueil
72074 Tuebingen
Allemagne