Projektbeschreibung
Computern das Sehen beibringen
Maschinelles Sehen ist ein Teilgebiet der künstlichen Intelligenz (KI). Dabei sollen Maschinen ein visuelles Verständnis ihrer Umgebung erhalten, damit Computer Objekte in Bildern und Videos genauso wie Menschen erkennen können. Der Großteil der jüngsten Fortschritte in diesem Bereich ist auf Methoden des maschinellen Lernens zurückzuführen, bei denen visuelle Darstellungen aus umfangreichen, von Menschen annotierten Datensätzen vermittelt werden. Jedoch ist das Kennzeichnen von Daten zum Trainieren von Deep-Learning-Modellen teuer. Aktuelle fotorealistische Simulatoren bieten außerdem nicht die notwendige Vielfalt und Genauigkeit. Das EU-finanzierte Projekt LEGO-3D will dieses Problem angehen. Dazu werden probabilistische Modelle entwickelt, die 3D-Szenen zusammen mit fotorealistischen 2D-Projektionen aus beliebigen Blickwinkeln und mit umfassender Kontrolle über die Szenenelemente synthetisieren können. Das Projektteam wird Algorithmen zur automatischen Zerlegung von realen und künstlichen Szenen in neueste 3D-Darstellungen entwickeln, wobei die Geometrie, das Material, das Licht und die Bewegung erfasst werden.
Ziel
Recently, the field of computer vision has witnessed a major transformation away from expert designed shallow models towards more generic deep representation learning. However, collecting labeled data for training deep models is costly and existing simulators with artist-designed scenes do not provide the required variety and fidelity. Project LEGO-3D will tackle this problem by developing probabilistic models capable of synthesizing 3D scenes jointly with photo-realistic 2D projections from arbitrary viewpoints and with full control over the scene elements. Our key insight is that data augmentation, while hard in 2D, becomes considerably easier in 3D as physical properties such as viewpoint invariances and occlusion relationships are captured by construction. Thus, our goal is to learn the entire 3D-to-2D simulation pipeline. In particular, we will focus on the following problems:
(A) We will devise algorithms for automatic decomposition of real and synthetic scenes into latent 3D primitive representations capturing geometry, material, light and motion.
(B) We will develop novel probabilistic generative models which are able to synthesize large-scale 3D environments based on the primitives extracted in project (A). In particular, we will develop unconditional, conditioned and spatio-temporal scene generation networks.
(C) We will combine differentiable and neural rendering techniques with deep learning based image synthesis, yielding high-fidelity 2D renderings of the 3D representations generated in project (B) while capturing ambiguities and uncertainties.
Project LEGO-3D will significantly impact a large number of application areas. Examples include vision systems which require access to large amounts of annotated data, safety-critical applications such as autonomous cars that rely on efficient ways for training and validation, as well as the entertainment industry which seeks to automate the creation and manipulation of 3D content.
Wissenschaftliches Gebiet (EuroSciVoc)
CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht.
CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht.
Sie müssen sich anmelden oder registrieren, um diese Funktion zu nutzen
Schlüsselbegriffe
Programm/Programme
Thema/Themen
Finanzierungsplan
ERC-STG - Starting GrantGastgebende Einrichtung
72074 Tuebingen
Deutschland