Descrizione del progetto
Insegnare alle macchine a capire cosa vedono
La creazione di immagini con l’aiuto dei computer ha compiuto notevoli passi in avanti. La tecnologia e gli algoritmi odierni possono simulare il mondo attorno a noi. Inoltre, le tecniche di visione computerizzata possono riconoscere e prevedere identità e azioni a partire da immagini o video. Tuttavia, la visione computerizzata non riesce a gestire correttamente le forme 3D e la sua semantica non è esattamente «pixel perfect». Pertanto, la progettazione di ambienti 3D, come nei videogiochi o nei film, rimane laboriosa. Il progetto PIPE, finanziato dall’UE, lavorerà per risolvere questi problemi attraverso nuovi modelli che possano combinare la visione computerizzata con la simulazione con apprendimento automatico per una visione 3D e una modellazione generativa pixel perfect. Attraverso l’uso dell’apprendimento di reti neurali convoluzionali profonde, sarà possibile creare campioni realistici di immagini sintetiche significative.
Obiettivo
A fascinating tension exists between computer vision and computer graphics. Decades of research efforts have led to the ability of graphics algorithms to simulate the world to a degree often indistinguishable from reality -- given an accurate enough model of scene geometry and appearance. Similarly, decades of ingenuity have given computer vision techniques the already, at times, superhuman capability of detecting, recognizing, and predicting objects, actions, and identities from pictures or video.
Vision and graphics meet at a common point of pain: the model of scene geometry and appearance. To yield photorealistic results, graphics algorithms require an essentially perfect forward model. Yet, the capability of computer vision algorithms to robustly and accurately reason about the 3D shape and appearance of the world, unfortunately, greatly lags behind the capabilities to detect, recognize, segment, and so on. A great discrepancy exists between the semantic and the pixel-perfect, accurate shape and appearance. Bridging this chasm is the goal of this research.
This entails solving fundamental, long-standing, unsolved problems in computer vision through the aid of computer graphics and machine learning}. First, we seek to simultaneously capture accurate 3D shape and appearance of complex real-world scenes from photographic inputs; second, we seek to extend these capabilities still further to``zero-shot'' generative modelling. These extremely ambitious goals will be reached by marrying simulation (rendering) and machine learning, building on the PI's three existing strengths: (1) ability to capture photorealistic material appearance models using commodity devices; (2) his leading standing in physically-based image synthesis; and (3) his results on generative modeling of photorealistic images through deep convolutional neural networks.
Campo scientifico
CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP.
CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP.
- natural sciencescomputer and information sciencesartificial intelligencecomputer vision
- natural sciencesmathematicspure mathematicsgeometry
- natural sciencescomputer and information sciencesartificial intelligencemachine learning
- natural sciencescomputer and information sciencesartificial intelligencecomputational intelligence
Programma(i)
Argomento(i)
Meccanismo di finanziamento
ERC-COG - Consolidator GrantIstituzione ospitante
02150 Espoo
Finlandia