European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Omni-Supervised Learning for Dynamic Scene Understanding

Opis projektu

Zmiana podejścia do danych i algorytmów uczenia maszynowego na potrzeby rozpoznawania obrazów

Autonomiczne pojazdy zdają się być dziś na wyciągnięcie ręki, co zawdzięczamy między innymi popularyzacji algorytmów rozpoznawania obrazów, które stanowią swego rodzaju oczy maszyn. Aby poruszać się po świecie, autonomiczne pojazdy muszą być w stanie wykrywać, klasyfikować i obserwować wiele poruszających się obiektów w ich otoczeniu. Algorytmy rozpoznawania obrazów są obecnie w stanie poradzić sobie z tym wyzwaniem, w dużej mierze dzięki postępom w rozwoju algorytmów głębokiego uczenia. Większość metod opiera się na konwolucyjnych sieciach neuronowych trenowanych na dużych zbiorach danych w sposób nadzorowany, jednak pojawiają się pytania, czy stosowanie tego paradygmatu umożliwi algorytmom skuteczne poruszanie się po naszych ulicach. Finansowany przez Europejską Radę ds. Badań Naukowych projekt DynAI zamierza skupić się na zaawansowanych metodach wykraczających poza trening nadzorowany. Badacze skupieni wokół projektu zaprojektują innowacyjne modele uczenia maszynowego, które będą trenowane bezpośrednio na podstawie nieopisanych strumieni wideo.

Cel

Computer vision has become a powerful technology, able to bring applications such as autonomous vehicles and social robots closer to reality. In order for autonomous vehicles to safely navigate a scene, they need to understand the dynamic objects around it. In other words, we need computer vision algorithms to perform dynamic scene understanding (DSU), i.e. detection, segmentation, and tracking of multiple moving objects in a scene. This is an essential feature for higher-level tasks such as action recognition or decision making for autonomous vehicles. Much of the success of computer vision models for DSU has been driven by the rise of deep learning, in particular, convolutional neural networks trained on large-scale datasets in a supervised way. But the closed-world created by our datasets is not an accurate representation of the real world. If our methods only work on annotated object classes, what happens if a new object appears in front of an autonomous vehicle? We propose to rethink the deep learning models we use, the way we obtain data annotations, as well as the generalization of our models to previously unseen object classes. To bring all the power of computer vision algorithms for DSU to the open-world, we will focus on three lines of research: 1-Models. We will design novel machine learning models to address the shortcomings of convolutional neural networks. A hierarchical (from pixels to objects) image-dependent representation will allow us to capture spatio-temporal dependencies at all levels of the hierarchy. 2-Data. To train our models, we will create a new large-scale DSU synthetic dataset, and propose novel methods to mitigate the annotation costs for video data. 3-Open-World. To bring DSU to the open-world, we will design methods that learn directly from unlabeled video streams. Our models will be able to detect, segment, retrieve, and track dynamic objects coming from classes never previously observed during the training of our models.

Instytucja przyjmująca

NVIDIA ITALY S.R.L.
Wkład UE netto
€ 1 500 000,00
Adres
VIA GIOIA MELCHIORRE 8
20124 Milano
Włochy

Zobacz na mapie

Region
Nord-Ovest Lombardia Milano
Rodzaj działalności
Private for-profit entities (excluding Higher or Secondary Education Establishments)
Linki
Koszt całkowity
€ 1 500 000,00

Beneficjenci (1)