Opis projektu
Innowacyjne metody obliczeniowe do opisu dźwięków otoczenia
Dźwięki, z jakimi stykamy się każdego dnia, mogą dostarczać cennych informacji o naszym otoczeniu i zachodzących w nim wydarzeniach. Obecna technologia nie radzi sobie jednak z rozpoznawaniem poszczególnych źródeł dźwięku w złożonych przestrzeniach dźwiękowych, w których występuje wiele dźwięków zniekształconych przez otoczenie. Aby rozwiązać ten problem, zespół projektu EVERYSOUND, finansowanego przez Europejską Radę ds. Badań Naukowych, zamierza opracować metody obliczeniowe pozwalające na automatyczne tworzenie zaawansowanych opisów dźwięków otoczenia. Projekt zakłada wykorzystanie innowacyjnych technik, takich jak separacja wspólnych źródeł i niezawodne algorytmy klasyfikacji wzorców w celu niezawodnego rozpoznawania wielu nakładających się na siebie dźwięków. Dodatkowo opracowana zostanie hierarchiczna wielowarstwowa taksonomia umożliwiająca dokładną klasyfikację powszechnych dźwięków. Dzięki projektowi powstaną cenne narzędzia do badań geograficznych, społecznych, kulturowych i biologicznych.
Cel
Sounds carry a large amount of information about our everyday environment and physical events that take place in it. For example, when a car is passing by, one can perceive the approximate size and speed of the car. Sound can easily and unobtrusively be captured e.g. by mobile phones and transmitted further – for example, tens of hours of audio is uploaded to the internet every minute e.g. in the form of YouTube videos. However, today's technology is not able to recognize individual sound sources in realistic soundscapes, where multiple sounds are present, often simultaneously, and distorted by the environment.
The ground-breaking objective of EVERYSOUND is to develop computational methods which will automatically provide high-level descriptions of environmental sounds in realistic everyday soundscapes such as street, park, home, etc. This requires developing several novel methods, including joint source separation and robust pattern classification algorithms to reliably recognize multiple overlapping sounds, and a hierarchical multilayer taxonomy to accurately categorize everyday sounds. The methods are based on the applicant's internationally recognized and awarded expertise on source separation and robust pattern recognition in speech and music processing, which will allow now tackling the new and challenging research area of everyday sound recognition.
The results of EVERYSOUND will enable searching for multimedia based on its audio content, which is not possible with today's technology. It will allow mobile devices, robots, and intelligent monitoring systems to recognize activities in their environments using acoustic information. Producing automatically descriptions of vast quantities of audio will give new tools for geographical, social, cultural, and biological studies to analyze sounds related to human, animal, and natural activity in urban and rural areas, as well as multimedia in social networks.
Dziedzina nauki
- natural sciencescomputer and information sciencescomputational science
- natural sciencesbiological sciencesecologyecosystems
- natural sciencescomputer and information sciencesartificial intelligencemachine learningdeep learning
- natural sciencescomputer and information sciencesartificial intelligencepattern recognition
- natural sciencescomputer and information sciencesartificial intelligencecomputational intelligence
Program(-y)
Temat(-y)
System finansowania
ERC-STG - Starting GrantInstytucja przyjmująca
33100 Tampere
Finlandia