Maszynowe rozpoznawanie obrazów możliwe dzięki modelowaniu ludzkiego mózgu

Jeśli uda nam się kiedykolwiek doprowadzić do sytuacji, w której maszyny będą w stanie widzieć jak ludzie, będzie to dużą zasługą zespołu unijnych naukowców, którzy modelują działanie prawdziwego ludzkiego mózgu.

Gospodarka cyfrowa

Widzenie ludzkie jest możliwe dzięki wielu niezwykle złożonym procesom neurologicznym, które są realizowane w ramach współpracy zbioru wyspecjalizowanych, lecz względnie prostych modułów w naszych mózgach. Dobra wiadomość jest taka, że komputery również mogą realizować większość spośród tych procesów, dzięki czemu mogą uzyskać wzrok – w pewnym stopniu. Tego rodzaju rozwiązania nie są nowe, wręcz przeciwnie – zostały już przetestowane i znalazły zastosowanie w wielu produktach, od systemów bezpieczeństwa do autonomicznych statków kosmicznych i samochodów. Niestety, ich możliwości są dość ograniczone, a w niespodziewanych sytuacjach mogą po prostu zawieść. Przykładem mogą być autonomiczne pojazdy. Jeśli dany pojazd nie ma dostępu do danych wizualnych dotyczących pustyni, przełożenie informacji dotyczących terenów zurbanizowanych na nowe otoczenie może okazać się trudne lub wręcz niemożliwe, co przełożyłoby się na błędy popełniane przez jego komputery pokładowe. Opracowanie niezawodnego i całkowicie autonomicznego systemu rozpoznawania obrazów wciąż wymaga wiele pracy, która – poza stworzeniem oczywistych rozwiązań wykorzystywanych w wielu zastosowaniach – pozwoli nam również lepiej zrozumieć, w jaki sposób działa nasz własny wzrok. W ramach finansowanego przez Unię Europejską projektu DEEPCEPTION, zorganizowanego dzięki wsparciu działania „Maria Skłodowska-Curie”, naukowcy pracowali dwutorowo nad każdym z tych dwóch obszarów. Badacze opracowali modele rozwiązań w zakresie rozpoznawania obrazów, które emulują i ilustrują procesy zachodzące w ludzkim mózgu.

Głębokie sieci neuronowe

Sieci neuronowe to systemy, których budowa jest oparta na ich biologicznych odpowiednikach. W praktyce są to sieci procesorów komputerowych, które funkcjonują analogicznie do neuronów – komórek mózgowych. Sieci te wykorzystują algorytmy do rozpoznawania wzorców i nie wymagają w tym celu uprzedniego programowania. Głębokie sieci neuronowe, na których opiera się koncepcja projektu, są podobne w swoich założeniach. Różnica polega na tym, że w sieciach tego rodzaju wykorzystywane jest wiele warstw przetwarzania, a każda taka sieć jest szkolona do konkretnego zadania. Zadaniem zespołu skupionego wokół projektu DEEPCEPTION było nauczenie komputerów rozpoznawania obiektów znajdujących się na zdjęciach. Ponadto naukowcy zajęli się porównaniem reakcji głębokich sieci neuronowych oraz prawdziwych mózgów naczelnych (małpy i człowieka) na te same obrazy. „Jeśli model komputerowy dokładnie odzwierciedla prawdziwy proces biologiczny, wtedy reakcje sieci neuronowej i mózgu powinny być identyczne”, wyjaśnia Jonas Kubilius, kierownik projektu. Zespół badawczy zbudował zestaw testów, które pozwalają na ocenę i kwantyfikację zgodności obu procesów, opracowując między innymi Brain-Score, czyli najbardziej zaawansowany integracyjny test neuronowy i behawioralny na świecie. Opierając się na danych uzyskanych w ramach przeprowadzonych porównań, naukowcy zbudowali następnie model komputerowy – CORnet, który uzyskał bardzo wysokie oceny.

Najdokładniejszy model

Spośród istniejących modeli ludzkiego wzroku zaledwie kilka jest w stanie dokładnie przewidzieć reakcję neuronową lub behawioralną. Model opracowany w ramach projektu DEEPCEPTION osiągnął w tej kwestii znacznie lepsze wyniki od dużo bardziej złożonych modeli, a ponadto bardzo dobrze odzwierciedla nasz obecny stan wiedzy na temat rozpoznawania obrazów przez układ wzrokowy naczelnych. „Poczułem prawdziwą dumę, kiedy nasz model był w stanie przewidzieć reakcję neuronową w przypadku całkowicie nowego zbioru danych”, dodaje Kubilius. „Testy przeprowadzane na nowych zbiorach są niezwykle wymagające i pozwalają na łatwe stwierdzenie, które modele nie działają”. Jeśli dany model nie jest w stanie poprawnie reagować na dane, na których nie został wyszkolony, można otwarcie powiedzieć, że dany model nie odzwierciedla rzeczywistości. Uzyskanie dobrych prognoz dotyczących zupełnie nowego zbioru danych stanowi wskazanie, że opracowany model jest dokładny. Rezultatem projektu jest ulepszony model widzenia naczelnych. Pomimo że projekt DEEPCEPTION nie miał celów komercyjnych, narzędzia powstałe w ramach prac pomogą wielu naukowcom w opracowaniu jeszcze dokładniejszych modeli.

Słowa kluczowe

DEEPCEPTION, wzrok, sieci neuronowe, maszyny, głębokie sieci neuronowe, naczelne, rozpoznawanie obrazów, modelowanie, ludzki mózg, Brain-Score, CORnet

Visual perception in deep neural networks

Maszynowe rozpoznawanie obrazów możliwe dzięki modelowaniu ludzkiego mózgu

Głębokie sieci neuronowe

Najdokładniejszy model

Słowa kluczowe

Znajdź inne artykuły w tej samej dziedzinie zastosowania

Udostępnij tę stronę

Pobierz