Nowe sposoby na ulepszenie systemów rozpoznawania mowy
Badania nad audiowizualnym rozpoznawaniem mowy koncentrowały się dotąd na wyodrębnianiu informacji wizualnych z ruchu warg mówiącego, które pomagają komputerowi zrozumieć mowę potoczną. Większość prac ogranicza się jednak do scenariuszy zakładających sytuację idealną, w której dane wizualne są wysokiej jakości. Oznacza to, że drogie kamery rejestrują w wysokiej rozdzielczości obraz jednej osoby, która nie może się swobodnie poruszać i której twarz skierowana jest w kierunku obiektywu, a do tego najczęściej jest dobrze oświetlona. W tym kontekście, celem projektu "Audio-visual speech processing for interaction in realistic environments" (AVISPIRE) było wykorzystanie tanich systemów audiowizualnych w bardziej realistycznych warunkach. Wychodząc od tradycyjnego scenariusza z wykorzystaniem jednego mówiącego i wysokiej jakości danych, naukowcy przeprowadzili dalsze badania nad rozpoznawaniem mowy wielu mówiących, w różnych warunkach oświetlenia. Uczeni postawili sobie też za cel przeanalizowanie możliwości wykorzystania nowych czujników zbierających żądane dane dotyczące mowy. Początkowe prace koncentrowały się na opracowaniu podstawowych komponentów automatycznego audiowizualnego systemu rozpoznawania mowy. Dzięki użyciu wizualnego podsystemu czołowego zastosowano algorytm Adaboost, który wykrywa twarz mówiącego, a także znormalizowany ekstraktor, którego zadaniem jest wyodrębnianie odpowiedniego obszaru obrazu (ust). Do scalenia danych dźwiękowych z wizualnymi wykorzystano wielostrumieniowy model Markov. Zarówno wizualny podsystem czołowy, jak i system audiowizualny rozbudowano, tak by obsługiwały dane z czujnika Microsoft Kinect. To niedrogie urządzenie dostarcza informacji o ruchu mówiącego, zwiększając skuteczność rozpoznawania przy ruchach głowy. Następnie naukowcy zajęli się gromadzeniem danych w celu stworzenia dwujęzycznego korpusu audiowizualnego, zawierającego także informacje o ruchu. W bazie znajdują się wpisy w języku angielskim oraz greckim. Partnerzy projektu przeanalizowali także możliwości zastosowania systemu rozpoznawania zachowań ludzkich w celu poprawy skuteczności systemu audiowizualnego. Wcześniejsza znajomość mówiących oraz ich umiejscowienia powinna pomóc uzyskać znacząco lepsze wyniki dzięki odpowiedniemu dostosowaniu konturów ust mówiących. Systemy interakcji człowiek–komputer wykorzystujące rozpoznawanie mowy znajdują coraz więcej zastosowań, ale do ich pełnego wykorzystania jeszcze daleka droga. Dzięki umożliwieniu rozpoznawania mowy kilku osób w warunkach zbliżonych do rzeczywistych projekt AVISPIRE przyczynił się do znacznego udoskonalenia takich systemów.