Nowe sposoby na ulepszenie systemów rozpoznawania mowy

Gdyby komputery potrafiły czytać z ruchu warg, tak jak robią to ludzie, to jakie techniki byłyby potrzebne, żeby skutecznie rejestrować głos przy pomocy niedrogiego sprzętu? Kwestią tą zajęli się uczestnicy finansowanego przez UE zespołu badawczego, którego zadaniem było udoskonalenie systemów rozpoznawania mowy w zakresie rozróżniania głosu różnych mówiących warunkach rzeczywistych.

Technologie przemysłowe

Badania nad audiowizualnym rozpoznawaniem mowy koncentrowały się dotąd na wyodrębnianiu informacji wizualnych z ruchu warg mówiącego, które pomagają komputerowi zrozumieć mowę potoczną. Większość prac ogranicza się jednak do scenariuszy zakładających sytuację idealną, w której dane wizualne są wysokiej jakości. Oznacza to, że drogie kamery rejestrują w wysokiej rozdzielczości obraz jednej osoby, która nie może się swobodnie poruszać i której twarz skierowana jest w kierunku obiektywu, a do tego najczęściej jest dobrze oświetlona. W tym kontekście, celem projektu "Audio-visual speech processing for interaction in realistic environments" (AVISPIRE) było wykorzystanie tanich systemów audiowizualnych w bardziej realistycznych warunkach. Wychodząc od tradycyjnego scenariusza z wykorzystaniem jednego mówiącego i wysokiej jakości danych, naukowcy przeprowadzili dalsze badania nad rozpoznawaniem mowy wielu mówiących, w różnych warunkach oświetlenia. Uczeni postawili sobie też za cel przeanalizowanie możliwości wykorzystania nowych czujników zbierających żądane dane dotyczące mowy. Początkowe prace koncentrowały się na opracowaniu podstawowych komponentów automatycznego audiowizualnego systemu rozpoznawania mowy. Dzięki użyciu wizualnego podsystemu czołowego zastosowano algorytm Adaboost, który wykrywa twarz mówiącego, a także znormalizowany ekstraktor, którego zadaniem jest wyodrębnianie odpowiedniego obszaru obrazu (ust). Do scalenia danych dźwiękowych z wizualnymi wykorzystano wielostrumieniowy model Markov. Zarówno wizualny podsystem czołowy, jak i system audiowizualny rozbudowano, tak by obsługiwały dane z czujnika Microsoft Kinect. To niedrogie urządzenie dostarcza informacji o ruchu mówiącego, zwiększając skuteczność rozpoznawania przy ruchach głowy. Następnie naukowcy zajęli się gromadzeniem danych w celu stworzenia dwujęzycznego korpusu audiowizualnego, zawierającego także informacje o ruchu. W bazie znajdują się wpisy w języku angielskim oraz greckim. Partnerzy projektu przeanalizowali także możliwości zastosowania systemu rozpoznawania zachowań ludzkich w celu poprawy skuteczności systemu audiowizualnego. Wcześniejsza znajomość mówiących oraz ich umiejscowienia powinna pomóc uzyskać znacząco lepsze wyniki dzięki odpowiedniemu dostosowaniu konturów ust mówiących. Systemy interakcji człowiek–komputer wykorzystujące rozpoznawanie mowy znajdują coraz więcej zastosowań, ale do ich pełnego wykorzystania jeszcze daleka droga. Dzięki umożliwieniu rozpoznawania mowy kilku osób w warunkach zbliżonych do rzeczywistych projekt AVISPIRE przyczynił się do znacznego udoskonalenia takich systemów.

Audio-VIsual Speech Processing for Interaction in Realistic Environments

Nowe sposoby na ulepszenie systemów rozpoznawania mowy

Znajdź inne artykuły w tej samej dziedzinie zastosowania

Udostępnij tę stronę

Pobierz