Nowe sposoby na ulepszenie systemów rozpoznawania mowy

Gdyby komputery potrafiły czytać z ruchu warg, tak jak robią to ludzie, to jakie techniki byłyby potrzebne, żeby skutecznie rejestrować głos przy pomocy niedrogiego sprzętu? Kwestią tą zajęli się uczestnicy finansowanego przez UE zespołu badawczego, którego zadaniem było udoskonalenie systemów rozpoznawania mowy w zakresie rozróżniania głosu różnych mówiących warunkach rzeczywistych.

Technologie przemysłowe

Badania nad audiowizualnym rozpoznawaniem mowy koncentrowały się dotąd na wyodrębnianiu informacji wizualnych z ruchu warg mówiącego, które pomagają komputerowi zrozumieć mowę potoczną. Większość prac ogranicza się jednak do scenariuszy zakładających sytuację idealną, w której dane wizualne są wysokiej jakości. Oznacza to, że drogie kamery rejestrują w wysokiej rozdzielczości obraz jednej osoby, która nie może się swobodnie poruszać i której twarz skierowana jest w kierunku obiektywu, a do tego najczęściej jest dobrze oświetlona. W tym kontekście, celem projektu "Audio-visual speech processing for interaction in realistic environments" (AVISPIRE)(odnośnik otworzy się w nowym oknie) było wykorzystanie tanich systemów audiowizualnych w bardziej realistycznych warunkach. Wychodząc od tradycyjnego scenariusza z wykorzystaniem jednego mówiącego i wysokiej jakości danych, naukowcy przeprowadzili dalsze badania nad rozpoznawaniem mowy wielu mówiących, w różnych warunkach oświetlenia. Uczeni postawili sobie też za cel przeanalizowanie możliwości wykorzystania nowych czujników zbierających żądane dane dotyczące mowy. Początkowe prace koncentrowały się na opracowaniu podstawowych komponentów automatycznego audiowizualnego systemu rozpoznawania mowy. Dzięki użyciu wizualnego podsystemu czołowego zastosowano algorytm Adaboost, który wykrywa twarz mówiącego, a także znormalizowany ekstraktor, którego zadaniem jest wyodrębnianie odpowiedniego obszaru obrazu (ust). Do scalenia danych dźwiękowych z wizualnymi wykorzystano wielostrumieniowy model Markov. Zarówno wizualny podsystem czołowy, jak i system audiowizualny rozbudowano, tak by obsługiwały dane z czujnika Microsoft Kinect. To niedrogie urządzenie dostarcza informacji o ruchu mówiącego, zwiększając skuteczność rozpoznawania przy ruchach głowy. Następnie naukowcy zajęli się gromadzeniem danych w celu stworzenia dwujęzycznego korpusu audiowizualnego, zawierającego także informacje o ruchu. W bazie znajdują się wpisy w języku angielskim oraz greckim. Partnerzy projektu przeanalizowali także możliwości zastosowania systemu rozpoznawania zachowań ludzkich w celu poprawy skuteczności systemu audiowizualnego. Wcześniejsza znajomość mówiących oraz ich umiejscowienia powinna pomóc uzyskać znacząco lepsze wyniki dzięki odpowiedniemu dostosowaniu konturów ust mówiących. Systemy interakcji człowiek–komputer wykorzystujące rozpoznawanie mowy znajdują coraz więcej zastosowań, ale do ich pełnego wykorzystania jeszcze daleka droga. Dzięki umożliwieniu rozpoznawania mowy kilku osób w warunkach zbliżonych do rzeczywistych projekt AVISPIRE przyczynił się do znacznego udoskonalenia takich systemów.

Znajdź inne artykuły w tej samej dziedzinie zastosowania

Ultradokładne rozwiązania w zakresie pomiaru czasu

21 Czerwca 2019

Modernizacja europejskiego przemysłu wytwórczego dzięki technologiom opartym na modelach

15 Września 2020

Informacje na temat projektu

AVISPIRE

Identyfikator umowy o grant: 247948

Projekt został zamknięty

Data rozpoczęcia 1 Października 2009

Data zakończenia 31 Marca 2013

Finansowanie w ramach

Specific programme "People" implementing the Seventh Framework Programme of the European Community for research, technological development and demonstration activities (2007 to 2013)

Koszt całkowity

€ 87 500,00

Wkład UE

€ 87 500,00

87 500,00

Koordynowany przez

"NATIONAL CENTER FOR SCIENTIFIC RESEARCH ""DEMOKRITOS"""
Greece

Nowe sposoby na ulepszenie systemów rozpoznawania mowy

Znajdź inne artykuły w tej samej dziedzinie zastosowania

Udostępnij tę stronę Udostępnij tę stronę w mediach społecznościowych

Pobierz Pobierz zawartość strony