Komputery zyskują lepsza zdolność rozpoznawania osób mówiących

Systemy automatycznego rozpoznawania mowy często stają się nieskuteczne, gdy mają do czynienia z kilkoma osobami mówiącymi jednocześnie. Naukowcy pokazali jednak, jak można uczyć maszyny rozpoznawania poszczególnych osób dzięki zastosowaniu dużych zbiorów danych.

Gospodarka cyfrowa

Technologia automatycznego rozpoznawania mowy(odnośnik otworzy się w nowym oknie) (ASR) umożliwia komputerom rozpoznawanie i przekładanie języka mówionego na tekst. Z racji tego, że ludzie coraz częściej kontaktują się z urządzeniami za pomocą głosu – na przykład poprzez aplikacje mobilne, zapytania w wyszukiwarce czy asystentów osobistych takich jak Google Home – zapotrzebowanie na tę technologię będzie rosło. Zadaniem ASR jest rozróżnianie poszczególnych osób mówiących i określenie, które osoby mówią w których momentach w danym nagraniu (tzw. oznaczanie mówców)(odnośnik otworzy się w nowym oknie). Potencjalne zastosowania tych technik obejmują przyznawanie dostępu upoważnionej osobie lub dostosowywanie urządzeń do konkretnych funkcji w zależności od osoby mówiącej. Aby jednak technologia ta osiągnęła odpowiednio wysoki poziom skuteczności, trzeba rozwiązać kilka problemów. Znaczący szum tła lub nakładanie się na siebie głosów kilku mówców często pogarszają skuteczność urządzenia. Postęp utrudnia również brak dostępnego sprzętu do szkolenia systemów automatycznych w zakresie uczenia się na podstawie dużej ilości danych.

Dokładne rozpoznawanie mówców

Projekt ETE SPEAKER(odnośnik otworzy się w nowym oknie), który został zrealizowany przy wsparciu działania „Maria Skłodowska-Curie”(odnośnik otworzy się w nowym oknie) i był koordynowany przez Uniwersytet Technologiczny w Brnie(odnośnik otworzy się w nowym oknie) w Czechach, miał na celu zbadanie potencjalnych nowych podejść w dziedzinie rozpoznawania mówców. „Warunki typowe dla rzeczywistych zastosowań rozpoznawania mowy wciąż stanowią wyzwanie dla systemów automatycznych”, wyjaśnia stypendystka działania „Maria Skłodowska-Curie” Alicia Lozano-Diez(odnośnik otworzy się w nowym oknie), obecnie adiunktka na Autonomicznym Uniwersytecie w Madrycie w Hiszpanii. Lozano-Diez z zespołem starała się opracować niezawodne systemy rozpoznawania osób mówiących, które potrafiłyby wykonywać to zadanie w różnych warunkach. W tym celu wykorzystano algorytmy oparte na uczeniu głębokim, zdolne do rozróżniania mówców bezpośrednio na podstawie danych. Projekt rozpoczął się od dokładnego przeglądu dotychczasowych podejść, aby sprawdzić, w jakich obszarach nowe metody mogą być bardziej skuteczne. Wyłonione w ten sposób nowe podejścia poddano następnie testom. „Kluczowym środkiem do osiągnięcia postępu są oceny technologiczne organizowane przez różnych ekspertów i instytucje”, mówi Lozano-Diez. „W ramach tych ocen eksperci z całego świata opracowują systemy, które mają rozwiązać konkretne zadanie”. Zespół projektu ETE SPEAKER wykorzystał te możliwości, aby rozwinąć i wypróbować różne opracowane przez siebie podejścia. Następnie porównali je z innymi zespołami, aby zidentyfikować pozostałe wyzwania, z którymi należy się zmierzyć.

Podejścia oparte na uczeniu głębokim

Udział w tych ocenach pozwolił Lozano-Diez zademonstrować, w jaki sposób można ulepszyć rozpoznawanie mówców i jak można przezwyciężyć niektóre ograniczenia tradycyjnych metod. Zespołowi udało się wykorzystać potencjał podejścia opartego na uczeniu głębokim, między innymi dzięki dostępnym dziś danym. „Jeden z systemów, który opracowaliśmy dla konkretnego problemu(odnośnik otworzy się w nowym oknie), osiągnął najlepsze wyniki wśród wszystkich uczestników”, mówi Lozano-Diez. „Ta ocena dotyczyła nagrań o krótkim czasie trwania. Mogą one stanowić dodatkowe wyzwanie dla systemów automatycznego rozpoznawania mówców, biorąc pod uwagę fakt, że każde nagranie zawiera tylko kilka sekund mowy”. W ramach projektu opracowano również nowe metody radzenia sobie z nakładającymi się na siebie głosami mówców na potrzeby oznaczania mówców. Lozano-Diez planuje kontynuować swoje badania w tej dziedzinie, dążąc do poprawy dokładności rozpoznawania mówców i techniki ich oznaczania. „Nowe podejścia są obecnie w stanie poradzić sobie ze złożonym problemem nakładania się mowy poprzez uczenie się bezpośrednio na podstawie danych”, wyjaśnia badaczka. Jednak tego typu dane – dokładnie oznakowane i zebrane z kilku różnych scenariuszy – są dostępne w małych ilościach, a Lozano-Diez uważa, że potrzeba więcej badań, aby technologia ta działała prawidłowo w trudnych warunkach. Dobrym przykładem mogą być rozmowy w restauracjach, gdzie jest dużo hałasu w tle, lub komentarze podczas konferencji nagrywane przy pomocy odległych mikrofonów.