Sterowanie głosowe w platformie „sztucznej inteligencji rzeczy” może oznaczać początek nowej ery, w której korzystanie z urządzeń będzie bezpieczniejsze i łatwiejsze

Pandemia COVID-19 uwidoczniła zalety bezdotykowego sterowania urządzeniami. Zespół projektu XMOS opracował interfejs głosowy na potrzeby nowej dziedziny, jaką jest „sztuczna inteligencja rzeczy” – obejmującej technologie umożliwiające realizację złożonych funkcji przy niskich kosztach finansowych i środowiskowych.

Gospodarka cyfrowa

Interfejsy głosowe pozwalają na prostszą, bezpieczniejszą oraz bardziej naturalną interakcję z urządzeniami. W projekcie XMOS(odnośnik otworzy się w nowym oknie) opracowano interfejs, który jest w stanie wykryć obecność człowieka, odróżnić jednego użytkownika od drugiego oraz podjąć odpowiednie działania. „XMOS wykorzystuje bardzo tani mikrokontroler, który przetwarza komunikaty głosowe lokalnie, zużywając jedynie niewielką ilość energii i miejsca w urządzeniu. Ponadto dodaliśmy czujniki dostarczające lokalne, chroniące prywatność informacje związane z wykrywaniem osób”, wyjaśnia Mark Lippett, dyrektor generalny XMOS. Algorytmy opracowane w ramach projektu zostały zastosowane w produkcie XVF3510(odnośnik otworzy się w nowym oknie), który jest już wykorzystywany przez producentów, w tym jednego z europejskich operatorów, do budowy nowej generacji centrali domu inteligentnego(odnośnik otworzy się w nowym oknie).

Od czujników przez sieć neuronową po aplikacje

Po tym jak produkt został wprowadzony na rynek, użytkownicy domagali się możliwości dostosowania interfejsu głosowego – zwłaszcza w celu wprowadzenia we własnym zakresie bardziej inteligentnych funkcji, zamiast korzystania z rozwiązań dostawców zewnętrznych. W odpowiedzi na to zapotrzebowanie naukowcy postanowili stworzyć ekonomiczną platformę programistyczną dla sztucznej inteligencji rzeczy (AIoT) o nazwie xcore.ai(odnośnik otworzy się w nowym oknie). Zapewnia ona infrastrukturę, natomiast zestaw do tworzenia oprogramowania (SDK) umożliwia programistom zintegrowanie wysokowydajnej, elastycznej inteligencji z tworzonymi produktami. SDK umożliwia łączenie sygnałów z wielu czujników, takich jak mikrofony, kamery, a nawet małe radary, i wykorzystuje sieć neuronową do wykrywania kluczowych cech, takich jak konkretne słowo lub twarz. Wykorzystując specjalną jednostkę przetwarzania wektorowego, zwykle spotykaną tylko w drogich procesorach graficznych, zespół XMOS zwiększył wydajność procesu, utrzymując jednocześnie koszty na niskim poziomie. „Aby ułatwić projektantom korzystanie z naszej platformy, jako element zestawu narzędzi oferujemy interfejsy czujników i funkcje wstępnego przetwarzania danych. Sieć neuronowa wykorzystuje standardowy format branżowy, dzięki czemu użytkownicy mogą szybko tworzyć aplikacje przy użyciu narzędzi, które już znają”, mówi Tom Blackie, lider projektu XMOS. W całym okresie realizacji projektu XMOS zespół współpracował z potencjalnymi użytkownikami, aby testować rozwiązania i zbierać opinie. „Pandemia COVID utrudniła testowanie prototypu w laboratorium, dlatego stworzyliśmy internetowy program wczesnego dostępu, wysyłając zestawy testowe do ponad 30 organizacji”, mówi Blackie. „Testowanie produktu przez użytkowników w rzeczywistych warunkach pozwoliło nam na uzyskanie szybkiej, konkretnej informacji zwrotnej na temat naszej pracy”. Przykładając szczególną wagę do prywatności i bezpieczeństwa, zespół XMOS zaimplementował kilka technik, takich jak zaszyfrowanie oprogramowania urządzenia. Ponadto dane są przetwarzane lokalnie, dzięki czemu nie ma potrzeby korzystania z zewnętrznych usług w chmurze. Możliwe jest nawet działanie bez połączenia z siecią.

Lepsza jakość życia i większe bezpieczeństwo

Projekt XMOS przyniesie nie tylko korzyści w dziedzinie zdrowia publicznego wynikające ze sterowania bezdotykowego, ale także może przyczynić się do zwiększenia integracji i różnorodności, ponieważ interfejsy głosowe eliminują wymagania dotyczące mobilności, zręczności i umiejętności czytania i pisania w codziennych zadaniach. Obsługa głosowa ma również istotne zalety w sytuacjach ryzyka, na przykład w kuchniach funkcja rozróżniania osób może zapobiec używaniu przez dzieci niebezpiecznych urządzeń, takich jak piekarniki. Zastosowanie interfejsu głosowego o niskim poborze mocy, zamiast bardziej energochłonnego procesora aplikacji i usług w chmurze, pomaga także oszczędzać energię, zmniejszając tym samym emisję dwutlenku węgla. „Przewiduje się, że rynek AIoT osiągnie do 2024 roku wartość 3 bln USD(odnośnik otworzy się w nowym oknie). Aktualnie analizujemy szeroką gamę możliwych zastosowań w różnych gałęziach przemysłu, w tym dotyczących biomonitoringu w służbie zdrowia. Chcemy wnieść wkład w rozwój jednego z najbardziej ekscytujących osiągnięć technologicznych naszych czasów”, podkreśla Lippett.