Skip to main content
Przejdź do strony domowej Komisji Europejskiej (odnośnik otworzy się w nowym oknie)
polski pl
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Article Category

Article available in the following languages:

Głos dla każdego języka: audiobooki ze sztuczną inteligencją dla każdego

Technologia AI pomaga małym wydawcom i niedostatecznie obsługiwanym językom w końcu znaleźć głos na rynku audiobooków.

Ta oparta na sztucznej inteligencji metoda obniża koszty produkcji o prawie 60% i skraca czas produkcji do zaledwie jednej godziny.

Aistis Raudys, dyrektor generalny AAI Labs

„Języki o mniejszych zasobach, czyli o takie ograniczonych danych cyfrowych i niewielkiej liczbie narzędzi do wymawiania tekstu przez komputer, często są pomijane na rynku audiobooków” — wyjaśnia Aistis Raudys, dyrektor generalny litewskiej firmy AAI Labs(odnośnik otworzy się w nowym oknie) zajmującej się sztuczną inteligencją, a zwłaszcza uczeniem maszynowym i generatywną AI. W 2022 r. konsorcjum pod przywództwem AAI Labs otrzymało finansowanie z UE, LMT(odnośnik otworzy się w nowym oknie), HAMAG-BICRO(odnośnik otworzy się w nowym oknie) i DSTI(odnośnik otworzy się w nowym oknie), aby opracować platformę AI o nazwie Audiobooks for Everyone (AFE), która pomaga w szybszy i bardziej opłacalny sposób tworzyć audiobooki w językach, które często są pomijane. Wsparcie pochodziło z Eurostars(odnośnik otworzy się w nowym oknie), będącego częścią Europejskiego partnerstwa na rzecz innowacyjnych MŚP, które pomaga innowacyjnym małym firmom nawiązywać współpracę z międzynarodowymi partnerami w zakresie wprowadzania nowych technologii na rynek. Dzięki takiemu finansowaniu oraz aktywnej współpracy transgranicznej firma AAI Labs ze swoimi partnerami połączyła wiedzę na temat AI z wydawniczym know-how z Europy i Afryki, aby stworzyć rozwiązanie, które otwiera rynek audiobooków na większą liczbę języków, czytelników i wydawców.

Przełamywanie barier

Bez odpowiedniej technologii produkcja audiobooków pozostaje zbyt kosztowna, zwłaszcza dla małych wydawców i autorów, zamykając ich w zaklętym kręgu, który sprawia, że języki te pozostają niedostatecznie wykorzystywane. Projekt AFE wykorzystuje najnowocześniejszą sztuczną inteligencję, aby zmienić zasady gry. „Podstawowa innowacja AFE, czyli klonowanie głosu w różnych językach, działa jako translator głosowy, dzięki czemu oprogramowanie może za pomocą jednego głosu odczytywać tekst w językach, których lektor tak naprawdę nie zna” — wyjaśnia Raudys. Pojedynczy narrator może „wysłowić” historię w wielu językach, umożliwiając tworzenie wciągających audiobooków z wieloma postaciami bez konieczności zatrudniania całej obsady. W projekcie wzięły udział zespoły z Litwy, Chorwacji i Republiki Południowej Afryki. Firma AAI Labs kierowała rozwojem technicznym, budując systemy i modele syntezy mowy. Firma Bulaja Naklada(odnośnik otworzy się w nowym oknie) zajmowała się gromadzeniem i testowaniem danych w Europie, a wydawnictwo Quickfox Publishing(odnośnik otworzy się w nowym oknie) dostarczyło zbiory danych w językach afrykańskich i opracowało przyjazny dla użytkownika pakiet do tworzenia audiobooków. „Taki zespół był niezbędny, łączył umiejętności techniczne ze zrozumieniem rynku, aby zapewnić, że produkt odniesie sukces, będzie inkluzywny i gotowy na rynki w Afryce i Europie” — wyjaśnia Raudys.

Poszerzanie horyzontów kulturowych

Kluczowy tu był udział w Europejskim Partnerstwie na rzecz Innowacyjnych MŚP. „Partnerstwo natychmiast rozszerzyło dostęp do rynku dla Litwy, zapewniając nowe możliwości biznesowe i kontakty w Chorwacji i RPA” — zauważa Raudys. Wykracza to jednak poza finansowanie — ułatwia również wymianę wiedzy specjalistycznej: Firma AAI Labs podzieliła się know-how w zakresie sztucznej inteligencji, a partnerzy wydawniczy wnieśli praktyczne spostrzeżenia, które pomogły ukształtować rozwiązania gotowe do wprowadzenia na rynek. Projekt AFE osiągnął już niezwykłe wyniki. „Największym osiągnięciem projektu jest pomyślne włączenie kilku języków o mniejszych zasobach, takich jak Zulu, Xhosa, afrikaans, chorwacki czy litewski” — mówi Raudys. Dotychczas języki te były niemal całkowicie nieobecne na rynku audiobooków. Technologia ta stwarza nowe możliwości biznesowe dla wydawców i zapewnia słuchaczom dostęp do szerszego zakresu literatury w formatach i językach, które mogą im się spodobać. Oprócz języków o mniejszych zasobach, na drugim końcu skali projekt AFE obejmował języki o znacznych zasobach, takie jak rosyjski, francuski i hiszpański. Skupiał się również na niektórych dialektach.

Nowe głosy na rzecz większej różnorodności

Opracowanie systemu nie obyło się bez trudności. „Głównym wyzwaniem technicznym było wprowadzenie zaawansowanych systemów sztucznej inteligencji do języków z niewielką ilością danych cyfrowych” — wyjaśnia Raudys. Zespół poradził sobie z tym problemem, używając akcentowanego tekstu, zatrudniając native speakerów do uzyskiwania opinii i wykorzystując badania lingwistyczne. „Projekt AFE był odpowiedzią na artystyczne zapotrzebowanie na naturalną, ekspresywną narrację. Wykorzystał do tego bezpośrednie szkolenie modeli AI na podstawie danych z celowo ekspresyjną mową” — dodaje. W dalszej perspektywie projekt AFT obiecuje przekształcenie rynku audiobooków pod kątem dostępności i inkluzywności. „Ta wykorzystująca sztuczną inteligencję metoda kosztuje o niemal 60% mniej i skraca czas produkcji do zaledwie jednej godziny, eliminując znaczne wydatki, takie jak narracja i nagrywania” — zauważa Raudys. Przynosi również korzyści słuchaczom niedowidzącym, wspiera małych wydawców i pomaga innowacyjnym MŚP w całej Europie. Poprzez połączenie sztucznej inteligencji i kreatywności projekt AFE wprowadza nowe głosy do niewystarczająco obsługiwanych języków i kształtuje bardziej inkluzywny krajobraz cyfrowy i kulturowy. „AFE przyczynia się do wyrównania szans między różnymi językami europejskimi” — mówi Raudys. Projekt pokazuje, w jaki sposób technologia może wzmacniać kreatywność, pomagać w zachowaniu różnorodności językową i rozszerzyć dostęp do literatury dla wszystkich. Po zakończeniu projektu firma AAI Labs zamierza dalej udoskonalać i skalować platformę AFE, rozszerzyć wsparcie na dodatkowe języki i dialekty o mniejszych zasobach oraz wprowadzić technologię na rynek poprzez partnerstwa z wydawcami i platformami treści. Wraz z rosnącym globalnym popytem na audiobooki i dostępne treści cyfrowe, rozwiązanie to ma duży potencjał komercyjny, aby otworzyć nowe rynki, jednocześnie wspierając różnorodność językową na całym świecie. Konsorcjum zrzeszające AAI Labs, Bulaja Naklada i Quickfox Publishing było współfinansowane przez „Horyzont Europa”, Litewską Radę ds. Badań Naukowych (LMT), Chorwacką Agencję MŚP i Inwestycji (HAMAG-BICRO), a także przez południowoafrykański Departament Nauki, Technologii i Innowacji (DSTI).

Moja broszura 0 0