Testy ryzyka AI ujawniają ukryte wady generatywnej sztucznej inteligencji

Platforma zarządzania ryzykiem bada systemy generatywnej sztucznej inteligencji pod kątem niestabilności generowanych wyników, stronniczości oraz dostępności materiału dowodowego na potrzeby audytu, wspierając zespoły w monitorowaniu tych systemów po wdrożeniu.

Gospodarka cyfrowa

Bezpieczeństwo

Generatywna sztuczna inteligencja może klasyfikować kandydatów, odpowiadać na pytania klientów lub wspierać wewnętrzne procesy decyzyjne. Szybkość, z jaką to robi, jest dużą zaletą, ale może wiązać się z pewnym ryzykiem, gdy ten sam system reaguje inaczej na niewielkie zmiany w sformułowaniu, języku lub kontekście. Firmy muszą identyfikować nieprawidłowości oraz dysponować dowodami potwierdzającymi, że ryzyka zostały przetestowane i są odpowiednio kontrolowane. Zespół projektu QuantPi(odnośnik otworzy się w nowym oknie), realizowanego przy wsparciu Europejskiej Rady ds. Innowacji, stworzył platformę do zarządzania ryzykiem generatywnej sztucznej inteligencji. Opracowana w ramach projektu technologia PiCrystal automatycznie tworzy zestawy testów, sprawdza zachowanie modelu i przekształca wyniki w dokumentację oraz dowody gotowe do poddania audytowi, powiązane z zasadami określonymi w rozporządzeniu UE o sztucznej inteligencji(odnośnik otworzy się w nowym oknie).

Testy ryzyka ujawniają niestabilność i stronniczość w zachowaniu AI

Pierwszy problem, który się ujawnia, nie jest zwykle uderzający, lecz raczej podstawowy – niespójność. Jak wyjaśnia Lukas Bieringer, dyrektor ds. polityki i dotacji w QuantPi, „Jest to zazwyczaj niespójne lub niestabilne zachowanie przy realistycznej zmienności danych wejściowych – ta sama klasa zapytania (promptu) daje zasadniczo różne wyniki w zależności od sformułowania, użytego języka lub kontekstu”. Jest to istotna obserwacja, ponieważ narzędzie generatywnej sztucznej inteligencji może wydawać się niezawodne w prostym teście porównawczym, a jednocześnie zawodzić, gdy prawdziwi użytkownicy formułują zapytania w inny sposób. Mogą wtedy ujawniać się luki w postaci uprzedzeń i nierówności, zwłaszcza gdy zagregowane wyniki wskazują na akceptowalną skuteczność modelu, podczas gdy analiza poszczególnych grup ujawnia istotne pogorszenie jego działania. W ramach projektu mającego potwierdzić wartość rozwiązania oceniono system rekomendacji kandydatów oparty na dużym modelu językowym, wykorzystywany na platformie rekrutacyjnej Stepstone oraz w laboratorium zapewnienia jakości AI TÜV AI.Lab. Wniosek był następujący: testy systemów AI stosowanych w procesach zatrudnienia wymagają odpowiednio dużych i reprezentatywnych zbiorów danych, które umożliwiają prowadzenie analiz przekrojowych uwzględniających nakładające się cechy poszczególnych grup, zamiast ukrywania istotnych różnic w uśrednionych wynikach.

Jedna baza dowodowa dla użytkowników technicznych, prawnych i zarządu

Podejście badaczy z projektu QuantPi rozdziela warstwę dowodową od warstwy prezentacji. Badacz zajmujący się danymi może potrzebować szczegółowych wyników testów według metryk, podgrup i scenariuszy. Ekspert prawny potrzebuje linków do klauzul regulacyjnych i standardów. Kierownik ds. zarządzania musi mieć wgląd w portfolio systemów, zaś decydent na poziomie zarządu potrzebuje kilku wskaźników ryzyka resztkowego, bez pozornej precyzji. Bieringer jasno podsumowuje to podejście: „Kluczowa zasada projektowa mówi: wszystkie prezentowane widoki muszą być oparte na tym samym statystycznym zbiorze dowodowym, tak aby każde stwierdzenie formułowane na poziomie zarządu mogło być w pełni powiązane z konkretnym wynikiem testowym”. Ta identyfikowalność jest ważna, ponieważ decyzje dotyczące ryzyka obejmują wiele zespołów, z których każdy potrzebuje widoku zgodnego z zakresem jego obowiązków.

Ciągłe monitorowanie zapewnia aktualność dowodów AI

Zautomatyzowane testy nie eliminują oceny przez człowieka. Ludzie nadal definiują zamierzone zastosowanie systemu; wybierają, które definicje sprawiedliwości lub bezpieczeństwa mają zastosowanie; ustalają progi akceptacji i decydują, czy wdrożyć, opóźnić lub wycofać system. Automatyczny system mierzy ryzyko, a odpowiedzialni ludzie decydują, jaki poziom ryzyka jest akceptowalny. Monitorowanie jest zatem uruchamiane, gdy zmieniają się dowody dotyczące ryzyka. Aktualizacja modelu, zmieniony prompt, nowy indeks wyszukiwania, zmodyfikowany zestaw narzędzi lub zmiana danych wyjściowych mogą unieważnić wcześniejsze testy. Dryf danych wejściowych, dryf danych wyjściowych oraz zmiany przepisów lub wewnętrznych polityk mogą również wymagać ponownej oceny. Dla wielu firm największą wciąż nierozwiązaną przeszkodą nie jest już świadomość obowiązujących zasad. Bieringer mówi o tym wprost: „To, z czym sobie nie radzą, to przedstawienie technicznych dowodów zgodności, które sprawdzą się przed jednostką notyfikowaną lub audytorem – szczególnie w przypadku systemów generatywnych, gdzie tradycyjne raporty porównawcze są niewystarczające i brakuje zharmonizowanych norm”. Platforma QuantPi wypełnia tę lukę, przekształcając testy techniczne w dowody, które różne zespoły mogą wykorzystać przed i po wdrożeniu.