KI-Risikotests decken versteckte Schwachstellen der generativen KI auf

Eine Risikoplattform überprüft die Ergebnisse von generativer KI auf Instabilitäten, Verzerrungen und Audit-Nachweise und unterstützt Teams nach der Bereitstellung bei der Überwachung von Systemen.

Digitale Wirtschaft

Sicherheit

Generative künstliche Intelligenz kann als Hilfe bei der Einstufung von Bewerberinnen und Bewerbern, bei der Beantwortung von Fragen der Kundschaft oder bei der internen Entscheidungsfindung fungieren. Die damit verbundene Schnelligkeit ist nützlich, birgt jedoch auch Risiken, wenn sich ein- und dasselbe System infolge von kleinen Änderungen im Wortlaut, in der Sprache oder im Kontext anders verhält. Unternehmen müssen Fehler finden und Nachweise in Bezug auf die Überprüfung und das Management der Risiken erbringen. Das EIC-finanzierte Projekt QuantPi(öffnet in neuem Fenster) entwickelte eine Plattform für das Risikomanagement mit generativer künstlicher Intelligenz. Die PiCrystal-Technologie erstellt automatisch Testsuiten, überprüft das Modellverhalten und wandelt die Ergebnisse in eine Dokumentation und einen Audit-fähigen Nachweis um, der mit Vorschriften wie der EU-Verordnung über künstliche Intelligenz(öffnet in neuem Fenster) verknüpft ist.

KI-Risikotests offenbaren Verhaltensinstabilitäten und Verzerrungen

Das erste Problem, das zu Tage tritt, ist oftmals nicht eklatant und betrifft eher eine grundlegende Inkonsistenz. Lukas Bieringer, dem bei QuantPi die Leitung für den Bereich Governance und Finanzhilfe obliegt, erklärt: „Typischerweise handelt es sich dabei um Verhaltensinkonsistenzen oder -instabilitäten bei realistischen Eingabevariationen – die gleiche Eingabeaufforderungsklasse führt je nach Formulierung, Sprache oder Kontext zu wesentlich anderen Ergebnissen.“ Das ist daher von Bedeutung, da ein generatives KI-Werkzeug in einem einfachen Vergleichstest zuverlässig erscheinen kann, aber womöglich versagt, wenn bei der Nutzung in der realen Praxis Eingabeaufforderungen verschiedenartig formuliert werden. Dies kann dann zur Entstehung von Verzerrungen und Fairnesslücken führen, vor allem dann, wenn die Leistung von Untergruppen in den Durchschnittsergebnissen akzeptabel erscheint, innerhalb bestimmter Gruppen jedoch abfällt. In einem Wertnachweisszenario wurde ein umfangreiches Stellenbewerbungsempfehlungssystem auf der Basis eines großen Sprachmodells auf der Einstellungsplattform Stepstone und durch das KI-Prüflabor TÜV AI.Lab bewertet. Die Erkenntnis: Die beschäftigungsbezogene KI-Testung ist auf Datensätze angewiesen, die groß und repräsentativ genug sind, um eine intersektionale Testung zu unterstützen, bei der sich überschneidende Merkmale überprüft werden können, anstatt in breiten Durchschnittswerten verborgen zu bleiben.

Eine Nachweisgrundlage für die technische, juristische und geschäftliche Nutzung

Der Ansatz von QuantPi unterscheidet zwischen Nachweisen und Darstellungen. In der Informatik können detaillierte Testergebnisse nach Metrik, Untergruppe und Szenario erforderlich sein. Im rechtlichen Kontext sind Links zu Rechtsvorschriften und Normen gefragt. In der Governance wird ein systemübergreifender Portfolioüberblick benötigt. Für Entscheidungen auf Ebene der Unternehmensführung sind ein paar Restrisikoindikatoren ohne falsche Richtigkeit erforderlich. Bieringer fasst den Ansatz klar zusammen: „Das wichtigste Gestaltungsprinzip: Alle Anzeigen müssen auf derselben statistischen Nachweisgrundlage beruhen, damit eine Aussage auf Führungsebene immer auf ein bestimmtes Testergebnis zurückgeführt werden kann.“ Diese Rückverfolgbarkeit ist wichtig, da an Risikoentscheidungen mehrere Teams beteiligt sind, von denen jedes eine seinen Zuständigkeiten entsprechende Anzeige benötigt.

Fortwährend aktuelle KI-Nachweise mittels kontinuierlicher Überwachung

Automatisierte Tests sind kein Ersatz für menschliches Urteilsvermögen. Die Definition der bestimmungsgemäßen Verwendung des Systems, die Auswahl der geltenden Fairness- oder Sicherheitsdefinitionen, die Festlegung von Akzeptanzschwellen und die Entscheidung über die Bereitstellung, Aufschiebung oder Zurücknahme eines Systems liegt nach wie vor beim Menschen. Die Automatisierung misst das Risiko – und die Verantwortlichen entscheiden darüber, welches Risiko akzeptabel ist. Die Überwachung wird dementsprechend ausgelöst, wenn sich Risikoanzeichen ändern. Eine Modellaktualisierung, eine überarbeitete Eingabeaufforderung, ein neuer Abrufindex, ein geänderter Werkzeugsatz oder eine Änderung von vorgelagerten Daten können frühere Tests ungültig machen. Abweichungen bei Eingabeaufforderungen oder Ergebnissen und Änderungen von Vorschriften oder internen Richtlinien können ebenfalls eine Neubewertung erforderlich machen. Für viele Unternehmen besteht das größte Hindernis darin, dass die Vorschriften unbekannt sind. Bieringer erklärt hierzu unverblümt: „Die Unternehmen können keinen Nachweis zur technischen Konformität erstellen, der vor einer benannten Stelle oder einer Audit-Stelle Bestand hat – insbesondere mit Blick auf generative Systeme, bei denen herkömmliche Benchmark-Berichte nicht ausreichen und denen es bis heute an harmonisierten Normen fehlt.“ Die QuantPi-Plattform schließt diese Lücke durch die Umwandlung von technischen Tests in Nachweise, die verschiedene Teams vor und nach der Bereitstellung verwenden können.