Skip to main content
Weiter zur Homepage der Europäischen Kommission (öffnet in neuem Fenster)
Deutsch Deutsch
CORDIS - Forschungsergebnisse der EU
CORDIS

Controlling Large Language Models

Projektbeschreibung

Große Sprachmodelle interpretieren und kontrollieren

Große Sprachmodelle sind schnell zum Rückgrat vieler KI-Systeme geworden und sind Antriebsmotors hochmoderner Fortschritte bei zahlreichen Aufgaben und Anwendungen. Die Vorteile gehen jedoch mit erheblichen Nachteilen einher, denn KI-Systeme weisen oft Fehler mit Bezug auf die Sprachmodelle auf, darunter voreingenommenes Verhalten, Konfabulationen, fehlerhafte Schlussfolgerungen und veraltete Informationen. Diese Probleme sind durch den Blackbox-Charakter der Sprachmodelle zunehmend schwierig zu beheben. Im ERC-finanzierten Projekt Control-LM wird ein Rahmen erstellt, um diese Undurchsichtigkeit zu überwinden. Dabei werden die internen Mechanismen von Sprachmodellen erläutert, um sichere und mehr Kontrolle und Interpretation dieser Modelle zu ermöglichen.

Ziel

Large language models (LMs) are quickly becoming the backbone of many artificial intelligence (AI) systems, achieving state-of-the-art results in many tasks and application domains. Despite the rapid progress in the field, AI systems suffer from multiple flaws inherited from the underlying LMs: biased behavior, out-of-date information, confabulations, flawed reasoning, and more.
If we wish to control these systems, we must first understand how they work, and develop mechanisms to intervene, update, and repair them. However, the black-box nature of LMs makes them largely inaccessible to such interventions. In this proposal, our overarching goal is to:

*Develop a framework for elucidating the internal mechanisms in LMs and for controlling their behavior in an efficient, interpretable, and safe manner.*

To achieve this goal, we will work through four objectives. First, we will dissect the internal mechanisms of information storage and recall in LMs, and develop ways to update and repair such information.
Second, we will illuminate the mechanisms of higher-level capabilities of LMS to perform reasoning and simulations. We will also repair problems stemming from alignment steps. Third, we will investigate how training processes of LMs affect their emergent mechanisms and develop methods for fine-grained control over the training process. Finally, we will establish a standard benchmark for mechanistic interpretability of LMs to consolidate disparate efforts in the community.
Taken as a whole, we expect the proposed research to empower different stakeholders and ensure a safe, beneficial, and responsible adoption of LMs in AI technologies by our society.

Programm/Programme

Finanzierungsplan

HORIZON-ERC -

Gastgebende Einrichtung

TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY
Netto-EU-Beitrag
€ 1 500 000,00
Adresse
SENATE BUILDING TECHNION CITY
32000 Haifa
Israel

Auf der Karte ansehen

Aktivitätstyp
Mittlere und höhere Bildungseinrichtungen
Links
Gesamtkosten
€ 1 500 000,00

Begünstigte (1)