Controlling Large Language Models

Description du projet

Interprétation et contrôle de grands modèles de langage

Les grands modèles de langage (LLM pour «large language model») sont rapidement devenus l’épine dorsale de la plupart des systèmes d’intelligence artificielle et sont à l’origine d’avancées décisives dans diverses tâches et applications. Toutefois, ces avantages s’accompagnent d’inconvénients notables, car les systèmes d’IA présentent souvent des défauts liés à leurs LLM sous-jacents, tels qu’un comportement biaisé, des confabulations, un raisonnement erroné et des informations obsolètes. Ces questions sont devenues de plus en plus difficiles à traiter en raison du caractère «boîte noire» des LLM. Le projet Control-LM, financé par le CER, développera un cadre pour surmonter cette opacité, en élucidant les mécanismes internes des LLM et en permettant un contrôle et une interprétation plus sûrs et plus efficaces de ces modèles.

Objectif

Large language models (LMs) are quickly becoming the backbone of many artificial intelligence (AI) systems, achieving state-of-the-art results in many tasks and application domains. Despite the rapid progress in the field, AI systems suffer from multiple flaws inherited from the underlying LMs: biased behavior, out-of-date information, confabulations, flawed reasoning, and more.
If we wish to control these systems, we must first understand how they work, and develop mechanisms to intervene, update, and repair them. However, the black-box nature of LMs makes them largely inaccessible to such interventions. In this proposal, our overarching goal is to:

*Develop a framework for elucidating the internal mechanisms in LMs and for controlling their behavior in an efficient, interpretable, and safe manner.*

To achieve this goal, we will work through four objectives. First, we will dissect the internal mechanisms of information storage and recall in LMs, and develop ways to update and repair such information.
Second, we will illuminate the mechanisms of higher-level capabilities of LMS to perform reasoning and simulations. We will also repair problems stemming from alignment steps. Third, we will investigate how training processes of LMs affect their emergent mechanisms and develop methods for fine-grained control over the training process. Finally, we will establish a standard benchmark for mechanistic interpretability of LMs to consolidate disparate efforts in the community.
Taken as a whole, we expect the proposed research to empower different stakeholders and ensure a safe, beneficial, and responsible adoption of LMs in AI technologies by our society.

Mots‑clés

Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).

Institution d’accueil

TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY

Contribution nette de l'UE

€ 1 500 000,00

Adresse

SENATE BUILDING TECHNION CITY
32000 Haifa
Israël

Type d’activité

Higher or Secondary Education Establishments

Liens

Contacter l’organisation Site web

Participation aux programmes de R&I de l'UE

Réseau de collaboration HORIZON

Coût total

€ 1 500 000,00

Bénéficiaires (1)

TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY

Israël

Contribution nette de l'UE

€ 1 500 000,00

Description du projet

Interprétation et contrôle de grands modèles de langage

Objectif

Mots‑clés

Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

Institution d’accueil

Bénéficiaires (1)

Partager cette page Partager cette page sur les réseaux sociaux

Télécharger Télécharger le contenu de la page

Controlling Large Language Models

Description du projet

Interprétation et contrôle de grands modèles de langage

Objectif

Mots‑clés Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).

Programme(s) Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s) Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

Institution d’accueil

Bénéficiaires (1)

Partager cette page Partager cette page sur les réseaux sociaux

Télécharger Télécharger le contenu de la page

Mots‑clés

Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.