Safety Mechanisms for Artificial General Intelligence (AGI)

Projektinformationen

AGI-Safety

ID Finanzhilfevereinbarung: 101222135

DOI

10.3030/101222135

EK-Unterschriftsdatum 28 August 2025

Startdatum 1 September 2025

Enddatum 31 August 2030

Finanziert unter

European Research Council (ERC)

Gesamtkosten

€ 1 625 000,00

EU-Beitrag

€ 1 625 000,00

1 625 000,00

Koordiniert durch

BEN-GURION UNIVERSITY OF THE NEGEV
Israel

Ziel

Artificial General Intelligence (AGI) represents AI systems with human-level cognitive abilities, capable of understanding, learning, and applying knowledge across a wide range of tasks and domains. While AGI holds immense potential to revolutionize industries, its imminent arrival also poses significant threats to society. Without proper safety mechanisms, AGI could cause unintended harm, be misused by malicious actors, or act autonomously in unpredictable and dangerous ways.

Our ambitious goal is to pioneer AGI safety by introducing a new paradigm grounded in cybersecurity principles. Current safety mechanisms—such as safeguards and alignment training—are proactive, serve only as the first line of defense, and are insufficient for the complex, autonomous nature of AGI. Stronger, more explicit mechanisms are essential to handle AGI use cases and mitigate their inherent risks.

The new paradigm employs a layered approach: beyond proactive safety, we propose adding two additional protective layers. These layers form the novel domains of active and reactive safety, both built upon a foundation of adversarial robustness. Active safety mechanisms, such as fail safes, enable us to detect and correct harmful thoughts made by the AGI in real time and explicitly, ensuring continuous and safe operation while enabling us to perform auditing when necessary. Reactive safety mechanisms, such as kill switches, serve as a last line of defense to contain or neutralize an AGI when all other measures fail. We also propose research into making these safety mechanisms immutable, preventing adversarial bypass.

Our preliminary data shows that these mechanisms are feasible and have high potential to outperform existing AI safety approaches. By fundamentally rethinking AI safety for the AGI era, this research aims to ensure we have robust safety mechanisms in place before AGI becomes a reality, while also enhancing the security and reliability of current AI systems in the interim.

Wissenschaftliches Gebiet (EuroSciVoc)

CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht. Siehe: Das European Science Vocabulary.

Naturwissenschaften Informatik und Informationswissenschaften Computersicherheit

Programm/Programme

Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.

HORIZON.1.1 - European Research Council (ERC) HAUPTPROGRAMM
Alle im Rahmen dieses Programms finanzierten Projekte anzeigen

Thema/Themen

Aufforderungen zur Einreichung von Vorschlägen sind nach Themen gegliedert. Ein Thema definiert einen bestimmten Bereich oder ein Gebiet, zu dem Vorschläge eingereicht werden können. Die Beschreibung eines Themas umfasst seinen spezifischen Umfang und die erwarteten Auswirkungen des finanzierten Projekts.

ERC-2025-STG - ERC STARTING GRANTS
Alle im Rahmen dieses Themas finanzierten Projekte anzeigen

Finanzierungsplan

Finanzierungsregelung (oder „Art der Maßnahme“) innerhalb eines Programms mit gemeinsamen Merkmalen. Sieht folgendes vor: den Umfang der finanzierten Maßnahmen, den Erstattungssatz, spezifische Bewertungskriterien für die Finanzierung und die Verwendung vereinfachter Kostenformen wie Pauschalbeträge.

HORIZON-ERC - HORIZON ERC Grants

Alle im Rahmen dieses Finanzierungsinstruments finanzierten Projekte anzeigen

Aufforderung zur Vorschlagseinreichung

Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.

(öffnet in neuem Fenster) ERC-2025-STG

Alle im Rahmen dieser Aufforderung zur Einreichung von Vorschlägen finanzierten Projekte anzeigen

Gastgebende Einrichtung

BEN-GURION UNIVERSITY OF THE NEGEV

Netto-EU-Beitrag

€ 1 625 000,00

Adresse

.
84105 Beer Sheva
Israel

Aktivitätstyp

Higher or Secondary Education Establishments

Links

Die Organisation kontaktieren Website

Teilnahme an EU-FuI-Programmen

HORIZON-Kooperationsnetzwerk

Gesamtkosten

€ 1 625 000,00

Begünstigte (1)

BEN-GURION UNIVERSITY OF THE NEGEV

Israel

Netto-EU-Beitrag

€ 1 625 000,00

Ziel

Wissenschaftliches Gebiet (EuroSciVoc)

CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht. Siehe: Das European Science Vocabulary.

Programm/Programme

Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.

Aufforderung zur Vorschlagseinreichung

Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.

Gastgebende Einrichtung

Begünstigte (1)

Diese Seite teilen Diese Seite in sozialen Netzwerken teilen

Herunterladen Den Inhalt der Seite herunterladen

Safety Mechanisms for Artificial General Intelligence (AGI)

Ziel

Wissenschaftliches Gebiet (EuroSciVoc) CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht. Siehe: Das European Science Vocabulary.

Programm/Programme Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.

Aufforderung zur Vorschlagseinreichung Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.

Gastgebende Einrichtung

Begünstigte (1)

Diese Seite teilen Diese Seite in sozialen Netzwerken teilen

Herunterladen Den Inhalt der Seite herunterladen

Wissenschaftliches Gebiet (EuroSciVoc)

CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht. Siehe: Das European Science Vocabulary.

Programm/Programme

Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.

Aufforderung zur Vorschlagseinreichung

Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.