Safety Mechanisms for Artificial General Intelligence (AGI)

Información del proyecto

AGI-Safety

Identificador del acuerdo de subvención: 101222135

DOI

10.3030/101222135

Fecha de la firma de la CE 28 Agosto 2025

Fecha de inicio 1 Septiembre 2025

Fecha de finalización 31 Agosto 2030

Financiado con arreglo a

European Research Council (ERC)

Coste total

€ 1 625 000,00

Aportación de la UE

€ 1 625 000,00

1 625 000,00

Coordinado por

BEN-GURION UNIVERSITY OF THE NEGEV
Israel

Descripción del proyecto

Mecanismos de seguridad pioneros para la inteligencia artificial general

Si bien la inteligencia artificial general (AGI, por sus siglas en inglés) tiene el potencial de transformar las industrias futuras, podría causar daños involuntarios, ser explotada deliberadamente o comportarse de manera impredecible si no se implementan las medidas de seguridad adecuadas. El proyecto AGI-Safety, financiado por el Consejo Europeo de Investigación, tiene como objetivo desarrollar mecanismos de seguridad de AGI pioneros basados en principios de ciberseguridad. Mediante un método en capas, agregará dos capas protectoras más a los mecanismos de seguridad de inteligencia artificial proactiva actuales que seguirán siendo la primera línea de defensa. La segunda capa incluye mecanismos de seguridad activa, como dispositivos de seguridad, que reconocen y corrigen los pensamientos adversos generados por la AGI en tiempo real para garantizar que la operación continúe de manera segura. La capa final implica mecanismos de seguridad reactivos, como interruptores de seguridad, para inhibir o terminar la AGI como último recurso.

Objetivo

Artificial General Intelligence (AGI) represents AI systems with human-level cognitive abilities, capable of understanding, learning, and applying knowledge across a wide range of tasks and domains. While AGI holds immense potential to revolutionize industries, its imminent arrival also poses significant threats to society. Without proper safety mechanisms, AGI could cause unintended harm, be misused by malicious actors, or act autonomously in unpredictable and dangerous ways.

Our ambitious goal is to pioneer AGI safety by introducing a new paradigm grounded in cybersecurity principles. Current safety mechanisms—such as safeguards and alignment training—are proactive, serve only as the first line of defense, and are insufficient for the complex, autonomous nature of AGI. Stronger, more explicit mechanisms are essential to handle AGI use cases and mitigate their inherent risks.

The new paradigm employs a layered approach: beyond proactive safety, we propose adding two additional protective layers. These layers form the novel domains of active and reactive safety, both built upon a foundation of adversarial robustness. Active safety mechanisms, such as fail safes, enable us to detect and correct harmful thoughts made by the AGI in real time and explicitly, ensuring continuous and safe operation while enabling us to perform auditing when necessary. Reactive safety mechanisms, such as kill switches, serve as a last line of defense to contain or neutralize an AGI when all other measures fail. We also propose research into making these safety mechanisms immutable, preventing adversarial bypass.

Our preliminary data shows that these mechanisms are feasible and have high potential to outperform existing AI safety approaches. By fundamentally rethinking AI safety for the AGI era, this research aims to ensure we have robust safety mechanisms in place before AGI becomes a reality, while also enhancing the security and reliability of current AI systems in the interim.

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

ciencias naturales informática y ciencias de la información seguridad informática

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

HORIZON.1.1 - European Research Council (ERC) PROGRAMA PRINCIPAL
Ver todos los proyectos financiados en el marco de este programa

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

ERC-2025-STG - ERC STARTING GRANTS
Ver todos los proyectos financiados en el marco de este tema

Régimen de financiación

Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.

HORIZON-ERC - HORIZON ERC Grants

Ver todos los proyectos financiados en el marco de este régimen de financiación

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

(se abrirá en una nueva ventana) ERC-2025-STG

Ver todos los proyectos financiados en el marco de esta convocatoria

Institución de acogida

BEN-GURION UNIVERSITY OF THE NEGEV

Aportación neta de la UEn

€ 1 625 000,00

Dirección

.
84105 Beer Sheva
Israel

Tipo de actividad

Higher or Secondary Education Establishments

Enlaces

Contactar con la organización

Sitio web

Participación en los programas de I+D de la UE

Red de colaboración de HORIZON

Coste total

€ 1 625 000,00

Beneficiarios (1)

BEN-GURION UNIVERSITY OF THE NEGEV

Israel

Aportación neta de la UEn

€ 1 625 000,00

Descripción del proyecto

Mecanismos de seguridad pioneros para la inteligencia artificial general

Objetivo

Ámbito científico (EuroSciVoc) CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Programa(s) Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s) Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Convocatoria de propuestas Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

Institución de acogida

Beneficiarios (1)

Descargar Descargar el contenido de la página

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.