Skip to main content
Ir a la página de inicio de la Comisión Europea (se abrirá en una nueva ventana)
español es
CORDIS - Resultados de investigaciones de la UE
CORDIS

GenEval: Linking Generation and Evaluation for Reliable NLG Assessment

Objetivo

"Large Language Models (LLMs) are increasingly leveraged as evaluators of machine-generated text, a paradigm known as ""LLMs-as-judges."" While this approach offers flexibility and typically strong performance, its reliability remains inconsistent and poorly understood. Strong generative performance does not guarantee reliable evaluation, and the mechanisms linking these two capabilities remain opaque. Without systematic validation, current evaluation practices risk being blind to misleading and factually incorrect content and misrepresenting system capabilities.

GenEval addresses this challenge by investigating the fundamental relationship between generation and evaluation in LLMs, developing novel representation-based metrics, and predicting LLMs' evaluation reliability across tasks and models. We will analyze LLMs at a mechanistic level, identifying circuits and representations that underlie generative and evaluative behaviors. This understanding will enable the design of new evaluation metrics that directly exploit LLMs' internal representations, providing interpretable, efficient, and robust alternatives to existing approaches. Finally, GenEval will develop predictive tools to estimate when an LLM is likely to be a reliable evaluator even in the absence of human judgment data, supporting informed model selection and human-in-the-loop evaluation.

By integrating mechanistic insights with practical evaluation methods, GenEval will deliver both theoretical advances and applied tools.
This action will be possible thanks to the integration of the scientific expertise of Prof. Horacio Saggion, an internationally recognized expert in Natural Language Generation, and that of the researcher, who has a strong background in evaluation, Natural Language Processing, and Machine Learning. The action will develop impacting technology, and provide the researcher with the necessary training to become independent and strengthen her academic profile."

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Para utilizar esta función, debe iniciar sesión o registrarse

Palabras clave

Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Régimen de financiación

Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.

HORIZON-TMA-MSCA-PF-EF - HORIZON TMA MSCA Postdoctoral Fellowships - European Fellowships

Ver todos los proyectos financiados en el marco de este régimen de financiación

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

(se abrirá en una nueva ventana) HORIZON-MSCA-2025-PF

Ver todos los proyectos financiados en el marco de esta convocatoria

Coordinador

UNIVERSIDAD POMPEU FABRA
Aportación neta de la UEn

Aportación financiera neta de la UE. Es la suma de dinero que recibe el participante, deducida la aportación de la UE a su tercero vinculado. Considera la distribución de la aportación financiera de la UE entre los beneficiarios directos del proyecto y otros tipos de participantes, como los terceros participantes.

€ 194 074,56
Dirección
PLACA DE LA MERCE, 10-12
08002 Barcelona
España

Ver en el mapa

Región
Este Cataluña Barcelona
Tipo de actividad
Higher or Secondary Education Establishments
Enlaces
Coste total

Los costes totales en que ha incurrido esta organización para participar en el proyecto, incluidos los costes directos e indirectos. Este importe es un subconjunto del presupuesto total del proyecto.

Sin datos
Mi folleto 0 0