L’apprentissage automatique améliore l’estimation des effets causaux dans les modèles de régression sur discontinuité (RSD)

Un projet financé par l’UE a élargi la palette d’outils méthodologiques pour les chercheurs travaillant avec des modèles régression sur discontinuité en utilisant des techniques modernes d’apprentissage automatique.

Recherche fondamentale

Outil méthodologique précieux pour étudier les relations de cause à effet, le modèle de régression sur discontinuité (RSD) joue un rôle important dans un nombre croissant de programmes de recherche. Afin d’affiner la méthode RSD et d’améliorer son analyse, le projet RD-ADVANCE a examiné et développé de nouvelles méthodes à appliquer dans les études qui utilisent ce modèle d’évaluation. «Les RSD permettent aux chercheurs d’en savoir plus sur les relations de cause à effet dans certains contextes où les essais contrôlés randomisés ne sont pas réalisables et où il convient d’utiliser les données d’observation», explique Christoph Rothe(s’ouvre dans une nouvelle fenêtre), professeur d’économie et coordinateur du projet RD-ADVANCE. «Les méthodes nouvellement développées permettront aux chercheurs dans des domaines tels que l’économie, l’éducation et la santé publique de mieux quantifier l’impact causal de différents types de mesures politiques», ajoute Christoph Rothe.

Développer de nouvelles méthodes pour la RSD

RD-ADVANCE, coordonné par l’Université de Mannheim en Allemagne, a été divisé en trois parties afin d’évaluer les différents éléments de la RSD. Dans la première partie, les membres de l’équipe ont développé des méthodes pour incorporer des covariables (variables indépendantes qui peuvent influencer le résultat d’un essai statistique donné) dans l’analyse des modèles de régression sur discontinuité. Ce travail a été réalisé avec l’aide de l’IA pour des conclusions plus précises. «Plus précisément, l’apprentissage automatique a été utilisé pour extraire des informations d’un nombre potentiellement élevé de covariables, qui sont ensuite utilisées pour réduire la variance des estimations de régression sur discontinuité des effets causaux», explique Christoph Rothe. Grâce à ces techniques élargies, les chercheurs seront en mesure de réduire l’incertitude résultant de l’insuffisance des données et, par conséquent, de fournir de meilleurs conseils en matière de politique. Dans la deuxième partie du projet, l’équipe a étudié les intervalles de confiance (IC) couramment utilisés dans les analyses statistiques. Ces IC sont basés sur des erreurs standard regroupées par une certaine variable, appelée variable courante. L’objectif de ces IC communs est de quantifier l’incertitude liée aux effets du traitement étudié. Les chercheurs ont toutefois constaté qu’en présence d’une variable courante discrète(s’ouvre dans une nouvelle fenêtre), ces IC couramment utilisés peuvent ne pas se révéler performants et ne pas représenter avec précision la véritable incertitude liée aux effets estimés du traitement. Pour résoudre ce problème et fournir une approche plus fiable aux chercheurs, l’équipe du projet a développé deux nouveaux IC qui peuvent aider les chercheurs à réaliser des évaluations plus précises des effets causaux.

Précision assurée

L’approche RSD fonctionne avec deux groupes d’individus: un groupe de traitement qui bénéficie de l’intervention et un groupe de contrôle qui n’en bénéficie pas. Les participants sont regroupés sur la base d’un point de rupture(s’ouvre dans une nouvelle fenêtre) dans la variable continue. La comparaison des résultats de part et d’autre du seuil permet de déduire l’effet causal du traitement. Toutefois, dans le cas de la RSD, il existe un risque que les individus modifient délibérément certains aspects de leur personne ou de leur comportement afin d’influencer le groupe de traitement auquel ils sont affectés. Cela pourrait nuire à la crédibilité et à la validité de l’approche RSD. Par conséquent, pour surmonter ce problème potentiel et garantir la précision de l’analyse RSD, la troisième partie du projet a été consacrée à l’élaboration de méthodes d’estimation et de conclusions pouvant tenir compte d’éventuelles manipulations dans les études RSD. L’équipe a établi un cadre général pour aborder la question de la manipulation, en utilisant des méthodes statistiques non paramétriques, tout en tenant compte d’autres aspects du scénario de manipulation. Pour plus de détails sur les méthodes développées, trois publications sont disponibles sur la page des résultats du projet.