El aprendizaje automático mejora la estimación de los efectos causales en los diseños de regresión discontinua

Un proyecto financiado con fondos europeos ha ampliado la variedad de herramientas metodológicas para los investigadores que trabajan con diseños de regresión discontinua mediante el uso de modernas técnicas propias del aprendizaje automático.

Investigación fundamental

El diseño de regresión discontinua (RDD, por sus siglas en inglés), una valiosa herramienta metodológica para estudiar las relaciones causa-efecto, desempeña un papel importante en un número creciente de programas de investigación. Para perfeccionar aún más el RDD y hacer que su análisis sea más preciso, el equipo del proyecto RD-ADVANCE ha examinado y desarrollado nuevos métodos que se aplicarán en los estudios que utilicen este diseño evaluativo. «Los RDD permiten a los investigadores conocer las relaciones causales en determinados contextos en los que los ensayos comparativos aleatorizados no son factibles y, en su lugar, hay que utilizar datos observacionales», explica Christoph Rothe(se abrirá en una nueva ventana), catedrático de Economía y coordinador del proyecto RD-ADVANCE. «Los nuevos métodos desarrollados permitirán a los investigadores de ámbitos como la economía, la educación y la sanidad pública cuantificar mejor el efecto causal de distintos tipos de medidas políticas», añade Rothe.

Desarrollo de nuevos métodos de RDD

El proyecto RD-ADVANCE, coordinado por la Universidad de Mannheim (Alemania), se dividió en tres partes con el fin de evaluar distintos elementos del RDD. En la primera parte, los miembros del equipo desarrollaron métodos para incorporar covariables (variables independientes que pueden influir en el resultado de una determinada prueba estadística) al análisis propio de los diseños de regresión discontinua. Esta labor se llevó a cabo con la ayuda de la inteligencia artificial, ya que permitía extraer conclusiones más precisas. «En concreto, se utilizó el aprendizaje automático para extraer información de un número potencialmente grande de covariables, algo que, a su vez, se utiliza para reducir la varianza de las estimaciones de discontinuidad de regresión de los efectos causales», señala Rothe. Gracias a estas técnicas ampliadas, Rothe cree que los investigadores podrán reducir la incertidumbre derivada de la escasez de datos y, por tanto, ofrecer un mejor asesoramiento político. En la segunda parte del proyecto, el equipo estudió los intervalos de confianza (IC) utilizados habitualmente en los análisis estadísticos. Estos IC se basan en errores estándar agrupados por una determinada variable, denominada variable de ejecución. El objetivo de estos IC habituales consiste en cuantificar la incertidumbre relacionada con los efectos del tratamiento que se está estudiando. Sin embargo, los investigadores descubrieron que, cuando se trata de una variable de ejecución discreta(se abrirá en una nueva ventana), es posible que estos IC utilizados habitualmente no funcionen bien y no representen con exactitud la verdadera incertidumbre relacionada con los efectos estimados del tratamiento. Para resolver este problema y proporcionar un enfoque más fiable a los investigadores, el equipo del proyecto desarrolló dos nuevos IC que pueden ayudar a los investigadores a realizar evaluaciones más precisas de los efectos causales.

Precisión garantizada

El enfoque de RDD trabaja con dos grupos de individuos: un grupo de tratamiento que recibe la intervención y un grupo de control que no la recibe. Los participantes se agrupan en función de un punto de corte(se abrirá en una nueva ventana) asociado a la variable de ejecución. La comparación de los resultados a ambos lados del punto de corte ayuda a inferir el efecto causal del tratamiento. Sin embargo, en el RDD existe el riesgo de que los individuos cambien deliberadamente ciertos aspectos de sí mismos o de su comportamiento para influir en el grupo de tratamiento al que son asignados. Esto podría socavar la credibilidad y la validez del enfoque RDD utilizado. Por lo tanto, para superar este posible problema y garantizar la exactitud del análisis de RDD, la tercera parte del proyecto se dedicó a desarrollar métodos de estimación y extracción de conclusiones que puedan tener en cuenta posibles manipulaciones cometidas en los estudios de RDD. El equipo estableció un amplio marco para abordar el problema de dichas manipulaciones, utilizando métodos estadísticos no paramétricos, al tiempo que tuvo en cuenta otros aspectos adicionales asociados a supuestos de manipulación. Para conocer más detalles sobre los métodos desarrollados, se pueden consultar tres publicaciones disponibles en la página de resultados del proyecto.