Double Machine Learning Simplified: Part 1 — Applications basiques de l'inférence causale | par Jacob Pieniazek

APPLICATION 1: VERS UNE EXOGÉNÉITÉ CONVERGENTE / CIA / IGNORABILITÉ DANS NOTRE TRAITEMENT DONNÉ LES DONNÉES NON EXPÉRIMENTALES / OBSERVATIONNELLES

Dans cette première application, nous parlons de l’utilisation de la méthode DML (Double Machine Learning) pour contrôler les variables de confusion potentielles dans les données non expérimentales ou observationnelles. Nous rappelons qu’en l’absence de données expérimentales aléatoires, il est nécessaire de contrôler tous les facteurs de confusion potentiels pour obtenir l’exogénéité dans le traitement d’intérêt. Cela signifie que lorsque nous contrôlons tous les facteurs de confusion potentiels, notre traitement est “aussi bon qu’une assignation aléatoire”. Cependant, il reste deux problèmes principaux à résoudre : il est difficile, voire impossible, de connaître tous les facteurs de confusion et d’obtenir les données pour tous ces facteurs. Pour résoudre ce problème, il est nécessaire d’avoir une connaissance institutionnelle solide du processus de génération des données, de construire un modèle causal en évaluant les facteurs de confusion potentiels et en évitant les colliders, et/ou d’exploiter des designs quasi-expérimentaux. De plus, même si nous résolvons le premier problème, nous devons également contrôler la forme fonctionnelle correcte des facteurs de confusion, y compris les interactions et les termes d’ordre supérieur, lors de l’utilisation d’un modèle paramétrique (comme dans le cadre de régression). Une simple inclusion de termes linéaires dans une régression peut ne pas suffire pour contrôler les facteurs de confusion. C’est là que la méthode DML intervient ; elle permet de neutraliser de manière flexible les variables de confusion de manière hautement non paramétrique. Cela est particulièrement bénéfique car cela évite aux scientifiques des données d’avoir à modéliser directement les formes fonctionnelles de la confusion, et permet une plus grande attention pour identifier et mesurer les facteurs de confusion.

APPLICATION 2: AMÉLIORATION DE LA PRÉCISION ET DE LA PUISSANCE STATISTIQUE DANS LES DONNÉES EXPÉRIMENTALES (ESSAIS CONTRÔLÉS RANDOMISÉS OU TESTS A/B)

Dans cette deuxième application, nous parlons de l’utilisation de la méthode DML pour améliorer la précision et la puissance statistique des données expérimentales, telles que les essais contrôlés randomisés (RCT) ou les tests A/B. Il est courant de penser que si l’on mène une expérience avec une taille d’échantillon suffisamment grande, on peut obtenir une puissance statistique suffisante pour mesurer avec précision le traitement d’intérêt. Cependant, un élément souvent négligé dans la détermination de la puissance statistique d’une expérience, et finalement de la précision de l’estimation de l’ATE, est la variation de la variable de résultat que l’on essaie de mesurer. Par exemple, si l’on s’intéresse à mesurer l’impact d’une publicité spécifique sur le montant d’achat d’une personne, et que l’on anticipe un effet faible mais non négligeable – disons un ATE de 5 $ – si l’écart type des ventes individuelles est très élevé, il peut être difficile de capturer avec précision cet ATE compte tenu de cette forte variation. Cela signifie que l’on peut obtenir une précision très faible (des erreurs types élevées) dans notre estimation. Cependant, capturer cet ATE de 5 $ peut être économiquement significatif (si nous réalisons l’expérience sur 100 000 foyers, cela peut représenter 500 000 $). C’est là que la méthode DML peut être utile. En utilisant des covariables dans une procédure de régression multiple ou DML, nous pouvons réduire la variation dans notre variable de résultat et, par conséquent, diminuer les erreurs types de notre estimation. Nous pouvons inclure des variables qui sont de bons prédicteurs de notre variable de résultat pour réduire les résidus et augmenter la précision de notre estimation. Cette amélioration de la précision peut être économiquement significative, même si elle est statistiquement négligeable.

En conclusion, les méthodes DML peuvent être utilisées pour une variété d’applications dans le domaine des données non expérimentales et expérimentales. La méthodologie permet de contrôler les facteurs de confusion potentiels d’une manière flexible et non paramétrique, ce qui permet de mieux estimer les effets causaux et de gagner en précision et en puissance statistique. Les exemples illustrés démontrent que la méthode DML est un outil précieux pour les scientifiques des données qui traitent avec des données complexes et recherchent des résultats robustes et fiables.