Appariement des scores de propension (PSM) pour les tests A/B : Réduction du biais dans les études observationnelles | par Frank Hopkins

GUIDE : MISE EN PLACE DE LA METHODE PSM POUR LES DONNEES EXPERIMENTALES AVEC DU CODE PYTHON

A/B testing est une méthode de design expérimental largement utilisée où deux ou plusieurs interventions sont comparées sur un résultat d’intérêt. Le but de l’A/B testing est d’estimer l’effet causal des interventions sur le résultat, tout en contrôlant les variables pouvant altérer les résultats. La randomisation est souvent utilisée pour équilibrer les groupes de traitement et de contrôle, mais cela peut ne pas être suffisant pour équilibrer toutes les covariables pertinentes. En conséquence, l’effet de traitement estimé peut être biaisé en raison des différences dans les caractéristiques des groupes de traitement et de contrôle.

Pour résoudre les limitations de la randomisation en matière d’équilibre, nous avons la méthode de Propensity Score Matching (PSM). Cette méthode statistique vise à réduire le biais de l’estimation de l’effet de traitement en créant des groupes de traitement et de contrôle comparables basés sur leurs scores de propension. Le score de propension est la probabilité conditionnelle de recevoir le traitement compte tenu d’un ensemble de covariables observées, et il résume les informations sur les covariables pertinentes pour l’estimation de l’effet de traitement. Le PSM correspond à des individus ayant des scores de propension similaires dans les groupes de traitement et de contrôle, ce qui équilibrera la distribution des covariables potentielles et réduira l’impact des variables non observées.

Dans le contexte de l’A/B testing avec des essais randomisés contrôlés (ERC), le PSM peut aider à réduire le biais même après la randomisation. Bien que la randomisation assure que les groupes de traitement et de contrôle sont équilibrés en moyenne, elle peut ne pas atteindre l’équilibre sur toutes les covariables pertinentes en raison d’une variation due au hasard. Le PSM peut être utilisé pour créer des groupes de traitement et de contrôle comparables à partir de covariables observées et ainsi réduire les biais tout en améliorant la précision et la robustesse de l’estimation des effets de traitement.

Dans cet article, nous proposons un guide exhaustif pour utiliser le PSM dans le contexte de l’A/B testing avec les ERC. Nous discuterons de l’importance de l’équilibre et des variables pouvant affecter les résultats dans l’A/B testing, ainsi que des limites de la randomisation pour atteindre l’équilibre. Nous présenterons ensuite le concept de score de propension et expliquerons comment il peut être utilisé pour estimer les effets de traitement. Nous donnerons également des exemples de comment le PSM peut être utilisé pour améliorer l’équilibre et réduire le biais dans l’A/B testing avec les ERC, ainsi que les avantages et les limites de différents algorithmes de correspondance. Enfin, nous fournirons un guide pas à pas pour mettre en œuvre le PSM en Python pour l’A/B testing avec les ERC en utilisant un exemple simple de données.

Les ERC sont souvent considérés comme la norme pour estimer les effets causaux, car ils sont conçus pour éliminer l’influence des variables pouvant affecter les résultats grâce à l’affectation aléatoire. Cependant, même les ERC peuvent être biaisés s’il existe des variables non mesurées ou inconnues pour lesquelles des différences systématiques entre les groupes de traitement et de contrôle peuvent altérer l’analyse. Les méthodes alternatives sont donc nécessaires pour réduire le biais et améliorer la précision de l’estimation de l’effet de traitement.

Le PSM est une méthode qui peut être utilisée pour surmonter les limites de la randomisation pour atteindre un équilibre entre les groupes de traitement et de contrôle. Le PSM crée des groupes de traitement et de contrôle comparables en correspondant les individus sur la base de leurs scores de propension. Le score de propension est la probabilité conditionnelle de recevoir le traitement compte tenu d’un ensemble de covariables observées, et il résume les informations sur les covariables pertinentes pour l’estimation de l’effet de traitement.

La correspondance entre les individus sur la base de leurs scores de propension peut équilibrer la distribution des covariables potentielles et réduire l’impact des variables non mesurées. En outre, le PSM peut être utilisé pour réduire le biais de l’estimation de l’effet de traitement en contrôlant les variables pouvant affecter les résultats. La création de groupes de traitement et de contrôle compréhensibles à l’aide du PSM peut améliorer la précision et la robustesse de l’estimation de l’effet de traitement même après la randomisation des ERC.

Dans la prochaine section, nous présenterons le concept de score de propension et expliquerons comment il peut être utilisé pour estimer les effets de traitement dans le contexte des ERC. Nous discuterons également des avantages et des limites du PSM dans l’A/B testing avec les ERC, et donnerons des exemples de la façon dont le PSM peut être utilisé pour réduire le biais et améliorer la précision de l’estimation de l’effet de traitement.

Le score de propension matching peut vous aider en créant un groupe de comparaison plus équilibré grâce à la comparaison d’un ensemble de covariables observées. Ce processus de correspondance garantit que les groupes de traitement et de contrôle sont plus similaires en termes de distributions de covariables, réduisant ainsi le biais de l’estimation et améliorant la validité de l’inférence causale.

Il est important de noter que le PSM ne supprime pas les utilisateurs des groupes de traitement et de contrôle. Au lieu de cela, il crée des paires assorties d’utilisateurs dans les deux groupes en fonction de leurs scores de propension. Tout utilisateur qui ne peut pas être assorti en fonction de leurs scores de propension est simplement exclu de l’analyse. Ce processus permet de créer un groupe de comparaison plus équilibré sans enlever les utilisateurs des groupes de traitement ou de contrôle.

En outre, le PSM peut être particulièrement utile dans les ERC où il y a un grand nombre de covariables et le potentiel de biais de confusion est élevé. En utilisant le PSM pour équilibrer les distributions de covariables entre les groupes de traitement et de contrôle, nous pouvons nous assurer que toutes les différences observées dans les résultats entre les deux groupes ne sont pas dues aux différences dans les distributions de covariables.

Il est important de noter que le PSM ne résout pas tous les problèmes. Il peut encore y avoir des variables non observées qui peuvent affecter l’effet de traitement. Cependant, en utilisant le PSM comme un outil parmi d’autres dans notre boîte à outils de l’ERC, nous pouvons améliorer la rigueur et la fiabilité de nos résultats.

Dans cette section, nous présenterons les étapes pour mettre en œuvre la méthode de Propensity Score Matching (PSM) dans un Test A/B avec plusieurs covariables et le chiffre d’affaires net (NGR) comme métrique de résultats. Le but de PSM est de réduire le biais de confusion potentiel et d’améliorer la validité de l’inférence causale.

Étape 1: préparer les données

La première étape consiste à préparer les données. Ce processus comprend l’identification de la variable de résultat (c.-à-d. le NGR) et la variable d’affectation du traitement. Nous devons également identifier toutes les covariables qui peuvent avoir un impact sur la variable de résultat et qui pourraient induire des biais de confusion. Ces covariables doivent être incluses dans le modèle de régression logistique utilisé pour calculer les scores de propension.

# Identifier la variable de résultat et la variable d’affectation du traitement
variable_resultat = ‘ngr’
variable_trtmt = ‘groupe’

# Identifier les covariables
covariables = [‘âge’, ‘sexe’, ‘revenu’, ‘éducation’, ‘localisation’, ‘type de périphérique’, ‘navigateur’]

+——–+—–+——+——–+———–+————+————+————+————+
| UserID | Age | Gender | Income | Education | Device | Location | Browser | NGR (USD) |
+——–+—–+——+——–+———–+————+————+————+————+
| 1 | 23 | M | 45000 | College | iPhone X | New York | Safari | 120 |
| 2 | 45 | F | 78000 | College | Galaxy S9 | San Fran | Chrome | 80 |
| 3 | 31 | M | 65000 | Graduate | iPhone 8 | Boston | Firefox | 50 |
| 4 | 28 | F | 38000 | Graduate | iPhone 7 | Austin | Chrome | 200 |
| 5 | 52 | M | 95000 | Graduate | Galaxy S8 | Seattle | Firefox | 150 |
| 6 | 39 | F | 58000 | Graduate | iPhone X | New York | Safari | 90 |
| 7 | 33 | M | 51000 | College | iPhone 8 | San Fran | Chrome | 70 |
| 8 | 26 | F | 32000 |