in

Pourquoi et comment ajuster les valeurs P dans les tests d’hypothèses multiples | par Igor Šegota | mai 2023


LES P-VALEURS, LES TESTS D’HYPOTHÈSES ET LES ERREURS

Les p-valeurs peuvent être utilisées comme méthode pour sélectionner des caractéristiques pertinentes. Cependant, lorsque nous testons simultanément plusieurs hypothèses, le risque d’obtenir des fausses découvertes augmente. Pour remédier à cela, il existe plusieurs méthodes qui ajustent les p-valeurs pour prendre en compte le nombre d’hypothèses testées.

FALSE POSITIVE RATE (FPR)

Le taux de faux positifs correspond au nombre d’hypothèses nulles qui sont faussement identifées comme significatives. Dans notre exemple, en utilisant un seuil de p-valeur de 0,05, le taux de faux positifs est de 5,3%. Cependant, ce taux n’a pas beaucoup d’intérêt si nous ne connaissons pas à l’avance quelles hypothèses sont nulles et lesquelles ne le sont pas.

FAMILY-WISE ERROR RATE (FWER)

Le taux d’erreur globale correspond à la probabilité de rejeter à tort une ou plusieurs hypothèses nulles. Pour contrôler le FWER, deux méthodes sont couramment utilisées : la procédure de Bonferroni et la procédure de Holm. Cependant, ces méthodes sont souvent trop conservatrices et peuvent manquer de puissance si toutes les hypothèses ne sont pas indépendantes les unes des autres.

FALSE DISCOVERY RATE (FDR)

Le taux de fausses découvertes correspond au nombre de fausses découvertes parmi toutes les caractéristiques identifiées comme significatives. Le contrôle de FDR peut être effectué en utilisant les procédures de Benjamini-Hochberg ou de Benjamini-Yekutieli. Ces procédures sont moins conservatrices que les procédures FWER mais sont plus puissantes lorsque les hypothèses ne sont pas indépendantes.

EXEMPLE SIMULÉ

Nous avons créé un exemple simulé pour illustrer l’impact de différentes méthodes d’ajustement des p-valeurs. Nous avons créé un DataFrame de 1000 caractéristiques, dont 1% ont des valeurs générées à partir d’une distribution normale avec une moyenne de 3 (modèle non nul) et 99% ont des valeurs générées à partir d’une distribution normale avec une moyenne de 0 (modèle nul). Nous avons ensuite calculé les p-valeurs pour chaque caractéristique et testé les méthodes FPR, FWER et FDR pour identifier les caractéristiques significatives.

CONCLUSION

Le contrôle des p-valeurs est essentiel pour éviter les fausses découvertes lors de tests multiples sur un grand nombre de caractéristiques. Les méthodes FWER et FDR sont utiles pour ajuster les p-valeurs et identifier les caractéristiques significatives tout en contrôlant le taux d’erreur global ou le taux de fausses découvertes. Les méthodes FDR sont plus adaptées lorsque les hypothèses ne sont pas indépendantes les unes des autres et que l’on souhaite identifier un plus grand nombre de caractéristiques significatives sans trop augmenter le nombre de fausses découvertes.

What do you think?

Written by Barbara

Leave a Reply

Your email address will not be published. Required fields are marked *

Calendrier Wp

“Buzzli” en français: “Le bourdonnement”