À quel point le test F est utile dans la régression linéaire ? | par Jae Kim

LE F-TEST DANS LA RÉGRESSION LINÉAIRE : UTILE OU CONTRADICTOIRE ?

Le F-test statistique pour la significativité conjointe des coefficients de pente d’une régression est régulièrement signalé dans les sorties de la régression, ainsi que d’autres statistiques clés telles que R² et les valeurs de t-ratio. Cependant, est-ce qu’il est utile ou informatif comme statistique clé? Dans cet article, nous nous penchons sur les problèmes associés à cette statistique et sur la manière dont elle peut être modifiée pour être mieux utilisée comme outil.

Qu’est-ce que le F-test dans la régression linéaire ? Lorsque nous avons une variable dépendante Y et des variables indépendantes X, nous pouvons construire un modèle de régression linéaire Y = β₀ + β₁X₁ + β₂X₂ +…+ βkXk + u. L’Hypothèse nulle (H0) correspond à l’affirmation que les variables X n’ont aucun pouvoir d’explication sur la variable Y et P²=0. L’Hypothèse alternative (H1) correspond à l’affirmation qu’au moins l’une des variables X a un pouvoir d’explication sur Y et P²>0. Nous utilisons ensuite l’ F-test pour évaluer comment nos variables indépendantes modèlent la variable dépendante.

Les valeurs du coefficient de détermination R² sont souvent très basses, mais le test F affirme que le modèle a un pouvoir explicatif avec une signification statistique. N’est-ce pas un résultat contradictoire ? Cependant, nous pouvons observer que le test F rejette presque toujours H0 dans les applications pratiques.

Les problèmes avec le test F viennent du fait qu’il a été développé dans les années 1920 où les valeurs de T (la taille de l’échantillon) et K (le nombre de variables explicatives) étaient très faibles, tandis qu’aujourd’hui ces valeurs sont beaucoup plus élevées. Par conséquent, les valeurs critiques du test diminuent tandis que la statistique de test augmente en réponse à des valeurs croissantes de T et de K.

Pour résoudre ce problème, la solution consiste à effectuer un test pour H0: P² ≤ P0 où P0 est la valeur de pente la plus basse pour laquelle le modèle est considéré comme statistiquement important. Ainsi, le test F suit une distribution F non-centrale dans laquelle la non-centralité est déterminée par la valeur de P0 choisie. De cette manière, le test F peut être utilisé comme un outil utile pour évaluer les modèles de régression linéaire.