L'algèbre matricielle de la régression linéaire | par Rob Taylor, PhD

EXPLIQUANT LES OPÉRATIONS MATRICIELLES DE LA RÉGRESSION LINÉAIRE

La régression linéaire est une méthode de modélisation statistique qui est souvent enseignée en introduction aux statistiques et à la science des données. Elle est largement utilisée en raison de sa simplicité et de sa facilité à interpréter les paramètres du modèle. Bien que les manuels d’introduction offrent des traitements mathématiques détaillés, leur mise en place est souvent automatisée par des fonctions qui les rendent plus faciles. Cependant, il est essentiel que les analystes et les scientifiques des données se familiarisent avec l’outil statistique. Dans cet article, nous allons examiner les opérations matricielles qui sous-tendent la régression linéaire.

Forme matricielle de la régression linéaire

Le modèle de régression linéaire simple est basé sur l’équation où la réponse Y est modélisée comme une combinaison linéaire d’une seule variable explicative X. Cette formulation peut être réécrite sous forme matricielle en assignant chaque élément vectoriel et matriciel. Tout d’abord, les réponses sont placées dans un vecteur n-dimensionnel appelé vecteur de réponse, noté y. Ensuite, la variable prédictive X est placée dans une matrice n × p appelée matrice de conception, notée X. Le nombre de colonnes de X, p, correspond au nombre de coefficients du modèle. Le premier élément de la première colonne de X contient des uns pour accommoder l’interception du modèle. La troisième matrice est un vecteur p ×1 appelé vecteur de paramètres, noté β. Enfin, les erreurs de prédiction sont placées dans un vecteur n × 1 noté ε. Ainsi, la forme matricielle de la régression linéaire peut être exprimée comme la multiplication de X et β, une somme de ε, ou Y = Xβ + ε. Le résultat de la multiplication de X et β est appelé vecteur de prédiction linéaire, noté η.

Prédicteur linéaire

Le prédicteur linéaire est calculé comme le produit matriciel des matrices X et β pour chaque observation i dans le modèle. La matrice de X est de dimension n × p, tandis que β est pour sa part p × 1, ou vecteur de paramètres, alors η est un vecteur n × 1, ou vecteur de prédiction linéaire. La matrice produite est un produit de points. Chaque élément de η est calculé en faisant la somme des produits de chaque élément de la rangée i dans X et des coefficients correspondants de β.

Erreur de modèle

La perturbation est l’écart entre la valeur réelle observée et la valeur prédite. Le Gauss-Markov theorem postule des hypothèses fondamentales pour la perturbation d’une régression linéaire. Ces hypothèses permettent de définir des objectifs de modélisation cohérents, notamment que la moyenne conditionnelle attendue de l’erreur est nulle, que la variance de l’erreur reste homoscédastique, et que les erreurs sont non autocorrélées. La matrice de covariance pour l’erreur est diagonale, ce qui signifie que les erreurs sont sphériques.

Estimation des paramètres par moindres carrés ordinaires

Le but de la régression linéaire est d’estimer les coefficients du modèle. La méthode habituelle consiste à satisfaire le critère des moindres carrés, qui minimise la somme de l’erreur quadratique totale entre la prédiction linéaire et la réponse. Les coefficients sont choisis pour minimiser le résidu ou la distance entre les observations et la droite de régression. Cette méthode est appelée moindres carrés ordinaires (OLS). La somme des erreurs au carré est un vecteur n × 1 appelé la somme des erreurs au carré, qui peut être utilisée pour déterminer une estimation des coefficients β qui minimise cette somme et optimise le modèle.

En conclusion, la régression linéaire est un outil essentiel de la modélisation statistique. Les opérations matricielles sous-tendant la régression linéaire sont simples à comprendre et permettent une interprétation facile des paramètres du modèle. La méthode des moindres carrés ordinaires (OLS) est la méthode la plus utilisée pour estimer ces paramètres. La connaissance des opérations matricielles de la régression linéaire est donc un élément clé pour les analystes et les scientifiques des données à la recherche d’une meilleure compréhension des modèles linéaires.