Régression linéaire en profondeur (Partie 1) | par le Dr Roi Yehoshua

PLONGÉE PROFONDE DANS LA THÉORIE ET LA MISE EN ŒUVRE DES MODÈLES DE RÉGRESSION LINÉAIRE

La régression linéaire est l’un des types de modèles prédictifs les plus basiques et couramment utilisés. Elle remonte à 1805, lorsque Legendre et Gauss ont utilisé la régression linéaire pour prédire le mouvement des planètes.

Le but dans les problèmes de régression est de prédire la valeur d’une variable en se basant sur les valeurs d’autres variables. Par exemple, nous pouvons utiliser la régression pour prédire le prix d’une action en se basant sur divers indicateurs économiques ou les ventes totales d’une entreprise en se basant sur le montant dépensé en publicité.

En régression linéaire, nous supposons qu’il existe une relation linéaire entre les caractéristiques d’entrée données et l’étiquette cible, et nous essayons de trouver la forme exacte de cette relation.

Cet article fournit un guide complet sur la théorie et la mise en œuvre des modèles de régression linéaire. Dans la première partie de l’article, nous nous concentrerons principalement sur la régression linéaire simple, où l’ensemble de données ne contient qu’une seule caractéristique (c’est-à-dire que l’ensemble de données consiste en des points bidimensionnels). Dans la deuxième partie de l’article, nous discuterons de la régression linéaire multiple, où l’ensemble de données peut contenir plus d’une caractéristique.

En régression, il y a de nombreux termes que les scientifiques de données utilisent souvent de manière interchangeable, mais qui ne sont pas toujours les mêmes, tels que : résidus/erreurs, coût/perte/fonction d’erreur, régression multiple/multivariable, perte au carré/erreur quadratique moyenne/somme des résidus au carré, etc.

En gardant cela à l’esprit, j’ai essayé dans cet article d’être aussi clair que possible en ce qui concerne les définitions et la terminologie utilisées.

PROBLÈMES DE RÉGRESSION

Dans les problèmes de régression, nous disposons d’un ensemble de n exemples étiquetés : D = {(x₁, y₁), (x₂, y₂), …, (xₙ, yₙ)}, où xᵢ représente les caractéristiques de l’exemple i et yᵢ représente l’étiquette de cet exemple.

Chaque xᵢ est un vecteur qui se compose de m caractéristiques : xᵢ = (xᵢ₁, xᵢ₂, …, xᵢₘ)ᵗ, où ᵗ désigne la transposée. Les variables xᵢⱼ sont appelées variables indépendantes ou variables explicatives.

L’étiquette y est une variable à valeurs continues (y ∈ R), qui est appelée variable dépendante ou variable de réponse.

Nous supposons qu’il y a une corrélation entre l’étiquette y et le vecteur d’entrée x, qui est modélisée par une certaine fonction f(x) et une variable d’erreur ϵ :

La variable d’erreur ϵ capture tous les facteurs non modélisés qui influencent l’étiquette autre que les caractéristiques, tels que les erreurs de mesure ou un bruit aléatoire.

Notre objectif est de trouver la fonction f(x), car la connaissance de cette fonction nous permettra de prédire les étiquettes pour n’importe quel nouvel échantillon. Cependant, comme nous avons un nombre limité d’échantillons d’entraînement à partir desquels apprendre f(x), nous ne pouvons obtenir qu’une estimation de cette fonction.

La fonction que notre modèle apprend à partir des données données est appelée l’hypothèse du modèle et est généralement notée h(x).

RÉGRESSION LINÉAIRE

En régression linéaire, nous supposons qu’il existe une relation linéaire entre les caractéristiques et l’étiquette cible. Par conséquent, l’hypothèse du modèle prend la forme suivante :

w₀, …, wₘ sont appelés les paramètres (ou poids) du modèle. Le paramètre w₀ est souvent appelé l’interception (ou le biais), car il représente le point d’intersection du graphe de h(x) avec l’axe des y (en deux dimensions).

Pour simplifier h(x), nous ajoutons une caractéristique constante x₀ qui est toujours égale à 1. Cela nous permet d’écrire h(x) comme le produit scalaire entre le vecteur de caractéristiques x = (x₀, …, xₘ)ᵗ et le vecteur de poids w = (w₀, …, wₘ)ᵗ :

Forme vectorielle du modèle de régression linéaire

Notre objectif en régression linéaire est de trouver les paramètres w₀, …, wₘ qui rendront les prévisions du modèle h(x) aussi proches que possible des étiquettes réelles y. En d’autres termes, nous aimerions trouver les paramètres du modèle qui s’adaptent le mieux à l’ensemble de données.

À cette fin, nous définissons une fonction de coût (parfois appelée fonction d’erreur) qui mesure à quel point les prédictions de notre modèle sont éloignées des étiquettes réelles.

Nous commençons par définir le résidu comme la différence entre l’étiquette d’un point de données donné et la valeur prédite par le modèle :

Définition du résidu

La régression des moindres carrés ordinaires (OLS) trouve les valeurs optimales des paramètres qui minimisent la somme des carrés des résidus :

Fonction de coût de OLS

Notez qu’une fonction de perte calcule l’erreur par observation et dans OLS elle est appelée une perte au carré, tandis qu’une fonction de coût calcule l’erreur sur l’ensemble des données, et dans OLS elle est appelée la somme des résidus au carré (SSR) ou la somme des erreurs au carré (SSE).

Bien que OLS soit le type de régression le plus courant, il existe d’autres types de régression tels que la régression des moindres déviations absolues. Nous motiverons l’utilisation de la fonction de perte au carré vers la fin de cet article.

Heureusement, sauf pour certains cas particuliers (qui seront discutés plus tard), la fonction de coût des moindres carrés est convexe. Une fonction f(x) est convexe si le segment de ligne entre deux points sur le graphe de la fonction se trouve au-dessus du graphe. En termes plus simples, le graphe de la fonction a une forme de coupe ∪. Cela signifie que les fonctions convexes n’ont qu’un seul minimum, qui est également le minimum global.

Comme J(w) est convexe, trouver ses points minimum en utilisant ses dérivées de premier ordre est garanti de nous donner une solution unique, et donc la solution optimale.

Lorsque l’ensemble de données ne comporte qu’une seule caractéristique (c’est-à-dire qu’il se compose de points bidimensionnels (x, y)), le problème de régression est appelé régression linéaire simple.

Géométriquement, en régression linéaire simple, nous essayons de trouver une ligne droite qui passe aussi près que possible de tous les points de données :

Régression linéaire simple

Dans ce cas, l’hypothèse du modèle est simplement l’équation de la ligne :

L’équation de la ligne de régression

où w₁ est la pente de la ligne et w₀ est son intersection avec l’axe des y. Les résidus dans ce cas sont les distances entre les points de données et la ligne ajustée.

La fonction de coût de OLS prend la forme suivante :

Fonction de coût de OLS en régression linéaire simple

Notre objectif est de trouver les paramètres w₀ et w₁ de la ligne qui s’adaptent le mieux aux points, c’est-à-dire la ligne qui mène au coût le plus faible. À cette fin, nous pouvons prendre les dérivées partielles de J(w₀, w₁) par rapport aux deux paramètres, les mettre à 0, puis résoudre le système linéaire de résultats (appelé les équations normales).

Commençons par la dérivée partielle de J par rapport à w₀ :

En fixant cette dérivée à 0, on obtient la suivante :

Nous avons trouvé une expression pour w₀ en termes de w₁ et des points de données.

Ensuite, nous calculons la dérivée partielle de J par rapport à w₁ :

En fixant cette dérivée à 0, on obtient la suivante :

Substituons l’expression de w₀ dans cette équation :

Par conséquent, les coefficients de la ligne