Régression linéaire

Révisions
Entiers naturels
Droites du plan
Notions
Série statistique, ajustement linéaire, variable explicative et variable expliquée, erreur, méthode des moindres carrés, régression,
Définitions
Moyenne arithmétique, variance, écart type, covariance
Résultats
Formule de Koenig-Huygens, coefficients de la droite de régression
Compétences
calculer la moyenne, la variance et l’écart type d’une liste de valeurs réelles, calculer la covariance d’une série statistique à deux variables, déterminer une droite de régression par la méthode des moindres carrés

Dans tout le cours, on considère nN.

Statistiques à une variable

Définition
Une série statistique d’une variable réelle est une liste (x1, … , xn) ∈ Rn. Sa moyenne arithmétique est le réel x = 1/n k=1n xk, et sa variance s’écrit Vx = 1/n k=1n (xkx)2 avec σx = Vx étant appelé écart type.
Formule de Koenig-Huygens
Pour tout (x1, … , xn) ∈ Rn on a Vx = x2x2 = 1/n k=1n xk2x2

Statistiques à deux variables

Soit (x1, … , xn, y1, … , yn) ∈ R2n.

Définition
Une série statistique à deux variables réelles est une liste ((x1, y1), … , (xn, yn)) ∈ R2n.
Sa covariance est le réel cx,y = 1/n k=1n xk ykx y.

On appelle ajustement linéaire de la série une fonction affine dont la droite représentative s’approche le plus possible des points de la série statistique.

En général, il n’existe pas de fonction affine f pour laquelle on ait l’égalité f(xk) = yk pour tout k ∈ ⟦1 ; n. Si la série statistique (x1, … , xn) est la variable explicative et (y1, … , yn) est la variable expliquée, l’efficacité d’un ajustement affine est évaluée à partir de l’erreur |f(xk) − yk|.

La méthode des moindres carrés consiste à minimiser l’écart quadratique moyen 1/n k=1n (f(xk) − yk)2 .

Propriété
L’ajustement affine qui minimise l’écart quadratique moyen est défini par a = cx,y/Vx et b = yax.
Démonstration
Pour tout aR, l’écart quadratique moyen est une fonction du second degré bb2 + 2b/n k=1n (axkyk) + 1/n k=1n (axkyk)2, qui a son minimum en −1/n k=1n (axkyk) = yax.
On réécrit ensuite l’écart quadratique moyen comme une fonction a1/n k=1n (a(xkx) − (yky))2 = a2 Vx − 2a cx,y + Vy, d’où l’expression de a attendue.
Exercice
Calculer les coefficients de l’ajustement linéaire par la méthode des moindres carrés dans le cas où {(xi, yi), i ∈ ⟦1 ; n⟧} = {(1, 1), (1, 2), (2, 1), (2, 2), (2, 3), (3, 2), (3, 3)}.

Au XIXe siècle, le Britannique Francis Galton avait appliqué cette méthode pour des données mettant en relation la taille des enfants et celle de leurs parents. Il avait calculé un coefficient a positif, ce qui signifie que plus les parents sont grands, plus les enfants sont grands en moyenne. Mais ce coefficient était aussi strictement inférieur à 1 (il valait environ 2/3). Cela implique que des parents de grande taille avaient des enfants en moyenne plus petits qu’eux, et des parents de petite taille avaient des enfants en moyenne plus grands qu’eux, d’où l’expression de « régression vers la moyenne ».

Pourtant, comme dans l’exercice précédent, où la répartition est la même si on inverse la première et la deuxième composante, cela n’indiquait pas une diminution de la variance d’une génération à l’autre.

En pratique, la droite représentant la fonction d’ajustement linéaire est appelée droite de régression même si son coefficient directeur est supérieur à 1.