Dans tout le cours, on considère n ∈ N∗.
Statistiques à une variable
- Formule de Koenig-Huygens
- Pour tout (x1, … , xn) ∈ Rn on a Vx = ¯(x2) − ¯(x)2 = 1n ∑k=1n xk2 − ¯(x)2
Statistiques à deux variables
Soit (x1, … , xn, y1, … , yn) ∈ R2n.
Sa covariance est le réel cx,y = 1n ∑k=1n xk yk − ¯(x) ¯(y).
On appelle ajustement linéaire de la série une fonction affine dont la droite représentative s’approche le plus possible des points de la série statistique.
En général, il n’existe pas de fonction affine f pour laquelle on ait l’égalité f(xk) = yk pour tout k ∈ ⟦1 ; n⟧. Si la série statistique (x1, … , xn) est la variable explicative et (y1, … , yn) est la variable expliquée, l’efficacité d’un ajustement affine est évaluée à partir de l’erreur |f(xk) − yk|.
La méthode des moindres carrés consiste à minimiser l’écart quadratique moyen 1n ∑k=1n (f(xk) − yk)2 .
On réécrit ensuite l’écart quadratique moyen comme une fonction a ↦ 1n ∑k=1n (a(xk − ¯(x)) − (yk − ¯(y)))2 = a2 Vx − 2a cx,y + Vy, d’où l’expression de a attendue.
Au XIXe siècle, le Britannique Francis Galton avait appliqué cette méthode pour des données mettant en relation la taille des enfants et celle de leurs parents. Il avait calculé un coefficient a positif, ce qui signifie que plus les parents sont grands, plus les enfants sont grands en moyenne. Mais ce coefficient était aussi strictement inférieur à 1 (il valait environ 2/3). Cela implique que des parents de grande taille avaient des enfants en moyenne plus petits qu’eux, et des parents de petite taille avaient des enfants en moyenne plus grands qu’eux, d’où l’expression de « régression vers la moyenne ».
Pourtant, comme dans l’exercice précédent, où la répartition est la même si on inverse la première et la deuxième composante, cela n’indiquait pas une diminution de la variance d’une génération à l’autre.
En pratique, la droite représentant la fonction d’ajustement linéaire est appelée droite de régression même si son coefficient directeur est supérieur à 1.