Verbatim cours du 25 juin 2020

Régression linéaire

Formule de Koenig-Huygens

V = 1/n ∑ (x_k − x‾)² = 1/n ∑ ((x_k)² − 2 x_k x‾ + (x‾)²)

= 1/n ∑ (x_k)² − 2x‾ /n ∑ x_k + 1/n ∑ (x‾)²

= 1/n ∑ (x_k)² − 2x‾ 1/n ∑x_k + 1/n × n (x‾)²

= 1/n ∑ (x_k)² − 2x‾ x‾ + (x‾)²

= 1/n ∑ (x_k)² − (x‾)²

Pour minimiser la somme de toutes les distances à la droite, on minimise la somme

∑ | y_k − f(x_k) |

Mais cette minimisation n’est pas facile à déterminer calculatoirement.

En effet, pour minimiser une fonction, on a l’habitude d’utiliser la dérivée.

Et la valeur absolue n’est pas dérivable en 0.

Donc on va plutôt utiliser la méthode des moindres carrés.

On chercher à minimiser ∑ (y_k − f(x_k))², qui nous donne une fonction dérivable en les coefficients de la fonction : a et b.

L’écart quadratique moyen s’écrit 1/n ∑ ((y_k − ax_k) − b)²

Dans l’exemple, on trouve x‾ = 1/7 (1+1+2+2+2+3+3) = 14/7 = 2

y‾ = 2

cov_x,y = 1/7 (1+2+2+4+6+6+9) − 2×2 = 30/7 − 4 = 2/7

V_x = 1/7 (1+1+4+4+4+9+9) − 2² = 32/7 − 4 = 4/7

D’où a = 1/2 et b = y‾ − ax‾ = 2 − 1/2 × 2 = 1

Donc la droite de régression a pour équation y = 1/2 x + 1