Exercices covariance et corrélation
Soit X, Y deux variables indépendantes uniformes sur ⟦1, 6⟧ (modélisant deux lancers de dés)
On note M=max(X, Y) et L = min(X, Y)
On a montré M(Ω) = L(Ω) = ⟦1, 6⟧
et pour tout k ∈ ⟦1, 6⟧, P(M=k) = (2k−1)/36 et P(L=k) = (13−2k)/36.
On peut alors calculer E(M) = ... = 7×23/36.
Les variables L et M correspondent toujours à X et Y (dans un ordre quelconque).
Donc L+M = X+Y
donc E(L)+E(M) = E(X)+E(Y) par linéarité.
Donc E(L) = E(X) + E(Y) − E(M) = 7/2 + 7/2 − 7×23/36 = 7(1−23/36) = 7×13/36.
Pour calculer Cov(L, M), on calcule E(LM) = E(XY) = E(X)E(Y) par indépendance de X et Y
donc E(LM) = (7/2)².
Donc Cov(L,M) = E(LM) − E(L)E(M) = (7/2)² − 7×23×7×13/36² = 7²/4 (1−23×13/18²)
= 49/4 × (364 − 299)/364 = 49×65/6^4
La covariance est bilinéaire : Cov(2X, 2Y) = 4 Cov(X, Y)
Cette propriété implique que la covariance dépend des unités de mesures.
Si deux chercheurs étudient la relation entre le poids et la taille dans deux pays différents, ils ne peuvent comparer leurs résultats que s’ils ont les mêmes unités de mesure.
Y compris à l’intérieur d’un même pays, si on calcule une covariance avec la taille en cm, on trouvera une covariance 100 fois plus élevée que si elle est calculée avec une taille en m.
Cor(X, Y) s’appelle plus exactement coefficient de corrélation linéaire.
Dans la démonstration de l’encadrement de la corrélation, on trouve une fonction du second degré en λ : λ² V(X) − 2λ Cov(X, Y) + V(Y)
donc son discriminant s’écrit Δ = (−2 Cov(X, Y))² − 4 V(X) V(Y) = 4 Cov(X, Y)² − 4 V(X) V(Y).
Or Δ ≤ 0 donc 4 V(X) V(Y) ≥ 4 Cov(X, Y)² ⇔ | Cov(X, Y) | ≤ √(V(X) V(Y)) ⇔ | Cor(X, Y) | ≤ 1
−1 ≤ Cor(X, Y) ≤ 1.
(c’est un raisonnement du type inégalité de Cauchy-Schwarz)
Le cas d’égalité correspond à | Cor(X, Y) | = 1 ⇔ | Cov(X, Y) | = √(V(X) V(Y)) ⇔ Δ = 0,
ce qui se produit si la fonction du second degré s’annule en un réel λ.
Or une variance s’annule que pour une variable aléatoire constante, donc λX − Y est constante.
Dans l’exercice sur le maximum et le minimum de deux dés, on peut calculer Cor(L, M) avec la variance de L et de M.
On aura besoin d’utiliser la formule ∑_{k=1}^n k³ = (n(n+1))²/4.
Une fois qu’on a calculé V(M), il ne faut pas utiliser la même astuce que pour l’espérance pour calculer V(L) car V(M+L) = V(X+Y) = V(X)+V(Y) par indépendance
mais V(M+L) ≠ V(M) + V(L).
En revanche, on a 7−X et 7−Y qui sont aussi des variables uniformes sur ⟦1, 6⟧ indépendantes par lemme des coalitions.
Donc max(7−X, 7−Y) a la même loi que M.
avec max(7−X, 7−Y) = 7−min(X, Y), donc V(M) = V(L).
Donc Cor(M, L) = Cov(M, L) / √V(M)² = Cov(M, L) / V(M)