Intervalle de fluctuation

Notions
Niveau de confiance, convergence en loi
Définitions
Intervalle de fluctuation
Résultats
Théorème central de la limite, encadrement de la fréquence (et version simplifiée), inégalité de Markov et inégalité de Bienaymé-Tchebychev
Compétences
Déterminer un intervalle de fluctuation pour une loi explicite (comme pour le maximum ou le minimum d'une famille de variables uniformes indépendantes et identiquement distribuées) ou pour une somme de variables indépendantes et identiquement distribuées à l'aide du théorème central de la limite, ou à l’aide de l’inégalité de Bienaymé-Tchebychev.
Déterminer si un effectif observé rentre dans l'intervalle de fluctuation pour une loi binomiale avec un paramètre p théorique (par exemple, pour étudier la répartition des deux sexes au sein d'une entreprise).

Cas de référence

Définition
Soit X une variable aléatoire réelle. Soit I un intervalle réel et soit α ∈ [0 ; 1]. On dit que I est un intervalle de fluctuation au niveau de confiance α si P(XI) = α.

En pratique, on choisit souvent par défaut un niveau de confiance de 95 %. Si X suit une loi binomiale de paramètres 10 et 1/2, par exemple, on trouve P(X < 2) = P(X > 8) = 11/1024 0,01 donc l'intervalle [[2 ; 8]] est un intervalle de fluctuation à plus de 95 %.

Pour la loi uniforme sur un intervalle [0, A], on pose en général a = 0,025A et b = 0,975A, ce qui exclut des valeurs à gauche ou à droite de l'intervalle avec une même probabilité de 2,5 %.

Pour la loi normale centrée réduite, un intervalle de fluctuation à 95 % ne peut s'exprimer avec les fonctions de référence mais en notant Z une variable aléatoire normale centrée réduite on dispose de l'approximation P(Z ∈ [−1,96 ; 1,96]) 0,95.

Plus généralement, pour tout α ∈ ]0 ; 1[ on peut noter tα l'unique antécédent de α par la fonction de répartition de la loi normale centrée réduite. Dans ce cas, on a t0,975 1,96 et t1−α = −tα.

Approximation par la loi normale

Soit (Xn) une suite de variables aléatoires réelles. Soit Z une variable aléatoire réelle. On dit que la suite (Xn) converge en loi vers Z si pour tout réel a en lequel la fonction de répartition FZ est continue on a limn→+∞ FXn(a) = FZ(a).

En particulier, si les variables aléatoires Xn et la variable aléatoire Z sont à valeurs entières, la convergence en loi s'écrit kZ, limn→+∞ P(Xn = k) = P(Z = k).

Si la variable aléatoire Z est à densité, la convergence en loi revient à écrire que pour tout intervalle réel I on a limn→+∞ P(XnI) = P(ZI).

Théorème central de la limite
Soit (Xn) une suite de variables aléatoires indépendantes et de même loi admettant une variance. En notant pour tout nN, Sn = i=1n Xi, la suite (SnE(Sn) / V(Sn)) converge en loi vers la loi normale centrée réduite.

En particulier, ce théorème permet d'approcher certaines lois s'obtenant à l'aide de sommes de variables comme la loi binomiale ou la loi de Poisson.

Attention, il n'y a pas d'approximation d'une loi quelconque par la loi normale.

Encadrement de la fréquence

Propriété
Si (Xi)1≤in est une famille de variables aléatoires de Bernoulli indépendantes et de même paramètre p alors la moyenne X = 1/n i=1n Xi admet approximativement pour intervalle de fluctuation à 95 % l'intervalle [p − 1,96p(1 − p)/n, p + 1,96p(1 − p)/n].
Le théorème central de la limite et l'intervalle de fluctuation pour la loi normale centrée réduite donnent l'approximation P(SnE(Sn) / V(Sn) ∈ [−1,96 ; 1,96]) 0,95 en notant Sn = i=1n Xi.

Or E(Sn) = i=1n E(Xi) = np par linéarité de l'espérance
et V(Sn) = i=1n V(Xi) = np(1 − p) par indépendance des variables (on reconnait l'espérance et la variance de la loi binomiale).

Donc on trouve P(np − 1,96np(1 − p)Snnp + 1,96np(1 − p)) 0,95 d'où P(p − 1,96p(1 − p)/nXp + 1,96p(1 − p)/n) 0,95.

Cet intervalle peut être étendu en un intervalle de fluctuation avec une expression plus simple sous la forme [p1/n, p + 1/n] à l'aide de la majoration 1,96 < 2 et du fait que pour tout p ∈ [0 ; 1], on a p(1 − p) ≤ 1/4.

On obtient donc ainsi un encadrement probable de la fréquence d'observation d'un phénomène sur un échantillon. Cela permet notamment de détecter des écarts anormaux par rapport à une probabilité attendue.

Utilisation de la variance

Inégalité de Markov
Soit X une variable aléatoire réelle positive. Pour tout aR∗+, P(Xa) ≤ E(X)/a.
On pose Y = a1Xa qui est une variable de Bernoulli de valeurs 0 et a, toujours inférieure à X donc on trouve E(X) ≥ E(Y) = a P(Xa), ce qui montre l'inégalité de Markov.
Inégalité de Bienaymé-Tchebychev
Soit X une variable aléatoire réelle admettant une variance. Pour tout εR∗+, on a P(|XE(X)| ≥ ε)V(X)/ε2.
On applique l'inégalité de Markov : P(|XE(X)| ≥ ε) = P((XE(X))2ε2)E((XE(X))2)/ε2 = V(X)/ε2.

On en déduit un intervalle de fluctuation au niveau de confiance au moins 1 − α en choisissant ε pour obtenir V(X)/ε2α c'est-à-dire εV(X)/α.

Pour la loi normale centrée réduite, on trouve donc un intervalle de fluctuation au niveau de confiance au moins 95 % sous la forme [−ε , ε] avec ε = 20 4,5, ce qui est bien moins précis que l'intervalle [−1,96 ; 1,96].