Estimateur ponctuel
Étant donné un échantillon (X1, …, Xn) de variables aléatoires indépendantes et identiquement distribuées,
un estimateur (ponctuel) sur l'échantillon est une variable aléatoire dont les valeurs ne dépendent que de celles de l'échantillon.
A priori, n'importe quelle fonction φ de plusieurs variables permet donc de construire un estimateur
T = φ(X1, …, Xn), mais on ne considère en général que des fonctions symétriques, c'est-à-dire que l'estimateur ne dépend pas de l'ordre dans lequel est construit l'échantillon (il peut arriver qu'une fonction non symétrique soit utile, cf exercice sur l'urne contenant des boules deux à deux distinctes).
Soit T = φ(X1, …, Xn) un estimateur et θ ∈ R. On dit que T est un estimateur sans biais de θ si on a E(T) = θ.
- La moyenne empirique ¯X
= 1/n)∑k=1nXk
est un estimateur sans biais de l'espérance d'après la linéarité de l'espérance.
- Si X suit une loi géométrique de paramètre p ∈ ]0 ; 1[, on peut poser Y = 1{X=1},
c'est-à-dire que Y vaut 1 lorsque X = 1
et vaut 0 sinon. Dans ce cas, on trouve E(Y) = p.
Pour un échantillon (X1, …, Xn)
de variables aléatoires suivant une même loi géométrique de paramètre p, un estimateur sans biais de p
est donc donné par ¯Y = 1/n)∑k=1nYk
= 1/n) Card {i : Xi = 1}.
- Étant donné un réel a ∈ R∗+
et un échantillon (X1, …, Xn)
de variables aléatoires suivant la loi uniforme sur [0 ; a], le maximum M = max(X1, …, Xn)
suit une loi à densité avec la fonction de répartition F : x ↦ xn/an) donc la fonction de densité s'écrit
f : x ↦ nxn−1/an)
et son espérance vaut
E(M) = n/n+1)a.
Donc un estimateur sans biais de a est donné par
A = n+1/n)M.
- Estimateur de la variance connaissant l'espérance
- Si (X1, …, Xn)
est un échantillon de variables aléatoires suivant une loi d'espérance m (supposée connue) et de variance σ2 inconnue, un estimateur sans biais de σ2 est donné par
S2 = 1/n)∑k=1n(Xk − m)2.
La racine carrée d'un estimateur sans biais de la variance ne donne pas nécessairement un estimateur sans biais de l'écart-type.
- Estimateur de la variance avec une espérance inconnue
- Si (X1, …, Xn)
est un échantillon de variables aléatoires suivant une loi d'espérance m et de variance σ2 inconnues, avec n > 1,
un estimateur sans biais de σ2 est donné par
S2 = 1/n−1)∑k=1n(Xk − ¯X)2.
Convergence en probabilité
On dit qu'une suite de variables aléatoires (Xn) converge en probabilité
vers un variable aléatoire X
si pour tout ε ∈ R∗+,
limn→+∞ P(|Xn − X| ≥ ε)
= 0.
Si (Xn) converge en probabilité vers un variable aléatoire X
alors elle converge en loi vers X.
- Loi faible des grands nombres
- Si (Xn) est une suite de variables aléatoires indépendantes et de même loi d'espérance μ
et admettant une variance, alors la suite des moyennes partielles (1/n)∑i=1nXi)
converge en probabilité vers la variable certaine de valeur μ.
Une famille d'estimateurs (Tn) est dite convergente si elle converge en probabilité vers le paramètre θ à estimer.
En pratique, on construit souvent une telle famille à partir d'une suite de variables aléatoires
(Xn) indépendantes et identiquement distribuées, chaque estimateur Tn
étant défini en fonction de l'échantillon formé par les n premières variables (X1, …, Xn). Pour une convergence en probabilité, il importe peu que les différents estimateurs de la famille portent sur des échantillons disjoints ou non.
Intervalle de confiance
Si (X1, …, Xn) est un échantillon de variables aléatoires suivant une loi qui dépend d'un paramètre θ,
un intervalle de confiance au niveau de confiance 1−α
autour du paramètre θ
est défini par deux variables aléatoires U et V qui s'expriment en fonction de (X1, …, Xn)
et telles que P(U ≤ θ ≤ V)
= 1 − α.
À la différence de l'intervalle de fluctuation,
qui est déterministe et encadre avec une forte probabilité une variable aléatoire,
l'intervalle de confiance est aléatoire et encadre avec une forte probabilité un paramètre déterminé.
Si X est une variable aléatoire suivant une loi uniforme sur un intervalle [0 ; A], on a
0,95 = P(0,025A ≤ X ≤ 0,975A)
= P(X/0,975 ≤ A ≤ X/0,025)
donc l'intervalle X/0,975) ; X/0,025)
est un intervalle de confiance à 95 % autour de A.