Test de normalité avec khi-2

Il existe plusieurs tests d’adéquation à la loi normale pour une variable quantitative. On s’intéresse ici à la méthode du khi-2.

Principe

On dispose d’une distribution statistique en effectifs pour une variable quantitative par intervalles consécutifs. On regroupe éventuellement certains intervalles à chaque extrémité pour n’avoir que des effectifs supérieurs ou égaux à 5.

Le calcul du khi-2 permet de tester l’hypothèse d’adéquation à la loi normale en comparant les effectifs observés avec les effectifs théoriques. Le plus souvent, les paramètres de la loi sont calculés à partir du tableau, ce qui diminue le nombre de degrés de liberté et réduit ainsi la puissance du test. Si le khi-2 mesuré est faible, on accepte l’hypothèse de normalité, sans pour autant la justifier et sans estimation de la probabilité de se tromper. Sinon, on rejette l’hypothèse, c’est-à-dire que l’on considère que la variable suit une autre loi de probabilité.

Méthode

Si l’on note ni l’effectif associé à l’intervalle [ai−1, ai[, on calcule les centres des intervalles xi = ai−1 + ai/2 et l’effectif total N = i ni puis un estimateur de la moyenne μ = 1/N i ni xi et un estimateur de la variance σ2 = N/N − 1 (1/N i ni xi2μ2).

On normalise ensuite les intervalles avec la formule bi = aiμ/σ et on calcule la probabilité de chaque intervalle à l’aide d’une table de la loi normale pi = P(bi−1U < bi) = P(U < bi) − P(U < bi−1).

Les effectifs théoriques s’obtiennent alors avec la formule n*i = N × pi.

Comme dans le test d’indépendance, on calcule les contributions au khi-2 sous la forme (nin*i)2/n*i. La valeur du khi-2, notée χ2, est alors la somme de toutes ces contributions.

S’il y a r intervalles de valeurs dans le tableau et que d paramètres de la loi ont été calculés (pour la loi normale, d = 2), le nombre de degrés de liberté est au r − 1 − d.

On consulte enfin une table de loi du khi-2, dans laquelle on cherche la ligne correspondant au nombre de degrés de liberté et la colonne correspondant au degré de confiance recherché. Par défaut, on prend souvent p = 0,95, c’est-à-dire q = 0,05.

Si la valeur mesurée du khi-2 est supérieure à celle indiquée par la table, on rejette l’hypothèse de normalité avec une probabilité inférieure à q de se tromper.

Si la valeur mesurée est inférieure, on considère que l’écart à la normalité n’est pas significatif au vu des données.

Le risque minimal à prendre lorsqu’on rejette l’hypothèse d’indépendance est la plus petite valeur de q qui donne un khi-2 inférieur à celui de la mesure, sur la ligne du tableau avec le même nombre de degrés de liberté.

Programmation à la calculatrice

À la calculatrice, on peut rentrer les bornes des intervalles dans une liste L1 et rentrer les effectifs dans la liste L2 (menu Stats).

Le programme ci-dessous est conçu pour une distribution où le premier intervalle est minoré. La première valeur de la liste L1 est donc la borne inférieure du premier intervalle, tandis que la seconde valeur est sa borne supérieure (et donc la borne inférieure du second intervalle). La première valeur de la liste L2 est l’effectif correspondant au premier intervalle.

  1. Calculer le nombre d’intervalles et rajouter une borne fictive au-delà de la dernière au cas où le dernier intervalle est non borné.
    dim(L2)→R
    If dim(L1)=R
    2∗L1(R)−L1(R−1)→L1(R+1)
    
  2. Calculer l’effectif total
    somme(L2)→N
    
  3. Calculer la liste des effectifs cumulés et les quartiles et médiane (facultatif).
    somCum(L2)→L3
    1→I
    0→F
    0→dim(L4)
    For(Q,1,3)
    N/4+F→F
    While L3(I)<F
    I+1→I
    End
    L1(I+1)+(F−L3(I))/L2(I)∗(L1(I+1)−L1(I))→L4(Q)
    End
    Disp "QUARTILES"
    Pause L4
    L4→Q
    
  4. Calculer la liste des centres des intervalles, la moyenne et l’estimateur de l’écart type.
    suite((L1(I)+L1(I+1))/2,I,1,R+1)→L3
    somme(suite(L3(I)∗L2(I),I,1,R))/N→M
    √((somme(suite(L3(I)2∗L2(I),I,1,R))−M2∗N)/(N−1))→S
    
  5. Calculer la liste des probabilités théoriques
    suite(normalFRép(L1(I),L1(I+1),M,S),I,1,R)→L4
    
  6. Calculer les effectifs théoriques associés à chaque intervalle.
    N∗L4→L5
    
  7. Calculer les contributions au khi-2.
    suite((L5(I)−L2(I))2/L5(I),I,1,R)→L6
    
  8. Afficher le nombre de degrés de liberté
    Disp "DEGRES LIBERTE",R−3
    
  9. Afficher la valeur du khi-2.
    somme(L6)+N∗(1−somme(L4))→X
    Disp "KHI-2",X
    
  10. Afficher la valeur du risque minimal.
    Disp "RISQUE SI REJET",1−χ2FRép(0,X,R−3)
    

À la fin du programme, en plus de l’affichage des données utiles, on dispose de la liste des valeurs centrales, de la liste des probabilités, de la listes des effectifs théoriques et de la liste des contributions au khi-2.

Pour éliminer les intervalles non bornés aux extrémités, il arrive que l’on rassemble leur probabilité avec celle du premier et du dernier intervalle. On rajoute alors deux lignes d’instruction après le calcul des probabilités théoriques :
0.5−normalFRép(L1(2),0,M,S)→L4(1)
0.5−normalFRép(0,L1(R),M,S)→L4(R)
Et on transforme le calcul du khi-2 en
somme(L6)→X