Test d’indépendance avec khi-2

Principe

On se donne un tableau de contingence indiquant les effectifs pour chaque modalité croisée sur deux variables qualitatives, ou au moins des variables dont les modalités ont été rassemblées en un nombre réduit de classes, comme par exemple des intervalles.

Le calcul du khi-2 permet de tester l’hypothèse d’indépendance des deux variables. En cas de khi-2 important, on pourra rejeter l’hypothèse d’indépendance et conclure à l’existence d’un lien entre les variables avec une faible probabilité de se tromper. Sinon, on considère que la liaison entre les variables n’est pas significative, c’est-à-dire que l’hypothèse d’indépendance est vraisemblable (mais on ne dispose pas de probabilité de se tromper).

Méthode

On calcule un tableau d’effectifs théoriques à partir des effectifs totaux sur chaque ligne et chaque colonne. En notant ni,j l’effectif de la ligne i et la colonne j, on calcule n•,j = i ni,j l’effectif total de la colonne j et ni,• = j ni,j l’effectif total de la ligne i, puis on calcule l’effectif total n•,• = i ni,• = j n•,j et enfin l’effectif théorique n*i,j = n•,jni,•/n•,•.

À partir du tableau d’effectifs observés et du tableau d’effectifs théoriques, on calcule un troisième tableau de contributions au khi-2 s’écrivant (ni,jn*i,j)2/n*i,j. La valeur du khi-2, notée χ2, est alors la somme de toutes ces contributions. Le nombre de degrés de liberté est le produit (r − 1)(s − 1) si le tableau a r lignes et s colonnes.

Pour tester l’indépendance des deux variables en jeu, on consulte une table de loi du khi-2. Dans cette table, on cherche la ligne correspondant au nombre de degrés de liberté et la colonne correspondant au degré de confiance recherché. Par défaut, on prend souvent p = 0,95, c’est-à-dire q = 0,05.

Si la valeur mesurée du khi-2 est supérieure à celle indiquée par la table, on rejette l’hypothèse d’indépendance et on conclut à l’existence d’un lien entre les variables avec une probabilité inférieure à q de se tromper.

Si la valeur mesurée est inférieure, l’écart par rapport à la situation d’indépendance n’est pas significatif.

Le risque minimal à prendre lorsqu’on rejette l’hypothèse d’indépendance est la plus petite valeur de q, qui donne un khi-2 inférieur à celui de la mesure, sur la ligne du tableau avec le même nombre de degrés de liberté.

Programmation à la calculatrice

À la calculatrice, on peut rentrer les valeurs du tableau dans une matrice (par défaut la matrice [A], puis lancer un programme qui effectue les étapes suivantes.

  1. Calculer les dimensions du tableau.
    dim([A])→L6
    L6(1)→N
    L6(2)→P
    
  2. Calculer les effectifs en ligne et recoller les résultats à droite du tableau.
    {P,1}→dim([B])
    Remplir(1,[B])
    chaîne([A],[A]*[B])→[A]
    
  3. Calculer les effectifs en colonne et recoller les résultats en bas du tableau dans la matrice [B]. L’utilisation de la transposée permet la juxtaposition en bas plutôt qu’à droite.
    {1,N}→dim([B])
    Remplir(1,[B])
    chaîne([A]T,([A]*[B])T)T→[B]
    
  4. Supprimer la colonne des effectifs en ligne dans [A] et préparer une matrice [C] pour les contributions au khi-2, puis initialiser le khi-2 total à 0.
    {N,P}→dim([A])
    {N,P}→dim([C])
    0→X
    
  5. Parcourir toutes les lignes et toutes les colonnes de [A].
    For(I,1,N)
    For(J,1,P)
    
  6. Calculer l’effectif théorique dans la case (I,J) de la matrice [B].
    [B](I,P+1)*[B](N+1,J)/[B](N+1,P+1)→[B](I,J)
    
  7. Calculer la contribution au khi-2 dans la matrice [C] et cumuler dans la variable X.
    ([A](I,J)−[B](I,J))2/[B](I,J)→[C](I,J)
    [C](I,J)+X→X
    
  8. Fermer les deux boucles.
    End
    End
    
  9. Afficher les degrés de liberté.
    (N−1)*(P−1)→D
    Disp "DEGRES LIBERTE",D
    
  10. Afficher la valeur du khi-2.
    Disp "KHI-2",X
    
  11. Afficher la valeur du risque minimal.
    Disp "RISQUE SI REJET",1−χ2FRép(0,X,D)
    

À la fin du programme, en plus de l’affichage des données utiles, on dispose du tableau des effectifs théoriques dans la matrice [B] avec les effectifs totaux par ligne et par colonne, et le tableau des contributions au khi-2 dans la matrice [C].