Site FMPMC
     Page précédentePage suivanteSommaireVersion imprimable
   
 

Biostatistique

Sommaire

Avant-propos

Introduction

1 - Statistique(s) et Probabilité(s)

2 - Rappels mathématiques

3 - Eléments de calcul des Probabilités

4 - Probabilité Conditionnelle ; Indépendance et Théorème de Bayes

5 - Evaluation de l’intérêt diagnostique des informations médicales

6 - Variables aléatoires

7 - Exemples de distributions

8 - Statistiques descriptives

9 - Etude de la variable aléatoire moyenne expérimentale

10 - Estimation - Intervalle de confiance

11 - Les tests d’hypothèses. Principes

12 - Quelques tests usuels

13 - Tests concernant des variables qualitatives

14 - Liaison entre deux variables continues : notion de corrélation

15 - Méthodologie des études épidémiologiques

A - Tables statistiques


Tous droits de reproduction réservés aux auteurs


traduction HTML V2.8
V. Morice


Chapitre 13 - Tests concernant des variables qualitatives

 

13.3 - Test d’indépendance entre deux variables qualitatives

 

Reprenons l’exemple précédent et supposons que les populations 1 et 2, plutôt que de correspondre à des individus habitant le département 1 et le département 2, soient en fait :

  • population 1 : population des individus ayant les yeux bleus
  • population 2 : population des individus ayant les yeux verts

La question que l’on aurait résolue dans le paragraphe précédent aurait été :

la répartition de la couleur des cheveux diffère-t-elle dans les populations d’individus aux yeux bleus ou verts. Ou encore, la répartition de la couleur des cheveux diffère-t-elle selon la couleur des yeux ? Autrement dit : la variable couleur des cheveux dépend-elle statistiquement de la variable couleur des yeux ?

Maintenant supposons que l’on veuille répondre à cette question. Plutôt que de prendre un échantillon de la population des individus aux yeux bleus et un autre échantillon issu de la population des individus aux yeux verts, autant prendre un échantillon de la population générale (c’est-à-dire quelle que soit la couleur de ses yeux) et observer conjointement la couleur des cheveux et la couleur des yeux. Vues comme cela, les deux variables jouent bien des rôles symétriques et le problème est donc de mettre à l’épreuve leur indépendance.

  1. Les hypothèses en présence.

    On formule naturellement deux hypothèses :
    Hypothèse H0
    les deux variables étudiées (couleur des cheveux, couleur des yeux) sont indépendantes. Sous cette hypothèse, le fait d’avoir observé chez un individu la couleur de ses cheveux (respectivement la couleur de ses yeux) n’apporte aucune information sur la couleur de ses yeux (respectivement la couleur de ses cheveux).
    On pourra se reporter au chapitre 6 dans lequel ont été commentées ces notions d’indépendance.
    On notera que, comme dans tous les cas rencontrés jusqu’ici, cette hypothèse est une hypothèse fine qui engage un ensemble d’égalités.
    En effet, on sait que l’indépendance s’exprime par :
    Pr(la modalité de la couleur des cheveux est  l et la modalité de la couleur des yeux est c) = Pr(la modalité de la couleur des cheveux est  l) × Pr(la modalité de la couleur des yeux est c), et ceci pour tous les choix possibles de l et c.

    Remarque : on pourra vérifier que parmi les (nombre de modalités de la couleur des cheveux × nombre de modalités de la couleur des yeux) égalités qui en résultent, certaines sont redondantes, et que (nombre de modalités de la couleur des cheveux - l) × (nombre de modalités de la couleur des yeux - 1) égalités suffisent à exprimer les mêmes conditions.
    Hypothèse H1
    les deux variables étudiées ne sont pas indépendantes.
    Cette hypothèse exprime le contraire de H0.

    TRES IMPORTANT (des erreurs sont souvent commises)
    HYPOTHESE NULLE : LES DEUX VARIABLES SONT INDEPENDANTES
    HYPOTHESE ALTERNATIVE : LES DEUX VARIABLES SONT LIEES

  2. Le paramètre du test

    Le paramètre est encore Q, et s’exprime exactement comme précédemment, c’est-à-dire :

    Image graphique544527.trsp.gif

    Ici le nombre de cases du tableau de contingence est égal au produit du nombre de modalités de la première variable et du nombre de modalités de la seconde variable.
    Les effectifs attendus s’obtiennent exactement comme dans le cas du paragraphe précédent, ainsi qu’on peut le voir sur l’exemple numérique ci-dessous.

    Un exemple numérique
    Le tableau ci-dessous montre un exemple de tableau de contingence (D. Schwartz, Méthodes statistiques à l’usage des médecins et des biologistes, Flammarion (collection statistique en biologie et médecine), 3e édition, p79) ; cet exemple est similaire aux précédents, si ce n’est que l’on a considéré un plus grand nombre de modalités pour la variable couleur des cheveux, et que la nouvelle variable introduite (couleur des yeux) comporte trois modalités. Ces modalités remplacent les échantillons considérés dans la section 13.2. Ainsi, la modalité « bleu » par exemple peut être lue : « échantillon issu de la population des individus aux yeux bleus ». La taille de cet échantillon n’est cependant plus maîtrisée.
    Couleur des yeux Couleur des cheveux fréquence
      blonds bruns roux noirs total  
    bleus 25 9 7 3 44 44/124
    gris 13 17 7 10 47 47/124
    marrons 7 13 5 8 33 33/124
    total 45 39 19 21 124  
    fréquence 45/124 39/124 19/124 21/124 124/124  


    Les effectifs attendus s’obtiennent comme précédemment. Ainsi, l’effectif attendu relatif au couple « blonds, marrons » sera : 45/124×33/124×124 = 11,9.

    REMARQUES
    1. Pour alléger les calculs, on peut remarquer que l’effectif attendu relatif à la cellule localisée ligne l, colonne c est égal au rapport
      • du produit du total de la ligne l et du total de la colonne c,
      • et du total général.
    2. La somme des effectifs attendus, soit en ligne, soit en colonne, coïncide avec les mêmes sommes sur les effectifs observés. Cette remarque permet une vérification partielle des calculs.
    3. Dans la présentation des calculs, on a procédé au « mélange » des résultats sans plus tenir compte de la couleur des yeux (ce qui conduit à sommer les lignes du tableau). On peut de façon équivalente mélanger les résultats expérimentaux sans plus tenir compte de la couleur des cheveux, ce qui conduira à sommer les colonnes du tableau de contingence pour obtenir la répartition de référence. On pourra vérifier que les résultats du calcul sont strictement les mêmes, ce que l’on attend compte tenu du rôle symétrique joué par les deux variables étudiées.

    SOUS L’HYPOTHESE NULLE D’INDEPENDANCE entre les deux variables, Q EST DISTRIBUE SELON un χ2 à :
    (nombre de modalités de la première variable - 1) × (nombre de modalités de la seconde variable - 1)
    DEGRES DE LIBERTE.
     
    Les CONDITIONS DE VALIDITE sont encore : Aj ≥ 5.

  3. La suite des étapes est habituelle

    En particulier, la règle de décision s’établit comme suit :
    • si la valeur calculée de Q, notée Qc, est inférieure à Image graphique545528.trsp.gif, on ne rejette pas l’hypothèse d’indépendance des deux variables.
    • si la valeur calculée Qc est supérieure à Image graphique546529.trsp.gif, on rejette l’hypothèse d’indépendance des deux variables. On dira alors que les deux variables sont liées, au risque α.

    Exemple :
    Dans l’exemple ci-dessus, la valeur de Qc, résultant de la sommation de 12 termes, est 15,1.
    Le nombre de degrés de liberté est : (4 - 1)×(3 - 1) = 6, la valeur de Image graphique547530.trsp.gif associée étant 12,6 (lue dans une table). On rejette donc ici l’hypothèse d’indépendance : couleur des cheveux et couleur des yeux sont liées, ou encore sont dépendantes. Voyons une illustration de cette dépendance. Sur la base des données observées on a :
    Pr(yeux bleus) = 44/124 = 0,35
    Pr(yeux bleus / cheveux blonds) = 25/45 = 0,56
    La connaissance de la couleur des cheveux (ici la modalité « blond ») modifie la répartition de la couleur des yeux (ici la fréquence de la modalité « bleu » qui évolue de 0,35 à 0,56). Le test indique que cette modification est significative. En réalité la valeur de  Qc ci-dessus chiffre dans leur ensemble les différences entre Pr(A / B) et Pr(A), c’est-à-dire les écarts de Pr(A et B) par rapport au produit Pr(A)Pr(B), où A est un événement relatif à la couleur des yeux et B un événement relatif à la couleur des cheveux.

     Page précédentePage suivanteSommaireVersion imprimable
   
 
13.1 - Comparaison d’une répartition observée à une répartition donnée ou test du χ2 d’ajustement
13.2 - Comparaison de plusieurs répartitions observées ou test du χ2 d’homogénéité
13.3 - Test d’indépendance entre deux variables qualitatives
Résumé du chapitre