Site FMPMC
     Page précédentePage suivanteSommaireVersion imprimable
   
 

Biostatistique

Sommaire

Avant-propos

Introduction

1 - Statistique(s) et Probabilité(s)

2 - Rappels mathématiques

3 - Eléments de calcul des Probabilités

4 - Probabilité Conditionnelle ; Indépendance et Théorème de Bayes

5 - Evaluation de l’intérêt diagnostique des informations médicales

6 - Variables aléatoires

7 - Exemples de distributions

8 - Statistiques descriptives

9 - Etude de la variable aléatoire moyenne expérimentale

10 - Estimation - Intervalle de confiance

11 - Les tests d’hypothèses. Principes

12 - Quelques tests usuels

13 - Tests concernant des variables qualitatives

14 - Liaison entre deux variables continues : notion de corrélation

15 - Méthodologie des études épidémiologiques

A - Tables statistiques


Tous droits de reproduction réservés aux auteurs


traduction HTML V2.8
V. Morice


Chapitre 13 - Tests concernant des variables qualitatives

 

13.2 - Comparaison de plusieurs répartitions observées ou test du χ2 d’homogénéité

 

On reprend l’exemple précédent concernant la répartition de la couleur des cheveux mais sans plus supposer que l’une de ces répartitions est connue ; il s’agit par exemple des répartitions de ce caractère dans deux départements. On souhaite donc comparer deux répartitions observées. Pour cela, on s’apprête à réaliser une expérience mettant en jeu deux échantillons, un échantillon de  n1 individus issu de la population des habitants du département 1, et un échantillon de  n2 individus issu de la population des habitants du département 2. A l’issue de cette expérience on disposera d’un ensemble d’effectifs observés, notés de la façon suivante :

  • O1i est le nombre d’individus du premier échantillon présentant la modalité  i de la variable.
  • O2i est le nombre d’individus du second échantillon présentant la modalité  i de la variable.

Le test se met en place de la façon suivante :

  1. Les hypothèses en présence

    H0 : les répartitions « vraies » de la variable sont identiques dans les deux populations
    H1 : les répartitions « vraies » sont différentes

    Ces hypothèses se schématisent par :

    H0 : φ1i = φ2i pour toutes les modalités i.
    H1 : φ1i ≠ φ2i pour au moins une modalité i.
  2. Construction du paramètre

    C’est encore ici le point délicat. La solution ressemble dans son approche à celle du problème de la comparaison de deux pourcentages. Clé du principe : on mélange les deux populations pour calculer une pseudo-répartition théorique. On se retrouve alors pratiquement dans la situation du paragraphe précédent. Cela se verra mieux sur un exemple. On va faire, pour des raisons de simplicité de calcul, une petite entorse à notre façon de procéder, et directement évaluer le paramètre dont on connaît la loi.
    1. On construit ce que l’on appelle un tableau de contingence qui contient les résultats expérimentaux.
      On a procédé à une expérience portant sur 37 individus issus de la population 1 et 40 individus issus de la population 2. Les résultats sont les suivants :
      Tableau 4 : effectifs observés (O1i et O2i)
        blonds bruns roux nombre total
      échantillon 1 25 9 3 37 = n1
      échantillon 2 13 17 10 40 = n2

    2. On construit une pseudo-répartition de référence, en mélangeant les résultats expérimentaux, c’est-à-dire en oubliant leur origine (population 1 ou population 2).
      On obtient les résultats suivants, en termes d’effectifs (première ligne), puis en termes de fréquences (deuxième ligne).
      Tableau 5 : répartition de « référence »
        blonds bruns roux nombre total
      mélange 38 26 13 77
      fréquences 38/77 = 0,49 26/77 = 0,34 13/77 = 0,17  

      Ces trois fréquences, 0,49, 0,34, 0,17, vont jouer maintenant le rôle des probabilités hypothétiques φhi de la section 13.1. Pour la commodité de l’écriture, on les note respectivement p1, p2, p3.
    3. On forme le tableau des effectifs attendus.
      Si l’hypothèse nulle est juste, c’est-à-dire si les répartitions de la couleur des cheveux coïncident dans les deux départements, on s’attend à trouver des effectifs calculés comme suit :
      effectif attendu pour la modalité i (modalité 1 = blond, modalité 2 = brun, modalité 3 = roux) dans l’échantillon j (j = 1 ou 2) : nj multiplié par pi
      Par exemple le nombre attendu d’individus bruns dans l’échantillon de la première population est : 37 × 0,34 = 12,6.

      En effectuant systématiquement ces calculs, on obtient le tableau des EFFECTIFS ATTENDUS.
      Tableau 6 : effectifs attendus (A1i et A2i)
        blonds bruns roux
      échantillon 1 18,1 (n1p1) 12,6 (n1p2) 6,3 (n1p3)
      échantillon 2 19,6 (n2p1) 13,6 (n2p2) 6,8 (n2p3)

    4. On calcule finalement le paramètre du test
      On montre que le paramètre adapté à ce test est :

      Image graphique538521.trsp.gif

      k demeure le nombre de modalités de la variable.

      On a souvent recours à une expression plus compacte de l’expression ci-dessus et on écrit :

      Image graphique539522.trsp.gif

      MAIS ICI LA SOMMATION S’ETEND A TOUTES LES CASES DES TABLEAUX, numérotées grâce à l’indice j.
      Exemple : dans l’exemple traité il s’agira donc de calculer une somme de 6 termes.

      On montre que, si H0 est vraie, Q est distribué comme un χ2 à (3 - 1) × (2 - 1) degrés de liberté [3 est le nombre de modalités, et 2 le nombre de répartitions]
      La VALIDITE de ce résultat suppose que tous les effectifs attendus Aj soient au moins égaux à 5.

    GENERALISATION

    Les calculs ci-dessus se généralisent à un nombre quelconque de modalités  k, à un nombre quelconque de populations m.
    Le paramètre Q à calculer a alors la forme ci-dessus, où la somme comprend  k×m termes.
    La distribution de Q, sous H0 est alors un χ2 à (k - 1)×(m - 1) degrés de liberté.
    Les conditions de validité du test sont : Aj ≥ 5, 1 ≤ jkm
  3. La suite des étapes de mise en œuvre est classique.

    La valeur observée de Q, notée Qc, sera comparée à la valeur Kddl;0,05 :
    • si Image graphique540523.trsp.gif on ne conclut pas. Il n’est pas démontré que les deux répartitions « vraies » diffèrent.
    • si Image graphique541524.trsp.gif on conclut que les deux répartitions observées diffèrent significativement.

    Suite de l’exemple : on obtient :

    Image graphique542525.trsp.gif

    soit : Image graphique543526.trsp.gif

    Or : K2;0,05 = 5,99 rejet de H0. Les répartitions observées de la couleur des cheveux diffèrent significativement dans les deux populations.

    Remarque 1 : Ce test s’appelle aussi test du χ2 d’homogénéité de plusieurs répartitions.

    Remarque 2 : Cas particulier de deux variables à deux modalités : dans le cas où l’on considère deux variables à deux modalités, c’est-à-dire dans le cas où le tableau de contingence est à deux lignes et deux colonnes, on observe que le problème se réduit à un problème de comparaison de deux proportions observées. On montre que, dans ce cas, la valeur de Q coïncide avec le carré de la valeur de Z, Z étant le paramètre formé pour comparer directement ces proportions (voir chapitre 12).

     Page précédentePage suivanteSommaireVersion imprimable
   
 
13.1 - Comparaison d’une répartition observée à une répartition donnée ou test du χ2 d’ajustement
13.2 - Comparaison de plusieurs répartitions observées ou test du χ2 d’homogénéité
13.3 - Test d’indépendance entre deux variables qualitatives
Résumé du chapitre