Site FMPMC
     Page précédentePage suivanteSommaireVersion imprimable
   
 

Biostatistique

Sommaire

Avant-propos

Introduction

1 - Statistique(s) et Probabilité(s)

2 - Rappels mathématiques

3 - Eléments de calcul des Probabilités

4 - Probabilité Conditionnelle ; Indépendance et Théorème de Bayes

5 - Evaluation de l’intérêt diagnostique des informations médicales

6 - Variables aléatoires

7 - Exemples de distributions

8 - Statistiques descriptives

9 - Etude de la variable aléatoire moyenne expérimentale

10 - Estimation - Intervalle de confiance

11 - Les tests d’hypothèses. Principes

12 - Quelques tests usuels

13 - Tests concernant des variables qualitatives

14 - Liaison entre deux variables continues : notion de corrélation

15 - Méthodologie des études épidémiologiques

A - Tables statistiques


Tous droits de reproduction réservés aux auteurs


traduction HTML V2.8
V. Morice


Chapitre 13 - Tests concernant des variables qualitatives

 

13.1 - Comparaison d’une répartition observée à une répartition donnée ou test du χ2 d’ajustement

 

Supposons que l’on souhaite savoir si la répartition de la couleur des cheveux dans la population des habitants du département  A diffère de la répartition de la couleur des cheveux dans la population française, cette dernière répartition étant supposée donnée. Supposons qu’il y ait  k couleurs répertoriées. On est alors amené à considérer une variable qualitative à  k modalités. Notons φi la probabilité de survenue de l’événement « la  ième modalité est observée ».

Exemple :

φ1 = probabilité qu’un individu tiré au hasard dans le département A ait les cheveux blonds

φ2 = probabilité qu’un individu tiré au hasard dans le département A ait les cheveux bruns

etc...

Notons par ailleurs φhi la proportion « vraie » de la modalité i dans la population française.

On s’apprête à réaliser une expérience sur  n individus à l’issue de laquelle on disposera d’un ensemble de Oi (Oi = nombre d’individus présentant la modalité i du caractère étudié, parmi les individus de l’échantillon).

13.1.1 Les étapes de mise en œuvre

  1. Les hypothèses en présence

    Deux hypothèses sont en présence :
    1. la répartition « vraie » de la variable dans la population étudiée coïncide avec la répartition donnée (hypothèse nulle H0)
    2. les répartitions diffèrent (hypothèse alternative H1)

    Avec les notations précédemment introduites, cela s’écrit :

    H0 : hypothèse nulle : φi = φhi pour tous les i de 1 à k.
    H1 : hypothèse alternative : φi ≠ φhi pour au moins une modalité, c’est-à-dire pour au moins un i.
  2. Construction du paramètre

    On a déjà mis en place ce test dans le cas d’une variable (0 - 1) c’est-à-dire d’une variable à deux modalités. Dans ce cas, les hypothèses en présence étaient bien du type ci-dessus c’est-à-dire
    H0 : φ = φh1 et 1 - φ = φh2 = 1 - φh1

    ce qui s’écrit avec les nouvelles notations :
    φ1 = φh1 et φ2 = 1 - φh1

    Mais on n’avait retenu que la condition φ = φh1 (en fait φ = φ0) car dans ce cas les deux conditions ci-dessus sont redondantes.
    Le paramètre calculé retenu était :

    Image graphique522507.trsp.gif


    Calculons son carré

    Image graphique523508.trsp.gif


    Image graphique524509.trsp.gif


    Or np = nombre d’individus observés présentant la valeur 1 c’est-à-dire la modalité 1 de la variable ; or sous H0 la probabilité de cette modalité est φh1. On s’attend donc à observer nφh1 individus présentant cette valeur. Ce nombre d’individus attendu s’appellera effectif attendu ou calculé de la première modalité et sera noté A1.
    De la même façon, n(1 - p) = nombre d’individus observés présentant la valeur 0 c’est-à-dire la modalité 2 de la variable ; or sous H0 la probabilité de cette modalité est φh2 = 1 - φh1. On s’attend donc à observer nφh2 individus présentant cette valeur. Ce nombre d’individus attendu s’appellera effectif attendu ou calculé de la seconde modalité et sera noté  A2.

    D’où Image graphique525510.trsp.gif

    où les Oi représentent les effectifs observés dans les différentes modalités, les  Ai représentent les effectifs nφhi dits prévus ou calculés ou ATTENDUS dans les différentes modalités.

    GENERALISATION
    Lorsque les variables considérées ont plus de deux modalités, on généralise le calcul ci-dessus et on retient le paramètre suivant :

    Image graphique526511.trsp.gif

    où la somme s’étend à toutes les k modalités de la variable.
    On rappelle que les Oi sont les effectifs observés, et que les Ai valent nφhi.

    On remarque que Q chiffre l’écart entre ce qui est prévu par l’hypothèse H0 et ce qui est obtenu ; cet écart se fonde naturellement sur les différences Oi - nφhi car nφhi est le nombre attendu d’individus présentant la modalité i.

    Exemple : si φhi = 0,4, sur 100 individus on en attend 40 présentant la modalité i. C’est le nombre que l’on aurait si la distribution d’échantillonnage coïncidait avec la distribution hypothétique.

    Par ailleurs on a pu montrer (résultat dû à Pearson) que sous H0 (et si tous les Ai ≥ 5) ce paramètre a une distribution qui ne dépend que du nombre de modalités, k. Cette distribution porte le nom de DISTRIBUTION DE χ2.

    Si bien que l’on peut former - grâce encore à une table - un intervalle de pari de niveau donné relatif à cette variable.

    RETENONS :
    CONDITIONS DE VALIDITE : TOUS LES Ai DOIVENT ETRE AU MOINS EGAUX A 5
  3. Intervalle de pari
    α étant choisi (0,05), construction de l’intervalle de pari Image graphique527512.trsp.gif
    La variable χ2 a l’allure présentée figure 13. On remarque qu’il serait stupide de choisir l’intervalle de pari centré dessiné sur cette figure car alors des valeurs numériques voisines de zéro pour la valeur Qc du paramètre Q seraient dans la région critique du test ; or des valeurs proches de zéro sont plutôt compatibles avec H0 d’où le choix suivant (voir figure 14) :

    Image graphique528513.trsp.gif

    C’est cette valeur, notée Image graphique529514.trsp.gif qui est lisible directement dans une table.

    Remarque : notez que cet intervalle, bien que non symétrique autour de la moyenne, respecte la définition d’un intervalle de pari donnée section 9.4.1.
    Image chi2ip1.trsp.gif
    Figure 13 : distribution de χ2

    Image chi2ip2.trsp.gif
    Figure 14 : distribution de χ2

    Usage de la table
    Cette table comporte - comme celle du t de Student - une entrée entière appelée nombre de degrés de liberté (ddl). On montre que pour le test envisagé ici
    nombre de degrés de liberté = nombre de modalités - 1



    Exemple : K5;0,05 (5 ddl, si 6 modalités) = 11,07

    La suite de la mise en place de ce test est usuelle.
  4. Règle de décision

    Si Image graphique532515.trsp.gif on ne conclut pas

    Si Image graphique533516.trsp.gif H0 est rejetée. Cela signifie que l’on conclut que la répartition du caractère étudié (par exemple la couleur des cheveux dans le département  A) ne coïncide pas - ou ne s’ajuste pas - avec la répartition donnée (par exemple la répartition de la couleur des cheveux dans la population française). On admet, en formulant cette conclusion, un risque d’erreur égal à  α.
  5. Recueil des données et conclusion

    Exemple numérique : le tableau ci-dessous présente une application numérique de l’exemple considéré.
      couleur des cheveux
    blonds bruns roux total
    effectifs observés
    (Oi)
    25 9 3 37
    (n)
    effectifs attendus
    (Ai = nφhi)
    14,8 11,1 11,1 37
    répartition donnée
    hi)
    0,4 0,3 0,3 1


    Les conditions de validité sont vérifiées (Ai ≥ 5).

    On obtient ici :

    Image graphique534517.trsp.gif

    On sait que Q est distribué selon un χ2 à (3-1) degrés de liberté ; on lit dans la table :
    K2;0,05 = 5,99.

    Ainsi, la valeur calculée n’appartient pas à l’intervalle de pari : on conclut que la répartition du caractère ne coïncide pas avec la répartition donnée.

     Page précédentePage suivanteSommaireVersion imprimable
   
 
13.1 - Comparaison d’une répartition observée à une répartition donnée ou test du χ2 d’ajustement
13.2 - Comparaison de plusieurs répartitions observées ou test du χ2 d’homogénéité
13.3 - Test d’indépendance entre deux variables qualitatives
Résumé du chapitre
13.1.1 - Les étapes de mise en œuvre
13.1.2 - Cas particulier : variable à deux modalités