Site FMPMC
     Page précédentePage suivanteSommaireVersion imprimable
   
 

Biostatistique

Sommaire

Avant-propos

Introduction

1 - Statistique(s) et Probabilité(s)

2 - Rappels mathématiques

3 - Eléments de calcul des Probabilités

4 - Probabilité Conditionnelle ; Indépendance et Théorème de Bayes

5 - Evaluation de l’intérêt diagnostique des informations médicales

6 - Variables aléatoires

7 - Exemples de distributions

8 - Statistiques descriptives

9 - Etude de la variable aléatoire moyenne expérimentale

10 - Estimation - Intervalle de confiance

11 - Les tests d’hypothèses. Principes

12 - Quelques tests usuels

13 - Tests concernant des variables qualitatives

14 - Liaison entre deux variables continues : notion de corrélation

15 - Méthodologie des études épidémiologiques

A - Tables statistiques


Tous droits de reproduction réservés aux auteurs


traduction HTML V2.8
V. Morice


Chapitre 11 - Les tests d’hypothèses. Principes

 

11.2 - Principe général des tests d’hypothèses

11.2.3 - Justification des conclusions du test. Puissance d’un test

 

On comprend maintenant la partie de la règle de décision conduisant au rejet de H0 lorsque la valeur calculée du paramètre n’appartient pas à l’intervalle de pari. On a par ailleurs indiqué (voir l’étape 4 de mise en œuvre des tests) que lorsque la valeur calculée du paramètre appartient à l’intervalle de pari, c’est-à-dire lorsque les résultats expérimentaux ne sont pas contradictoires avec l’hypothèse nulle, on s’exprime avec beaucoup de précautions oratoires puisqu’on demande de dire : « on ne conclut pas » ou « on ne rejette pas l’hypothèse nulle ». Pourquoi ne pas affirmer plus directement « l’hypothèse nulle est vraie » ?

Premier élément
En faisant cela, on adopte une démarche qui s’apparente à la démarche scientifique qui consiste à admettre une théorie jusqu’à la preuve de son échec. Lorsque l’on dit « admettre » on ne signifie pas que la théorie est vraie mais qu’elle rend compte pour l’instant - jusqu’à plus ample informé - des expériences.

Exemples
  • la mécanique générale admise jusqu’à la théorie de la relativité
  • la mécanique céleste
Second élément
Supposons que l’on mette en parallèle les deux tests suivants :
H0 : φ = 0,2 H0 : φ = 0,200001
H1 : φ ≠ 0,2 H1 : φ ≠ 0,200001


Les paramètres calculés, soit
Image graphique453440.trsp.gif


seront extrêmement voisins, donc les conclusions pratiquement toujours les mêmes.

Considérons alors une expérience au cours de laquelle Image graphique454441.trsp.gif pour les deux valeurs calculées. Peut-on conclure à la fois φ = 0,2 et φ = 0,200001 ? Pourtant on peut remarquer qu’il n’y a pas de vice de fond au niveau de la formulation des hypothèses car il existe bien une valeur « vraie », c’est-à-dire qu’il y a vraiment une hypothèse vraie du type φ = quelque chose.

On retient : les tests ne sont pas faits pour « démontrer » H0, mais pour la rejeter.
Cela ne veut pas dire que l’on est toujours content de rejeter H0.

Exemples
  • cas des souris traitées. Là on aimerait probablement rejeter H0, c’est-à-dire conclure à l’activité du traitement.
  • cas d’un test d’homogénéité. On vous livre un nouveau lot de souris ou des souris d’un autre élevage. Vous voulez continuer vos recherches. La première chose à faire est de tester l’hypothèse selon laquelle ces nouvelles souris sont similaires aux précédentes vis-à-vis du taux de cancer, H0 : φ = 0,2. Mais là vous espérez bien ne pas rejeter H0. C’est à cette condition que vous pouvez continuer.
PUISSANCE D’UN TEST
Revenons à la conclusion « l’activité du traitement n’est pas démontrée ». Sous entendu compte tenu de l’expérience effectuée. Cela n’a de sens de s’exprimer comme cela que s’il est pensable qu’une autre expérience, plus complète par exemple, puisse montrer cette efficacité si elle existe.
C’est le cas, en effet. L’aptitude d’un test à rejeter l’hypothèse nulle alors qu’elle est fausse est limitée. Précisément :

On appelle PUISSANCE D’UN TEST P la probabilité de rejeter l’hypothèse nulle, face à une hypothèse alternative, alors qu’elle est fausse.

La valeur complémentaire à 1 de cette puissance, c’est-à-dire la probabilité de ne pas rejeter l’hypothèse nulle alors que l’hypothèse alternative est vraie, s’appelle le RISQUE DE DEUXIEME ESPECE et se note conventionnellement β : β = 1 - P.

Le calcul de la puissance d’un test est une opération complexe. La difficulté tient essentiellement au fait que l’hypothèse alternative est vague. Pour contourner cette difficulté et apprécier plus étroitement cette notion de puissance, considérons le cas d’une hypothèse alternative fine. Par exemple, reprenant l’exemple des souris, supposons que l’hypothèse H1 soit φ = 0,3, l’hypothèse H0 restant inchangée, c’est-à-dire φ = 0,2. Dans ces conditions, il est possible de calculer la distribution de la proportion observée, non plus seulement sous l’hypothèse nulle, mais également sous l’hypothèse alternative. On obtient :
  • sous l’hypothèse nulle (φ = 0,2) : Image graphique455442.trsp.gif
  • sous l’hypothèse alternative (φ = 0,3) : Image graphique456443.trsp.gif

Image normbet1.trsp.gif
Figure 11 : risque de deuxième espèce d’un test

La figure 11 présente les deux distributions correspondantes, pour une certaine valeur de  n. Supposons alors juste l’hypothèse H1 ; la valeur observée p sera issue de la distribution de droite, et l’on conclura à tort au non rejet de H0 avec une probabilité égale à l’aire grisée, puisque cette aire est la probabilité pour que la valeur observée appartienne à l’intervalle de pari associé au test, sachant que cette valeur observée est gouvernée par la distribution associée à H1. Ainsi la valeur de cette aire grisée exprime le risque de deuxième espèce β, son complémentaire à 1 la puissance du test.
Supposons pour fixer les idées que la valeur de cette aire soit 0,4. Cela signifie que si les hypothèses sont φ = 0,2 et φ = 0,3, on aura « 6 chances sur dix » seulement de rejeter l’hypothèse φ = 0,2 lorsque φ sera égal à 0,3. Autrement dit, 4 fois sur dix, on sera incapable de détecter que φ vaut 0,3 et non 0,2.
Image normbet2.trsp.gif
Figure 12 : risque de deuxième espèce d’un test

Par ailleurs, on perçoit que plus les hypothèses H0 et H1 sont contrastées (par exemple les hypothèses φ = 0,2, φ = 0,4 sont plus contrastées que les hypothèses φ = 0,2, φ = 0,3), plus les distributions de Pn sous ces deux hypothèses sont « éloignées », et plus la puissance est grande. C’est la raison pour laquelle on dit souvent que la notion de puissance est proche de la notion de pouvoir discriminant entre hypothèses.

La figure 12 reproduit les conditions de la figure 11, mais avec une valeur de  n accrue. Autrement dit le même test est mis en œuvre, mais sur un nombre d’unités statistiques supérieur. On constate sur cette figure que le risque de deuxième espèce est très faible. Ce résultat est général :

TOUTES CHOSES EGALES PAR AILLEURS, LA PUISSANCE D’UN TEST AUGMENTE AVEC LA TAILLE DE L’ECHANTILLON

Remarque
Les calculs de puissance ébauchés ci-dessus, joints au résultat précédent, permettent de répondre à des questions du type :
  • combien de sujets est-il nécessaire d’inclure dans un essai pour avoir de bonnes chances (9 chances sur dix par exemple) de mettre en évidence une différence entre proportions « vraies » d’au moins 0,1 ?
  • si je dispose de 100 sujets, quelle différence minimum entre proportions « vraies » suis-je capable de détecter avec une probabilité de 0,9 ?

Des formules de la relation entre puissance et taille des échantillons seront données dans le chapitre 12.
Les développements ci-dessus montrent que lorsque vous n’avez pas rejeté l’hypothèse nulle, vous pouvez toujours dire que c’est un manque de puissance du test puisque H0 est sans doute fausse (pensons à φ = 0,2 exactement). On peut donc dire qu’avec un plus grand nombre d’individus vous auriez rejeté H0. Cela justifie l’expression « l’activité du traitement n’est pas démontrée ».
Cependant il faut être réaliste : reprenons l’exemple des souris traitées ou non traitées. Vous avez réalisé votre expérience sur un échantillon de 1000 souris. Résultat du test : non rejet de H0 c’est-à-dire l’activité n’est toujours pas démontrée. Il n’est pas raisonnable dans ces conditions d’évoquer un manque de puissance du test ; ce résultat suggère plutôt une très faible activité du traitement, si elle existe.

     Page précédentePage suivanteSommaireVersion imprimable
   
 
11.1 - Un exemple concret (emprunté à Schwartz)
11.2 - Principe général des tests d’hypothèses
11.3 - Rappels et précisions
Résumé du chapitre
11.2.1 - Les étapes de mises en œuvre
11.2.2 - Justification de la règle de décision. Choix de α
11.2.3 - Justification des conclusions du test. Puissance d’un test
11.2.4 - Amélioration de l’interprétation du rejet de H0