5.3 - Estimation des paramètres de l’évaluation
5.3.1 Un échantillon représentatif
5.3.1.1 Les données
Quand on a un échantillon représentatif d’une population, on peut résumer les données de l’expérience par un tableau de contingence 2×2, sur lequel sont indiqués les effectifs suivants : - VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est présent {S} ;
- FP (Faux Positifs) : la maladie est absente {
} et le signe est présent {S} ; - FN (Faux Négatifs) : la maladie est présente {M) et le signe est absent {
} ; - VN (Vrais Négatifs) : la maladie est absente {
} et le signe est absent { }.
| Tableau 1 |
| |
M |
|
| S |
VP |
FP |
|
FN |
VN |
|
5.3.1.2 Estimation de la sensibilité et de la spécificité
Par définition, sensibilité = Se = Pr(S / M) On estime cette probabilité conditionnelle par le rapport des effectifs correspondants sur le tableau de contingence observé : 
Note : On notera de manière identique, suivant un usage établi, les paramètres vrais, qui sont des probabilités conditionnelles, et leurs estimations, qui sont des rapports d’effectifs observés. 
Par exemple, calculons les estimateurs de ces paramètres dans le cas où on cherche à diagnostiquer un diabète à partir d’un signe de la forme « la glycémie mesurée à jeun est supérieure à ... »). Pour deux seuils donnés S1 et S2, on obtient les tableaux de contingence ci-dessous : - Seuil S1
| Tableau 2 |
| |
M |
|
| S |
90 |
200 |
|
10 |
300 |
|
- Seuil S2
| Tableau 3 |
| |
M |
|
| S |
50 |
25 |
|
50 |
475 |
|
On peut estimer les sensibilités et spécificités correspondant aux deux seuils par : Se1 ≈ 90 / 100 = 0,90 ; Sp1 ≈ 300 / 500 = 0,60 Se2 ≈ 50 / 100 = 0,50 ; Sp2 ≈ 475 / 500 = 0,95. On retrouve ici le fait que sensibilité et spécificité varient en sens inverse. On constate d’autre part que le seuil S1 correspond à une bonne sensibilité (l’examen est positif chez 90 % des malades), mais à une spécifité médiocre (l’examen est positif chez 40 % des « non-malades ») ; il peut donc être utilisé pour un examen de dépistage, le diagnostic devant être confirmé ultérieurement par un examen plus spécifique. Le seuil S2, en revanche, induit un test d’une sensibilité qui pourrait être jugée trop faible pour un examen de dépistage. En revanche, sa spécificité peut être acceptable pour un examen de confirmation. 5.3.1.3 Estimation des valeurs prédictives
Les estimations s’obtiennent à partir du même tableau des données : 

Par exemple, pour les tableaux de contingence vus ci-dessus, on a : VPP1 ≈ 90 / 290 = 0,31 ; VPN1 ≈ 300 / 310 = 0,97 VPP2 ≈ 50 / 75 = 0, 67 ; VPN2 ≈ 475 / 525 = 0,90 Ces résultats peuvent s’interpréter ainsi : en affirmant le diagnostic sur la base de la positivité de l’examen, on se trompe dans 69 % des cas avec le seuil S1 et 33 % des cas avec le seuil S2 ; et en éliminant le diagnostic en constatant la négativité de l’examen, on se trompe dans 3 % des cas avec le seuil S1 et 10 % des cas avec le seuil S2. 5.3.2 Deux échantillons représentatifs
L’inconvénient du schéma expérimental ci-dessus (un seul échantillon) est que, si la maladie est peu fréquente ou rare, il faut constituer un échantillon de très grande taille pour obtenir un nombre suffisant de malades. Les non-malades, au contraire, seront « trop » nombreux. C’est pourquoi on constituera souvent, en pratique, deux échantillons, un échantillon de malades et un échantillon de non-malades. On peut encore résumer les résultats par un tableau comme celui du tableau 1, mais ce tableau doit être interprété différemment, les proportions respectives des malades et non-malades ne correspondant plus à la réalité : le rapport entre le nombre de malades et le nombre de non-malades du tableau dépend des tailles respectives choisies pour les deux échantillons, et n’a aucun lien avec la fréquence de la maladie dans la population (la prévalence). On peut toujours estimer la sensibilité et la spécificité comme ci-dessus. En effet, la sensibilité par exemple est estimée uniquement à partir de VP et FN, donc de la répartition des malades entre ceux qui présentent le signe et les autres. Or l’échantillon des malades respecte cette répartition. En revanche, l’estimation précédente des valeurs prédictives utilisait la répartition entre malades et non malades, que le tableau actuel ne représente pas correctement. L’estimation des valeurs prédictives reste cependant possible à condition de connaître la prévalence de la maladie Pr(M). On utilisera les formules introduites section 5.2.2 : 

On remplacera dans ces formules la sensibilité et la spécificité par leurs estimations. |