Site FMPMC
     Page précédentePage suivanteSommaireVersion imprimable
   
 

Biostatistique

Sommaire

Avant-propos

Introduction

1 - Statistique(s) et Probabilité(s)

2 - Rappels mathématiques

3 - Eléments de calcul des Probabilités

4 - Probabilité Conditionnelle ; Indépendance et Théorème de Bayes

5 - Evaluation de l’intérêt diagnostique des informations médicales

6 - Variables aléatoires

7 - Exemples de distributions

8 - Statistiques descriptives

9 - Etude de la variable aléatoire moyenne expérimentale

10 - Estimation - Intervalle de confiance

11 - Les tests d’hypothèses. Principes

12 - Quelques tests usuels

13 - Tests concernant des variables qualitatives

14 - Liaison entre deux variables continues : notion de corrélation

15 - Méthodologie des études épidémiologiques

A - Tables statistiques


Tous droits de reproduction réservés aux auteurs


traduction HTML V2.8
V. Morice


Chapitre 10 - Estimation - Intervalle de confiance

 

 

10.1 Introduction

Le problème de l’estimation statistique est le suivant : on cherche à connaître les valeurs de certaines caractéristiques d’une variable aléatoire grâce à des observations réalisées sur un échantillon. Un grand nombre de problèmes statistiques consistent en la détermination de la moyenne « vraie », sur la base d’observations réalisées sur un échantillon. Cependant, on peut aussi chercher à connaître les valeurs d’autres caractéristiques, comme par exemple les variances (exemple c. ci-dessous).

Exemples :

  1. quelle est la fréquence de survenue de tel type de cancer chez les souris ?
  2. quelle est la vraie valeur de la glycémie de ce patient ?
  3. quelle est la variance de la glycémie mesurée chez ce patient ?

Il est bien sûr impossible de répondre à ces questions au sens strict.

On y apporte généralement deux types de réponses :

  1. On produit une valeur qui nous semble être la meilleure possible : on parle alors d’estimation ponctuelle.
  2. On produit un intervalle de valeurs possibles, compatibles avec les observations. C’est la notion d’intervalle de confiance ou d’estimation par intervalle.

Dans la suite on note X la variable aléatoire dont on cherche à estimer une caractéristique, aussi appelée paramètre, dont la valeur est notée θ. Par exemple le paramètre peut être la glycémie, et sa valeur celle du patient considéré.

10.2 Estimation ponctuelle

10.2.1 Définition

A partir d’un échantillon (X1, X2, ..., Xn) de la variable aléatoire X, on construit une nouvelle variable aléatoire t(X1, X2, ..., Xn) dont les réalisations « se rapprochent » de la valeur θ. Cette nouvelle variable est appelée estimateur de θ. Pour simplifier, cette variable t(X1, X2, ..., Xn) est notée Tn ou T.

Par exemple t(X1, X2, ..., Xn) = Image graphique411401.trsp.gif « se rapproche » de l’espérance de X (voir chapitre 9).

C’est un estimateur naturel de E[X].

10.2.2 Propriétés

Les estimateurs sont des fonctions des échantillons : ce sont donc des variables aléatoires qui possèdent une densité de probabilité, et le plus souvent, une moyenne (espérance mathématique) et une variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs entre eux.

Image estimat.trsp.gif
Figure 8 : densité de probabilité de 3 estimateurs T1, T2 et T3

La figure 8 représente les densités de probabilité de 3 estimateurs T1, T2 et T3 d’une moyenne μ.

10.2.2.1 Biais

On voit sur la figure 8 que T1 et T2 sont centrés autour de μ, tandis que T3 a pour moyenne Image graphique413402.trsp.gif inférieure à μ. Cette notion est définie plus précisément de la manière suivante :

Le biais d’un estimateur, noté B(T), est la différence moyenne entre sa valeur et celle de la quantité qu’il estime. On a :

B(T) = E(T - θ) = E(T) - θ

Ici, on a : B(T1) = E(T1 - μ) = E(T1) - μ = 0

de même : B(T2) = 0

mais : Image graphique414403.trsp.gif

On dit que T1 et T2 sont des estimateurs sans biais de μ, et que T3 est un estimateur biaisé de μ.

10.2.2.2 Variance

La variance d’un estimateur est définie de la manière usuelle :

var(T) = E[T - E(T)]2

Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en effet, ses valeurs sont « en moyenne » plus proches de la quantité estimée.

Par exemple, sur la figure ci-dessus, on voit que var(T1) < var(T2). On peut donc conclure que T1 est un meilleur estimateur de μ que T2.

Quand des estimateurs sont biaisés, en revanche, leur comparaison n’est pas aussi simple : un estimateur peu biaisé, mais de variance très faible, pourrait même, en pratique, être préféré à un estimateur sans biais, mais de variance grande.

10.2.2.3 Erreur quadratique moyenne

L’erreur quadratique moyenne est une grandeur permettant de comparer des estimateurs entre eux, qu’ils soient biaisés ou sans biais. Elle est définie de la manière suivante :

EQM(T) = E[(T - θ)2]

On démontre facilement qu’on peut relier l’erreur quadratique moyenne, l’espérance et la variance d’un estimateur par l’expression suivante :

EQM(T) = var(T) + [E(T) - θ]2 = var(T) + B(T)2

En particulier, l’erreur quadratique moyenne des estimateurs sans biais est égale à leur variance.

Lorsqu’on compare deux estimateurs, on considère que le meilleur est celui qui présente l’erreur quadratique moyenne la plus faible.

10.2.3 Exemple

On a souvent utilisé, dans ce cours, les quantités m, moyenne observée, et  s2, variance observée. La variable aléatoire moyenne arithmétique, notée Mn, a été étudiée au chapitre 8. De la même manière, étudions la variable aléatoire variance  Sn2, définie par :

Image graphique415404.trsp.gif

Image graphique416405.trsp.gif est la variable aléatoire « moyenne arithmétique de X2 ».

On va calculer E(Sn2). On rappelle que si U est une variable aléatoire, la variable moyenne arithmétique définie sur U a les propriétés suivantes :

Image graphique417406.trsp.gif

On a par ailleurs :

var(U) = E(U2) - [E(U)]2 et donc E(U2) = var(U) + [E(U)] 2     (3).

On peut maintenant calculer E(Sn2). Soit X une variable aléatoire d’espérance E(X) = μ et de variance var(X) = σ2. On a :

Image graphique418407.trsp.gif

Mais Image graphique419408.trsp.gif d’après (1) et (3),

et Image graphique420409.trsp.gif d’après (3), (2) et (1),

et finalement : Image graphique421410.trsp.gif.

Sn2 est donc un estimateur sans biais de σ2.

     Page précédentePage suivanteSommaireVersion imprimable
   
 
10.1 - Introduction
10.2 - Estimation ponctuelle
10.3 - Estimation par intervalle - Intervalle de confiance
10.2.1 - Définition
10.2.2 - Propriétés
10.2.3 - Exemple
10.2.2.1 - Biais
10.2.2.2 - Variance
10.2.2.3 - Erreur quadratique moyenne