|
10.1 Introduction
Le problème de l’estimation statistique est le suivant : on cherche à connaître les valeurs de certaines caractéristiques d’une variable aléatoire grâce à des observations réalisées sur un échantillon. Un grand nombre de problèmes statistiques consistent en la détermination de la moyenne « vraie », sur la base d’observations réalisées sur un échantillon. Cependant, on peut aussi chercher à connaître les valeurs d’autres caractéristiques, comme par exemple les variances (exemple c. ci-dessous). Exemples : - quelle est la fréquence de survenue de tel type de cancer chez les souris ?
- quelle est la vraie valeur de la glycémie de ce patient ?
- quelle est la variance de la glycémie mesurée chez ce patient ?
Il est bien sûr impossible de répondre à ces questions au sens strict. On y apporte généralement deux types de réponses : - On produit une valeur qui nous semble être la meilleure possible : on parle alors d’estimation ponctuelle.
- On produit un intervalle de valeurs possibles, compatibles avec les observations. C’est la notion d’intervalle de confiance ou d’estimation par intervalle.
Dans la suite on note X la variable aléatoire dont on cherche à estimer une caractéristique, aussi appelée paramètre, dont la valeur est notée θ. Par exemple le paramètre peut être la glycémie, et sa valeur celle du patient considéré. 10.2 Estimation ponctuelle
10.2.1 Définition
A partir d’un échantillon (X1, X2, ..., Xn) de la variable aléatoire X, on construit une nouvelle variable aléatoire t(X1, X2, ..., Xn) dont les réalisations « se rapprochent » de la valeur θ. Cette nouvelle variable est appelée estimateur de θ. Pour simplifier, cette variable t(X1, X2, ..., Xn) est notée Tn ou T. Par exemple t(X1, X2, ..., Xn) = « se rapproche » de l’espérance de X (voir chapitre 9). C’est un estimateur naturel de E[X]. 10.2.2 Propriétés
Les estimateurs sont des fonctions des échantillons : ce sont donc des variables aléatoires qui possèdent une densité de probabilité, et le plus souvent, une moyenne (espérance mathématique) et une variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs entre eux.
 |
| Figure 8 : densité de probabilité de 3 estimateurs T1, T2 et T3 |
La figure 8 représente les densités de probabilité de 3 estimateurs T1, T2 et T3 d’une moyenne μ. 10.2.2.1 Biais
On voit sur la figure 8 que T1 et T2 sont centrés autour de μ, tandis que T3 a pour moyenne inférieure à μ. Cette notion est définie plus précisément de la manière suivante : Le biais d’un estimateur, noté B(T), est la différence moyenne entre sa valeur et celle de la quantité qu’il estime. On a : B(T) = E(T - θ) = E(T) - θ Ici, on a : B(T1) = E(T1 - μ) = E(T1) - μ = 0 de même : B(T2) = 0 mais :  On dit que T1 et T2 sont des estimateurs sans biais de μ, et que T3 est un estimateur biaisé de μ. 10.2.2.2 Variance
La variance d’un estimateur est définie de la manière usuelle : var(T) = E[T - E(T)]2 Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en effet, ses valeurs sont « en moyenne » plus proches de la quantité estimée. Par exemple, sur la figure ci-dessus, on voit que var(T1) < var(T2). On peut donc conclure que T1 est un meilleur estimateur de μ que T2. Quand des estimateurs sont biaisés, en revanche, leur comparaison n’est pas aussi simple : un estimateur peu biaisé, mais de variance très faible, pourrait même, en pratique, être préféré à un estimateur sans biais, mais de variance grande. 10.2.2.3 Erreur quadratique moyenne
L’erreur quadratique moyenne est une grandeur permettant de comparer des estimateurs entre eux, qu’ils soient biaisés ou sans biais. Elle est définie de la manière suivante : EQM(T) = E[(T - θ)2] On démontre facilement qu’on peut relier l’erreur quadratique moyenne, l’espérance et la variance d’un estimateur par l’expression suivante : EQM(T) = var(T) + [E(T) - θ]2 = var(T) + B(T)2 En particulier, l’erreur quadratique moyenne des estimateurs sans biais est égale à leur variance. Lorsqu’on compare deux estimateurs, on considère que le meilleur est celui qui présente l’erreur quadratique moyenne la plus faible. 10.2.3 Exemple
On a souvent utilisé, dans ce cours, les quantités m, moyenne observée, et s2, variance observée. La variable aléatoire moyenne arithmétique, notée Mn, a été étudiée au chapitre 8. De la même manière, étudions la variable aléatoire variance Sn2, définie par : 
où est la variable aléatoire « moyenne arithmétique de X2 ». On va calculer E(Sn2). On rappelle que si U est une variable aléatoire, la variable moyenne arithmétique définie sur U a les propriétés suivantes : 
On a par ailleurs : var(U) = E(U2) - [E(U)]2 et donc E(U2) = var(U) + [E(U)] 2 (3). On peut maintenant calculer E(Sn2). Soit X une variable aléatoire d’espérance E(X) = μ et de variance var(X) = σ2. On a : 
Mais d’après (1) et (3), et d’après (3), (2) et (1), et finalement : . Sn2 est donc un estimateur sans biais de σ2. |