Site FMPMC
     Page précédentePage suivanteSommaireVersion imprimable
   
 

Biostatistique

Sommaire

Avant-propos

Introduction

1 - Statistique(s) et Probabilité(s)

2 - Rappels mathématiques

3 - Eléments de calcul des Probabilités

4 - Probabilité Conditionnelle ; Indépendance et Théorème de Bayes

5 - Evaluation de l’intérêt diagnostique des informations médicales

6 - Variables aléatoires

7 - Exemples de distributions

8 - Statistiques descriptives

9 - Etude de la variable aléatoire moyenne expérimentale

10 - Estimation - Intervalle de confiance

11 - Les tests d’hypothèses. Principes

12 - Quelques tests usuels

13 - Tests concernant des variables qualitatives

14 - Liaison entre deux variables continues : notion de corrélation

15 - Méthodologie des études épidémiologiques

A - Tables statistiques


Tous droits de reproduction réservés aux auteurs


traduction HTML V2.8
V. Morice


Chapitre 1 - Statistique(s) et Probabilité(s)

 

 

Nous commencerons par définir les termes et les concepts importants.

1.1 Statistique

Le terme statistique désigne à la fois un ensemble de données d’observations, et l’activité qui consiste en leur recueil, leur traitement et leur interprétation. Les termes  statistique, ou  statistiques (au pluriel) englobent ainsi plusieurs notions distinctes :

  1. D’une part le recensement de grandeurs d’intérêt comme le nombre d’habitants d’un pays, le revenu moyen par habitant, le nombre de séropositifs dans la population française. Nous voyons que la notion fondamentale qui se dégage de cette énumération est celle de Population. Une population est un ensemble d’objets, d’êtres vivants ou d’objets abstraits (ensemble des mains de 5 cartes distribuées au bridge...) de même nature.
  2. La statistique en tant que science s’intéresse aux propriétés des populations naturelles. Plus précisément elle traite de nombres obtenus en comptant ou en mesurant les propriétés d’une population. Cette population d’objets doit en outre être soumise à une variabilité, qui est due à de très nombreux facteurs inconnus (pour les populations d’objets biologiques qui nous intéressent ces facteurs sont les facteurs génétiques et les facteurs environnementaux).
  3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (au singulier) qui définit toute grandeur calculée à partir d’observations. Ce peut être la plus grande valeur de la série statistique d’intérêt, la différence entre la plus grande et la plus petite, la valeur de la moyenne arithmétique de ces valeurs, etc.

1.2 Population et échantillon

On appelle population P un ensemble généralement très grand, voire infini, d’individus ou d’objets de même nature. Tous les médecins de France constituent une population, de même que l’ensemble des résultats possibles du tirage du loto. Une population peut donc être réelle ou fictive.

Il est le plus souvent impossible, ou trop coûteux, d’étudier l’ensemble des individus constituant une population ; on travaille alors sur une partie de la population que l’on appelle  échantillon. Pour qu’un échantillon permette l’étude de la variabilité des caractéristiques d’intérêt de la population, il faut qu’il soit convenablement sélectionné. On parlera d’échantillon représentatif si les individus le constituant ont été tirés au sort1 dans la population. Si par exemple on souhaite déterminer les caractéristiques « moyennes » du poids et de la taille des prématurés masculins on tirera au hasard un certain nombre de sujets parmi les naissances de prématurés de l’année.

Chaque individu, ou unité statistique, appartenant à une population est décrit par un ensemble de caractéristiques appelées variables ou caractères. Ces variables peuvent être quantitatives (numériques) ou qualitatives (non numériques) :

quantitatives
pouvant être classées en variables continues (taille, poids) ou discrètes (nombre d’enfants dans une famille)
qualitatives
pouvant être classées en variables catégorielles (couleurs des yeux) ou ordinales (intensité d’une douleur classée en nulle, faible, moyenne, importante).

1.3 Statistique et probabilité

La théorie (ou le calcul) des probabilités est une branche des mathématiques qui permet de modéliser les phénomènes où le hasard intervient (initialement développée à propos des jeux de hasard, puis progressivement étendue à l’ensemble des sciences expérimentales, dont la physique et la biologie).

Cette théorie permet de construire des modèles de ces phénomènes et permet le calcul : c’est à partir d’un modèle probabiliste d’un jeu de hasard comme le jeu de dés que l’on peut prédire les fréquences d’apparition d’événements comme le nombre de fois que l’on obtient une valeur paire en jetant un dé un grand nombre de fois. Les éléments de calcul des probabilités indispensables à la compréhension des statistiques seront traités dans la première partie du cours.

Sous jacente à la notion de statistiques se trouve la notion de Population dont on souhaite connaître les propriétés (plus précisément les régularités), permettant en particulier de savoir si deux populations sont identiques ou non. Ce cas est celui du cadre des essais thérapeutiques, où l’on considère 2 populations (patients traités avec le médicament A ou avec le médicament B) dont on souhaite savoir si elles diffèrent ou non (c’est le cas le plus simple des essais cliniques). Pour ce faire il est nécessaire de modéliser les populations, en utilisant des modèles probabilistes. Un modèle de ce type est par exemple de considérer que la taille des individus suit une distribution gaussienne. A partir de ce modèle on peut calculer les propriétés d’échantillons ; c’est ce qu’on appelle une déduction qui va du modèle vers l’expérience. A l’inverse, considérant un échantillon d’une population on peut essayer de reconstruire le modèle de la population.

Cette démarche est calquée sur la démarche scientifique habituelle. Le scientifique est capable, en utilisant les mathématiques, de prédire le comportement d’un modèle donné (c’est par exemple une « loi » de la physique) : c’est la démarche déductive. A l’inverse, observant des faits expérimentaux il va tenter de dégager des propriétés générales du phénomène observé qu’il va en général représenter sous forme d’un modèle (toutes les lois de la physique et de la chimie sont des modèles mathématiques les plus généraux possibles des faits expérimentaux) : c’est la construction inductive de la théorie. Cette démarche générale va plus loin car le modèle permet de prédire des expériences non réalisées. Si les prédictions ainsi réalisées sont contradictoires avec les résultats expérimentaux alors on pourra avec certitude réfuter le modèle (on dit aussi qu’on l’a falsifié) ; dans le cas contraire on garde le modèle mais on n’est pas certain qu’il soit « vrai ». Autrement dit, à l’issue d’un tel test on ne peut avoir de certitude que si on a trouvé des éléments permettant de réfuter le modèle. Nous verrons dans la suite que cette approche se transpose exactement dans la démarche statistique, en particulier dans le domaine des tests.



1. Nous reviendrons sur cette méthode permettant d’obtenir un échantillon représentatif de la population étudiée. Cela consiste en gros à sélectionner les individus sur la base d’un tirage analogue à celui qui consiste à tirer des noms dans une urne qui contiendrait tous les noms possibles.

 

     Page précédentePage suivanteSommaireVersion imprimable
   
 
1.1 - Statistique
1.2 - Population et échantillon
1.3 - Statistique et probabilité