| |
14.4 Le coefficient de corrélation « vrai »
Cherchons à substituer de la façon la plus naturelle possible des grandeurs « vraies » aux grandeurs observées constitutives de r. On note l’apparition au dénominateur de sX et sY auxquelles on substitue naturellement σX et σY, les écarts types « vrais » de X et Y. Au numérateur on remarque mx et my auxquels on substitue E(X) et E(Y) les moyennes « vraies » de X et Y. Reste au numérateur une moyenne observée (lisons n à la place de n-1) ; on lui substitue une moyenne « vraie » : moyenne « vraie » du produit [X - E(X)][Y - E(Y)], soit E{[X - E(X)][Y - E(Y)]}. Cette moyenne « vraie » dépendant de X et Y à la fois s’appelle covariance « vraie » de X et Y.Finalement, on obtient la contrepartie « vraie » notée ρ : 
Remarque : à propos des notions d’espérance, de covariance « vraie », de coefficient de corrélation « vrai », voir le chapitre 6. 14.5 Test d’égalité du coefficient de corrélation « vrai » ρ à 0
Des calculs théoriques complexes, et imposant un certain nombre de restrictions, qui, dépassant le cadre de ce cours, ne seront pas mentionnés, permettent de calculer la distribution de r sous l’hypothèse - retenue comme hypothèse nulle - de nullité du coefficient de corrélation « vrai » ρ. Il s’agit d’une famille de distributions indexées par un entier appelé nombre de degrés de liberté. La mise en œuvre du test est alors conventionnelle : - H0 : ρ = 0 [les variables ne sont pas corrélées],
H1 : ρ ≠ 0 [les variables sont corrélées] - Paramètres du test : coefficient de corrélation observé

- sous H0, r suit une distribution connue, dite du coefficient de corrélation à n-2 degrés de liberté où n est le nombre de couples (xi, yi) expérimentaux. L’intervalle de pari pour r est de la forme
étant lue dans une table.
Conditions de validité Les conditions de validité sont complexes et expriment que toute combinaison linéaire des variables X et Y est distribuée selon une loi normale. Autrement dit, toute variable aX + bY où a et b sont deux nombres quelconques doit être normale.Pour la commodité de l’expression, on énoncera les conditions de validité sous le néologisme « distribution de (X, Y) binormale ». - la suite de la mise en œuvre est standard.
Quelques exemples numériques Au risque 5 % : n = 10, IP0,95 = [-0,632 ; 0,632], ddl = 8 n = 20, IP0,95 = [-0,444 ; 0,444], ddl = 18 n = 50, IP0,95 = [-0,280 ; 0,280], ddl = 48 Ainsi, par exemple, pour pouvoir conclure à la corrélation, lorsque l’on dispose de 20 observations (20 couples (xi, yi)), le coefficient de corrélation observé doit être supérieur à 0,444, ou inférieur à -0,444. Autre formulation du test On peut montrer que est, sous H0, distribué selon une loi de Student à n-2 ddl. Si on préfère utiliser ce paramètre plutôt que r, il faut lire la table de Student pour construire l’intervalle de pari. |