Correction de Bessel

From Wikipedia, the free encyclopedia

En statistique, la correction de Bessel est l'emploi de n  1 au lieu de n dans la formule de la variance et de l'écart-type d’un échantillon d’une population générale[1], où n représente le nombre d'observations disponibles dans l’échantillon.

Ce facteur correctif atténue un biais introduit « mécaniquement » dans l’estimation de la variance de la population, par le fait que la population n’est pas connue en totalité. Le facteur corrige partiellement celui de l’estimation de l'écart-type, mais imparfaitement et a par ailleurs tendance à augmenter l'erreur quadratique moyenne de ces estimations (variance et écart-type corrigés).

Cette technique mathématique porte le nom de Friedrich Bessel.

Justification

Le contexte est celui de l’estimation de la variance, lorsque la moyenne exacte de la population est inconnue, car la population elle-même n’est pas observable en totalité.

Pour estimer la variance d'une population à partir d'un échantillon de cette population, la variance (non-corrigée) de l'échantillon est traditionnellement calculée en faisant la moyenne des carrés des écarts à la moyenne de l'échantillon : on applique donc un facteur multiplicatif 1/n. C’est le calcul théorique correcte pour la population.

Il est démontré (cf. paragraphe § Source de biais ci-après) que dans ce cas, la variance de l'échantillon est un estimateur biaisé de la variance de la population.

Multiplier la variance de l'échantillon non corrigée par le facteur correctif

donne par contre un estimateur sans biais de la variance de la population. Dans certains ouvrages, le facteur ci-dessus est appelé correction de Bessel[2],[3].

On peut comprendre la correction de Bessel en termes de degrés de liberté du vecteur des résidus (on parle bien ici des résidus, et non d’erreurs, car la moyenne de la population est inconnue) :

est la moyenne de l'échantillon. Bien qu'il y ait n observations indépendantes dans l'échantillon, il n'y a que n  1 résidus indépendants, car leur somme est nulle. Pour une explication plus intuitive de la nécessité de la correction de Bessel, voir le paragraphe § Source de biais ci-après.

La correction de Bessel est généralement une première approche pour réduire le biais lié à la taille finie de l'échantillon par rapport à la population pour laquelle on souhaite inférer des éléments d’analyse statistique. Cette correction est également nécessaire pour d'autres estimations, comme l'asymétrie et l'aplatissement, mais les imprécisions y sont souvent nettement plus importantes ; pour éliminer complètement ce biais, il est nécessaire de recourir à une estimation multiparamétrique plus complexe qu’un simple facteur correctif. Par exemple, une correction correcte de l'écart-type dépend de l'aplatissement (moment centré normalisé d'ordre 4), mais ce dernier présente lui aussi un biais lié à la taille finie de l'échantillon et dépend de l'écart-type ; autrement dit, les deux estimations doivent être combinées.

Insuffisances

Il convient de prendre en compte trois réserves concernant la correction de Bessel :

  1. Elle ne fournit pas un estimateur sans biais de l'écart-type (seulement de la variance).
  2. Elle fournit un estimateur non-biaisé de la variance qui présente par contre souvent une erreur quadratique moyenne (EQM) plus élevée que l'estimateur non corrigé[4]. De plus, il n'existe aucune distribution de population pour laquelle l'EQM est minimale, car un facteur d'échelle différent peut toujours être choisi pour la minimiser.
  3. Elle n'est nécessaire que lorsque la moyenne de la population est inconnue (et estimée à partir de la moyenne de l'échantillon). En pratique, c'est généralement le cas, donc la correction est pertinente.

Estimation corrigée de l’écart-type

Bien que la variance de l'échantillon corrigée par la méthode de Bessel soit un estimateur sans biais de la variance de la population, sa racine carrée, c’est-à-dire l'écart-type de l'échantillon, est lui un estimateur biaisé de l'écart-type de la population. En effet, la racine carrée étant une fonction concave, elle introduit nécessairement un biais négatif, d'après l'inégalité de Jensen. Il n'existe pas de formule générale pour un estimateur sans biais de l'écart-type de la population, mais des facteurs de correction existent pour certaines distributions, comme la distribution normale ; voir Écart type — Estimation pour plus de détails. Une approximation du facteur de correction exact pour la distribution normale est donnée par n  1,5 dans la formule : le biais décroît de manière quadratique (plutôt que linéaire, comme dans la forme non-corrigée et la forme corrigée de Bessel).

Erreur quadratique moyenne

L'estimateur sans biais ne minimise pas l'erreur quadratique moyenne (EQM) et présente généralement une EQM plus élevée que l'estimateur non corrigé (ceci varie en fonction du kurtosis excédentaire). L'EQM peut être minimisée en utilisant un facteur différent. La valeur optimale dépend du kurtosis excédentaire, comme expliqué dans la section « Erreur quadratique moyenne : variance » ; pour la distribution normale, cette valeur est optimisée en divisant par n + 1 (au lieu de n  1 ou n).

Nécessité de la correction

La correction de Bessel n'est nécessaire que lorsque la moyenne de la population est inconnue et que l'on estime à la fois la moyenne et la variance de la population à partir d'un échantillon donné, en utilisant la moyenne de l'échantillon pour estimer la moyenne de la population. Dans ce cas, il y a n degrés de liberté dans un échantillon de n points, et l'estimation simultanée de la moyenne et de la variance signifie qu'un degré de liberté est attribué à la moyenne de l'échantillon et les n - 1 degrés restants (les résidus) sont attribués à la variance de l'échantillon. Cependant, si la moyenne de la population est connue, les écarts des observations par rapport à cette moyenne possèdent n degrés de liberté (car la moyenne n'est pas estimée ; les écarts ne sont pas des résidus mais des erreurs) et la correction de Bessel n'est pas applicable.

Source de biais

Approche par la moyenne

Pour comprendre le biais à corriger, qui est lié à la moyenne, prenons un cas extrême en considérant une petite population.

Supposons que la population soit (0,0,0,1,2,9), avec une moyenne de 2 et une variance de . Pour référence, la variance corrigée par Bessel vaut 12,4 : c’est une valeur surestimée car il n’est pas pertinent d’appliquer la correction à la population entière, mais gardons-la en mémoire.

On prélève tout d’abord un échantillon de taille n = 1, et il s'avère que La meilleure estimation de la moyenne de la population à partir de cet échantillon est ce qui est évidemment très peu représentatif de la valeur réelle 2. Si nous utilisons ensuite la formule non-corrigée pour estimer la variance, on a . Cette estimation est nulle, et elle l’est en fait pour toute population et tout échantillon de taille n = 1. Le problème est que le calcul de la moyenne de l'échantillon conduit à une estimation de la moyenne très proche de la valeur échantillonnée – et en fait, carrément identique pour n = 1. Aussi, dans le cas où n = 1, la variance ne peut tout simplement pas être estimée, car l'échantillon ne présente aucune variabilité, donc aucune dispersion qui serait significative et lissée.

Considérons maintenant le cas où n = 2. Supposons que l'échantillon soit (0, 2). Alors et ce qui est loin de la valeur réelle 10,333. Quand on applique cette méthode de calcul à tous les échantillons possibles de taille n = 2, on trouve les variances suivantes : 0, 0, 0,25, 1, 20,25, 0, 0,25, 1, 20,25, 0,25, 1, 20,25, 0,25, 16, 12,25. La moyenne de ces estimations vaut 6,2 soit une valeur très éloignée de la variance réelle de la population, qui vaut 10,333.

Mais avec la correction de Bessel, . Cette estimation de la variance est toujours loin de la valeur réelle, mais par construction, elle est moins sous-estimée : c’est une estimation sans biais de la variance réelle. Quand on applique cette méthode de calcul (correction de Bessel) à tous les échantillons possibles de taille n = 2, on trouve les estimations de variance suivantes : 0, 0, 0,5, 2, 40,5, 0, 0,5, 2, 40,5, 0,5, 2, 40,5, 0,5, 32, 24,5. La moyenne de ces estimations vaut 12,4, soit la même que la variance de l'échantillon avec la correction de Bessel.

C’est là l’intérêt de la correction de Bessel : elle produit une estimation de la variance stable, quelle que soit la taille de l’échantillon. Comme dans cet exemple, la population a un cardinal de seulement 6, la correction de Bessel produit une estimation de la variance légèrement surestimée (12,4 contre 10,333 en réel). Mais à mesure que la taille de la population augmente, le facteur de proportionnalité entre les deux modes de calcul, n-1/n, s’amenuise (il tend vers 1 quand n tend vers l’infini) : la correction de Bessel appliqué aux échantillons produit une estimation de la variance réaliste, et contre-carre le biais introduit par le fait que la moyenne de l’échantillon n’est qu’une estimation de la moyenne de la population.

Pour un échantillon issu d’une population de moyenne réelle μ, la variance non corrigée est :

avec la moyenne réelle :

Mais la variance non corrigée d’un échantillon de taille n est :

avec la moyenne calculée sur l’échantillon seulement :

Le biais vient du fait que est une estimation nécessairement sous-estimée de μ, car :

  1. les valeurs de l’échantillon sont par principe un sous-ensemble, en cardinal et en somme, des valeurs possibles de la population ;
  2. donc, leur moyenne est par conséquent forcément plus proche des valeurs de l’échantillon que la vraie moyenne μ ;
  3. donc, les écarts sont en moyenne plus petits que  ;
  4. donc, quand on calcule , on sous-estime nécessairement la vraie variance, car les écarts à la moyenne sont artificiellement « contractés » par le fait que la moyenne est calculée à partir de ces mêmes données échantillonnées.

En d’autres termes, l’échantillon « s’auto-rapproche » autour de sa propre moyenne, ce qui réduit artificiellement les écarts. La correction de Bessel, en multipliant la variance non corrigée de l’échantillon par un facteur  :

tend à amplifier les écarts, compensant le fait que a « raboté » les distances par rapport à μ. La moyenne de tous les échantillons corrigés par Bessel converge exactement vers la vraie variance de la population. Plus l’échantillon est grand, plus (car tend vers 1), ce qui rend la correction de Bessel de moins en moins nécessaire. En pratique, on l’applique toujours, car on travaille sur des échantillons de cardinal faible devant celui de la population vers laquelle on veut inférer des résultats statistiques.

Approche par développement algébrique

Pour mieux comprendre, prenons l'exemple suivant. Supposons que la moyenne de l'ensemble de la population soit de 2050, mais que le statisticien l'ignore et doive l'estimer à partir de ce petit échantillon choisi au hasard dans la population :

On peut calculer la moyenne de l'échantillon :

Cela peut servir d'estimation observable de la moyenne de la population, qui est inobservable (mais pour l’exercice, on sait que cette valeur est exactement 2050). Nous sommes maintenant confrontés au problème de l'estimation de la variance de la population. Celle-ci correspond à la moyenne des carrés des écarts par rapport à la moyenne. Si nous savions que la population moyenne est de 2050, nous pourrions procéder comme suit :

Mais notre estimation de la moyenne de la population est la moyenne de l'échantillon, à savoir 2052. La moyenne réelle, 2050, est inconnue. Il faut donc utiliser la moyenne de l'échantillon, 2052:

La variance est désormais plus faible, et elle l'est (presque) toujours. La seule exception se produit lorsque la moyenne de l'échantillon et la moyenne de la population sont identiques (par hasard ou parce que l’échantillon est bien choisi). Pour comprendre pourquoi, il faut se rappeler que la variance mesure la distance à partir d'un point, et que, dans un échantillon donné, la moyenne de l'échantillon correspond précisément au point qui minimise les distances (la moyenne est le point d’équilibre des valeurs). Un calcul de variance utilisant une autre valeur moyenne, par exemple une estimation de la moyenne, donnera nécessairement un résultat plus élevé.

Pour le démontrer algébriquement, nous utilisons une identité simple :

Avec représentant l'écart d'un échantillon individuel par rapport à la moyenne de l'échantillon, et représentant l'écart de la moyenne de l'échantillon par rapport à la moyenne de la population. Notons que nous avons simplement décomposé l'écart réel d'un échantillon individuel par rapport à la moyenne (inconnue) de la population en deux composantes : l'écart de l'échantillon individuel par rapport à la moyenne de l'échantillon, que nous pouvons calculer, et l'écart supplémentaire de la moyenne de l'échantillon par rapport à la moyenne de la population, que nous ne pouvons pas calculer (faute de connaître la moyenne de la population). Appliquons maintenant cette identité aux carrés des écarts par rapport à la moyenne de la population :

Appliquez maintenant cela aux cinq observations et observez certains schémas :

La somme des valeurs de la colonne centrale doit être nulle, car le terme « a » est additionné sur les 5 lignes et doit lui-même être égal à zéro. En effet, « a » contient les 5 échantillons individuels (à gauche, entre parenthèses) dont la somme est égale à 5 fois la moyenne de ces 5 nombres (2052). Par conséquent, la soustraction de ces deux sommes est nulle. Le facteur 2 et le terme « b » de la colonne centrale sont identiques pour toutes les lignes ; la différence relative entre les lignes de cette colonne reste donc constante et peut être négligée. Les explications suivantes concernent les colonnes restantes :

  • La somme des entrées de la première colonne (a2) est la somme des carrés de la distance de l'échantillon à la moyenne de l'échantillon ;
  • La somme des valeurs de la dernière colonne (b2) correspond à la somme des carrés des écarts entre la moyenne de l'échantillon mesuré et la moyenne de la population attendue .
  • Chaque ligne est maintenant composée de paires de valeurs : a2 (biaisée, car la moyenne de l’échantillon est utilisée) et b2 (correction du biais, car elle tient compte de la différence entre la moyenne réelle de la population et la moyenne imprécise de l’échantillon). Par conséquent, la somme des valeurs des première et dernière colonnes représente désormais la variance correcte, ce qui signifie que la somme des carrés des écarts entre les échantillons et la moyenne de la population est maintenant utilisée.
  • La somme des colonnes en et en b2 doit être supérieure à la somme des éléments de la colonne , puisque tous les éléments de la colonne b2 sont positifs (sauf lorsque la moyenne de la population est égale à la moyenne de l'échantillon, auquel cas tous les nombres de la dernière colonne seront égaux à 0).

Donc:

  • La somme des carrés des distances entre les échantillons et la moyenne de la population sera toujours supérieure à la somme des carrés des distances à la moyenne de l'échantillon ; sauf lorsque la moyenne de l'échantillon est identique à la moyenne de la population, auquel cas les deux sont égales.

C’est pourquoi la somme des carrés des écarts à la moyenne de l’ échantillon est trop faible pour fournir une estimation non biaisée de la variance de la population lorsqu’on calcule la moyenne de ces carrés. Plus la taille de l’échantillon est petite, plus la différence entre la variance de l’échantillon et la variance de la population est grande.

Fondements mathématiques

Terminologie

Cette correction est si courante et standardisée dans les méthodes de calcul (logiciels de traitement des données, publications scientifiques…) que les termes « variance de l'échantillon » et « écart-type de l'échantillon » sont en fait la plupart du temps utilisées comme des raccourcis de langage pour désigner leurs estimateurs corrigés par Bessel ie. en utilisant n  1. Toutefois, la prudence est de mise : certaines calculatrices et certains logiciels peuvent proposer les deux formulations, ou seulement la méthode de calcul non corrigée.

Cet article utilise les symboles et définitions suivants :

  • est la moyenne de la population
  • est la moyenne de l'échantillon
  • est la variance de la population
  • est la variance biaisée de l'échantillon (c'est-à-dire sans correction de Bessel)
  • est la variance non biaisée de l'échantillon (c'est-à-dire avec la correction de Bessel)

Les écarts types seront alors les racines carrées des variances respectives. Comme la racine carrée introduit un biais, on préfère utiliser les termes « non corrigé » et « corrigé » pour les estimateurs de l’écart type :

  • est l'écart type de l'échantillon non corrigé (c'est-à-dire sans correction de Bessel)
  • représente l'écart-type de l'échantillon corrigé (c'est-à-dire avec la correction de Bessel), qui est moins biaisé, mais reste biaisé

Formule

La moyenne de l'échantillon est donnée par :

La variance biaisée de l'échantillon s'écrit alors :

et la variance non-biaisée de l'échantillon s'écrit :

Preuve

Soient des variables aléatoires indépendantes identiquement distribuées, tirées d'une population posée comme inobservable ie. on n’a accès qu’à sous-ensemble de valeurs de la population. La population est caractérisée par les indicateurs statistiques réels suivants : espérance et variance .

Pour un tirage (échantillonnage) particulier de l' espace d'échantillonnage sous-jacent, les variables prennent des valeurs concrètes (réalisations) . Nous souhaiterions obtenir une bonne estimation de la variance réelle , qui est inconnue, à partir du calcul de la variance de l’échantillon.

On définit donc un estimateur de la variance (non corrigée à ce stade), comme la variance d’un échantillon calculée comme suit :

.

Cette estimation de la variance dépend nécessairement des valeurs de l’échantillon choisi. L’espérance (ie. la moyenne sur tous les échantillons possibles) de la variance non corrigée permet de quantifier le biais de l’estimateur : est-ce que, en moyenne sur tous les échantillons, la variance non corrigée donne la vraie variance de la population ?

  • Concrètement :
    • Si , alors l’estimateur est non biaisé
    • Si , alors l’estimateur sous-estime la variance

Donc calculer l’espérance permet de quantifier l’éventuel biais de l’estimateur. À cette fin, nous allons construire une formule mathématique contenant le de sorte que l'espérance de cette formule soit précisément . Cela signifie qu'en moyenne, cette formule devrait donner la bonne réponse ; le vérifier permettra de déterminer si la formule est non biaisée ou pas.

L’approche la plus directe pour donner une formule de la variance d’un échantillon est celle de l’estimateur vu ci-avant :

,

.

Il s'agirait exactement de la variance réelle, si nous avions une variable aléatoire discrète sur l'espace de probabilité discret qui avait la valeur à .

Pour déterminer le biais introduit par l’estimateur, on calcule l'espérance des variances estimées sur les échantillons :

On écrit la différence par rapport à la moyenne de l'échantillon, en séparant des autres :

Interprétation : la valeur contribue pour à son propre écart à la moyenne, tandis que toutes les autres valeurs apparaissent avec un coefficient .

On développe maintenant le carré :

On prend l'espérance de chaque terme séparément, en utilisant l'indépendance des variables et (pour le calcul de l'espérance, on remplace les valeurs observées par les variables aléatoires correspondantes, car l'espérance doit être évaluée sur l'ensemble des réalisations possibles et non sur un échantillon particulier) :

1.

2.

3.

En additionnant ces différentes contributions :

  • les contributions en s’annulent exactement :
 
  • les contributions en donnent :
 

Ainsi, au final :

Approche alternative (centrage autour de μ) :

On peut aussi écrire . Ainsi :

En prenant l'espérance de chaque terme, en utilisant l'indépendance des variables :

En substituant :

Enfin, en moyennant sur tous les  :

Ainsi, la variance non corrigée calculée sur un échantillon sous-estime la vraie variance de la population d'un facteur , et la correction de Bessel consiste à multiplier par pour obtenir un estimateur non biaisé :

Alternative

Calculons la valeur attendue (espérance) de l’expression de l’estimateur :

Par conséquent, notre estimation initiale était erronée d'un facteur de . C'est précisément la correction de Bessel.

La seconde étape consiste à utiliser le fait que la somme en question se divise en une somme avec des indices égaux et inégaux. Pour des variables indépendantes et identiquement distribuées, cela donne donc des multiples de respectivement et  :

Notes et références

Voir aussi

Related Articles

Wikiwand AI