Paradoxe de Stein
From Wikipedia, the free encyclopedia
Le paradoxe de Stein est un résultat de statistique, dû au statisticien Charles Stein, exposé dans un article de 1956[1], puis étendu dans un article co-écrit avec Willard James en 1961[2]. Ce résultat n'est pas paradoxal à proprement parler, mais surprenant et contre intuitif. Il constitue un pas important dans l'introduction des estimateurs contractants (en) (shrinkage estimators en anglais) en montrant que l'estimateur de James-Stein (en) domine strictement l'estimateur du maximum de vraisemblance (au sens que l'erreur quadratique moyenne est plus petite). Son caractère paradoxal vient du fait qu'il justifie de combiner des observations sans rapport entre elles pour estimer leurs espérances.
Énoncé formel
Soient variables aléatoires réelles indépendantes ayant des distributions normales d'espérances , et toutes de variance . Le paradoxe concerne l'estimation des espérances .
Comme il y a qu'une seule donnée, l'estimateur du maximum de vraisemblance de est , de est , ... , de est [3].
Notons le vecteur aléatoire de ayant pour coordonnées et le vecteur de ayant pour coordonnées . L'estimateur du maximum de vraisemblance de est alors simplement . Cet estimateur est non biaisé, et il s'agit de l'estimateur non biaisé de plus petite variance. Cependant, le paradoxe de Stein est que si , il existe un meilleur estimateur : l'estimateur de James-Stein (nommé d'après Willard James et Charles Stein), défini par , où est le carré de la norme euclidienne de [3].
Le mot meilleur ici est à prendre au sens du risque quadratique. Le risque quadratique d'un estimateur est défini par : (ce risque correspond à une erreur quadratique moyenne multiparamétrique). L'estimateur de James-Stein est meilleur au sens qu'il a un plus faible risque quadratique que l'estimateur du maximum de vraisemblance, et ce quel que soit [3]. On dit que l'estimateur de James-Stein domine l'estimateur du maximum de vraisemblance. Cette domination est stricte car il existe des valeurs de pour lesquelles le risque de l'estimateur de James-Stein est strictement plus petit que celui de l'estimateur du maximum de vraisemblance.
Ce résultat peut être énoncé de manière plus concise[réf. nécessaire] :
Théorème — Soit , et . Soit et . Alors . De plus, il existe au moins un pour lequel l'inégalité précédente est stricte. |
Démonstration
Reprenons les notations précédentes et calculons le risques quadratiques des deux estimateurs.
Risque quadratique de l'estimateur du maximum de vraisemblance
Le risque quadratique de vaut :
- car on a supposé que les variances des variables vaut 1.
Risque quadratique de l'estimateur de James-Stein
Le risque quadratique de est
que l'on peut réécrire
- .
Or,
- où désigne le produit scalaire.
Donc
Calculons maintenant .
Chaque intégrale de cette somme peut-être simplifiée en utilisant une intégration par partie en écrivant :
D'où
En sommant sur , on obtient que
Et donc, le risque de l'estimateur de James-Stein est
Étant donné que , on a ainsi que le risque quadratique de l'estimateur de James-Stein est strictement inférieur à celui du maximum de vraisemblance.
Remarques
On remarque que le risque de l'estimateur de James-Stein ne dépend que la norme de , et qu'il atteint sa valeur minimale, 2, lorsque . En effet, suit alors une Loi inverse χ² d'espérance , donnant alors le risque . Pour toute valeur de , le gain d'utiliser l'estimateur de James-Stein augmente avec .
Interprétation
Paradoxe
Ce résultat est qualifié de paradoxe car il serait naturel de s'attendre à ce que l'estimateur du maximum de vraisemblance soit meilleur. En effet, l'estimation de dans l'estimateur de James-Stein utilise toutes les observations, même si ne sont porteurs d'aucune information sur puisque leurs distributions ne dépendent pas de et qu'elles sont indépendantes de . Il en va de même pour les estimations de . Les variables aléatoires n'ayant possiblement aucun rapport, il est étrange que la meilleure stratégie ne soit pas d'estimer l'espérance en utilisant uniquement l'observation .
Pour illustrer cela[4], supposons qu'on s'intéresse à la proportion d'électeurs qui comptent voter pour Trump à une élection, à la proportion de nouveau-nés filles en Chine, et à la proportion de britanniques ayant les yeux bleus. Pour cela, on dispose de trois observations : le résultat d'un sondage électoral, le nombre de filles nées dans un hôpital chinois et le nombre de personnes aux yeux bleus dans une ville anglaise (ces observations sont issues de lois binomiales, mais elles peuvent facilement être approximées, après transformation, par des lois normales). Alors, en utilisant l'estimateur de James-Stein, on estimera en particulier la proportion de votant pour Trump en utilisant le nombre de filles nées dans l'hôpital chinois et le nombre de personnes aux yeux bleus dans la ville anglaise !
Explication
En réalité, il serait peu judicieux d'utiliser l'estimateur de James-Stein dans l'exemple précédent. Cet estimateur a certes le plus petit risque quadratique combiné sur les trois estimations, mais il n'a pas le plus petit risque quadratique pour une estimation particulière. En général, l'estimateur de James-Stein a tendance à dégrader la plupart des estimations mais à en améliorer sensiblement quelques-unes, ces quelques améliorations compensent les dégradations. Dans l'exemple précédent, il est probable que deux des trois estimations soient moins bonnes avec l'estimateur de James-Stein qu'avec le maximum de vraisemblance, mais que la troisième soit suffisamment meilleure pour réduire le risque quadratique total. En pratique, un statisticien intéressé uniquement à la proportion de filles parmi les nouveau-nés en Chine n'aurait très certainement pas intérêt à utiliser cet estimateur comme décrit précédemment, de même pour quelqu'un intéressé uniquement par la proportion d'électeurs de Trump ou uniquement par le nombre de personnes aux yeux bleus. Pour que cet estimateur ait un intérêt, il faut qu'un statisticien soit intéressé simultanément à ces trois estimations, ce qui est peu probable.
