L-estimateur

From Wikipedia, the free encyclopedia

Les L-estimateurs simples peuvent être estimés visuellement à partir d'un diagramme en boîte à moustaches et incluent l'écart interquartile, le midhinge, l'étendue, le milieu de gamme et la trimoyenne .

En statistiques, un L-estimateur est un estimateur qui est une combinaison linéaire de statistiques d'ordre des mesures (également appelée L-statistique). Cela peut être aussi petit qu'un seul point, comme dans la médiane (d'un nombre impair de valeurs), ou autant que tous les points, comme dans la moyenne.

Les principaux avantages des L-estimateurs sont qu'il s'agit souvent des statistiques extrêmement simples et souvent robustes : en supposant des données triées, ils sont très faciles à calculer et à interpréter, et sont souvent résistants aux valeurs aberrantes. Ils sont donc utiles dans les statistiques robustes, comme statistiques descriptives, dans l'enseignement de la statistique et lorsque le calcul est difficile. Cependant, ils sont inefficaces et, dans les temps modernes, on leur préfère les M-estimateurs, plus robustes mais bien que ceux-ci soient beaucoup plus difficiles à calculer. Dans de nombreuses circonstances, les L-estimateurs sont raisonnablement efficaces et donc adéquats pour une première estimation.

Un exemple basique est la médiane. Étant donné n valeurs , si est impair, la médiane est égale à , la -ème statistique d'ordre ; si est pair, c'est la moyenne de deux statistiques d'ordre : . Ce sont deux combinaisons linéaires de statistiques d’ordre, et la médiane est donc un exemple simple de L-estimateur.

Une liste d'exemples plus détaillée comprend :

Il faut noter que certaines d'entre elles (comme la médiane ou la moyenne) sont des mesures de tendance centrale et sont utilisés comme estimateurs d'un paramètre de localisation, comme la moyenne d'une distribution normale, tandis que d'autres (comme l'étendue ou l'étendue tronquée) sont des mesures de dispersion statistique et sont utilisées comme estimateurs d'un paramètre d'échelle, tel que l'écart type d'une distribution normale.

Les L-estimateurs peuvent également mesurer la forme d’une distribution, au-delà de l’emplacement et de l’échelle. Par exemple, la charnière médiane moins la médiane est un L-estimateur à trois termes qui mesure l'asymétrie, et d'autres différences de résumés intermédiaires donnent des mesures d'asymétrie à différents points de la queue. [1]

Les exemples de L-moments sont des L-estimateurs pour le L-moment de la population et ont des expressions plutôt complexes. Les L-moments sont généralement traités séparément ; voir cet article pour plus de détails.

Robustesse

Les L-estimateurs sont souvent statistiquement résistants, ayant un point de rupture élevé. Ceci est défini comme la fraction des mesures qui peut être arbitrairement modifiée sans que l'estimation résultante ne tende vers l'infini (c'est-à-dire « s'effondre »). Le point de rupture d'un L-estimateur est donné par la statistique d'ordre la plus proche du minimum ou du maximum : par exemple, la médiane a un point de rupture de 50 % (le plus élevé possible), et une moyenne tronquée ou winsorisée de n % a un point de rupture de n %.

Tous les L-estimateurs ne sont pas robustes ; s'il inclut le minimum ou le maximum, alors il a un point de rupture de 0. Ces L-estimateurs non robustes incluent le minimum, le maximum, la moyenne et le milieu de gamme. Les équivalents tronqués sont cependant robustes.

Les L-estimateurs robustes utilisés pour mesurer la dispersion, tels que l'écart interquartile, fournissent des mesures d'échelle robustes.

Applications

Dans la pratique, dans les statistiques robustes, les L-estimateurs ont été remplacés par des M-estimateurs, qui fournissent des statistiques robustes qui ont également une efficacité relative élevée, au prix d'être beaucoup plus complexes et opaques sur le plan informatique.

Cependant, la simplicité des L-estimateurs signifie qu'ils sont faciles à interpréter et à visualiser, et les rend adaptés aux statistiques descriptives et à l'enseignement de la statistique ; beaucoup peuvent même être calculés mentalement à partir d'un résumé en cinq chiffres ou d'un résumé en sept chiffres, ou visualisés à partir d'un diagramme en boîte à moustaches. Les L-estimateurs jouent un rôle fondamental dans de nombreuses approches de statistiques non paramétriques.

Bien que non paramétriques, les L-estimateurs sont fréquemment utilisés pour l'estimation des paramètres, comme l'indique leur nom, bien qu'ils doivent souvent être ajustés pour produire un estimateur convergent et sans biais. Le choix du L-estimateur et de l'ajustement dépend de la distribution dont le paramètre est estimé.

Par exemple, lors de l'estimation d'un paramètre de localisation, pour une distribution symétrique, un L-estimateur symétrique (tel que la médiane ou le midhinge) sera sans biais. Cependant, si la distribution est asymétrique, les L-estimateurs symétriques seront généralement biaisés et nécessiteront un ajustement. Par exemple, dans une distribution asymétrique, l'asymétrie non paramétrique (et les coefficients d'asymétrie de Pearson) mesurent le biais de la médiane en tant qu'estimateur de la moyenne.

Lors de l'estimation d'un paramètre d'échelle, par exemple lors de l'utilisation d'un L-estimateur comme mesure d'échelle robuste, par exemple pour estimer la variance de la population ou l'écart type de la population, il faut généralement multiplier par un facteur d'échelle pour en faire un estimateur cohérent et sans biais ; voir paramètre d'échelle : estimation.

Par exemple, en divisant l'écart interquartile par (en utilisant la fonction d'erreur) en fait un estimateur consistent et sans biais de l'écart type de la population si les données suivent une distribution normale.

Les L-estimateurs peuvent également être utilisés comme statistiques à part entière – par exemple, la médiane est une mesure de localisation et l’écart interquartile est une mesure de dispersion. Dans ces cas, les statistiques de l'échantillon peuvent servir d'estimateurs de leur propre espérance ; par exemple, la médiane de l'échantillon est un estimateur de la médiane de la population.

Avantages

Au-delà de la simplicité, les L-estimateurs sont également souvent faciles à calculer et robustes.

En supposant des données triées, les L-estimateurs impliquant seulement quelques points peuvent être calculés avec beaucoup moins d'opérations mathématiques que des estimations efficaces. [2],[3] Avant l'avènement des calculatrices électroniques et des ordinateurs, ceux-ci constituaient un moyen utile d'extraire une grande partie des informations d'un échantillon avec un minimum de travail. Ceux-ci sont restés utilisés dans la pratique au début et au milieu du XXe siècle, lorsque le tri automatisé des données des cartes perforées était possible, mais le calcul restait difficile, [2] et est toujours utilisé aujourd'hui, pour les estimations à partir d'une liste de valeurs numériques dans des formats non lisibles par une machine, où la saisie des données est plus coûteuse que le tri manuel. Ils permettent également une estimation rapide.

Les L-estimateurs sont souvent beaucoup plus robustes que les méthodes conventionnelles à efficacité maximale : la médiane est statistiquement résistante au maximum, ayant un point de rupture de 50 %, et le milieu de gamme tronqué de X % a un point de rupture de X %, tandis que la moyenne de l'échantillon (qui est efficace au maximum) est d'une robustesse minimale, se décomposant pour une seule valeur aberrante.

Efficacité

Voir également

Références

Related Articles

Wikiwand AI