notion statistique
From Wikipedia, the free encyclopedia
En statistiques, on appelle médiane d'une série statistique quantitative un nombre tel qu'une moitié des valeurs de cette série lui sont inférieures, et l'autre moitié lui sont supérieures (en comptant, pour chaque valeur, toutes ses apparitions dans la série). Elle sépare donc la série ordonnée en deux sous-séries de même effectif.
En haut: série statistique de 11 termes représentant l’âge à l’élection des présidents de la République française élus au suffrage universel depuis 1965.
En bas: en rangeant ces valeurs dans l’ordre croissant, la médiane est la valeur centrale, celle du 6e terme: elle partage la série ordonnée en deux sous-séries d’égales longueurs: la médiane est 57.
En théorie des probabilités, on appelle médiane d’une variable aléatoire réelle un nombre tel que a au moins une chance sur deux d'être supérieure à , et au moins une chance sur deux de lui être inférieure: et .
On peut aussi définir la médiane d'une série qualitative ordonnée ou d'une variable ordinale.
Comme la moyenne, la médiane est un indicateur de tendance centrale: elle résume la série statistique en une valeur représentative. Par comparaison avec la moyenne, elle est insensible aux valeurs extrêmes mais son calcul est un petit peu plus complexe. En particulier, elle ne peut s’obtenir à partir des médianes de sous-groupes.
La donnée de la médiane peut s’accompagner des quartiles ou d’autres quantiles, notamment pour visualiser la distribution des valeurs à l’aide d’un diagramme en boite. La notion peut aussi être utilisée pour construire des estimateurs ou pour définir l’algorithme de recherche par médiane des médianes.
Mode de calcul
Démarche générale
La méthode consiste à ordonner les valeurs en une liste croissante et à choisir la valeur qui est au centre de cette liste. Pour une liste ordonnée de éléments, étant impair, la valeur de l'élément à la position est la médiane. Si le nombre d'éléments est pair, toute valeur comprise entre les éléments en positions et est une médiane[1]; en pratique, dans le cas d'une liste de nombres, c'est la moyenne arithmétique de ces deux valeurs centrales qui est en général utilisée[2],[3].
La complexité de l'algorithme de calcul de la médiane est donc la complexité de l'algorithme de tri utilisé, soit au mieux O(n log n).
Exemples
Ensemble de 7 entiers: {12; 5; 6; 89; 5; 2390; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89, 2390. La médiane est le 4eélément de cette série, donc 6: quatre valeurs de l'ensemble sont inférieures ou égales à 6, et quatre sont supérieures ou égales à 6.
Ensemble de 6 entiers: {12; 5; 6; 89; 5; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89. Toute valeur comprise entre le 3e et le 4eéléments de cette série, donc entre 5 et 6, peut être choisie comme médiane. Si l'on choisit arbitrairement 5,7 (qui est compris entre 5 et 6) trois éléments sont inférieurs ou égaux à 5,7 et trois y sont supérieurs, donc 5,7 est une médiane, mais c'est aussi le cas de 5,141, de 5,9 ou de 5,5. On prendra généralement cette dernière valeur comme médiane puisqu'elle est la moyenne arithmétique des deux éléments centraux 5 et 6.
Supposons 21 personnes dans une pièce. Chacune prend l'argent de sa poche et le pose sur une table: 20 personnes posent 5 euros, et la dernière pose 10 000 euros. La médiane est l'élément central, le onzième, de la liste ordonnée 5, 5, 5, …, 5, 10 000. C'est donc 5: onze personnes détenaient chacune au moins 5 euros, et onze détenaient au plus 5 euros. On remarque que si la personne la plus riche ne s'était pas présentée, la médiane aurait été la même (5 €), mais la moyenne aurait radicalement changé (5 € au lieu de 480,95 €).
Pour la série (0,1,3,6,7,9), tracé de la courbe des effectifs cumulés rapportés à l'effectif total. La première valeur qui dépasse 1/2 est 3; étant pair, on choisit comme médiane la moyenne entre 3 et la valeur suivante: 6.Un sondage express réalisé auprès de 50 utilisateurs de Wikipédia révèle que 12 des sondés se disent très satisfaits, 7 très insatisfaits, 20 plutôt satisfaits et les autres se disent plutôt insatisfaits. Cet ensemble de réponses peut être rangé par satisfaction croissante, et on obtient une liste de cinquante éléments dans cet ordre: 7 très insatisfaits, 11 plutôt insatisfaits, 20 plutôt satisfaits, 12 très satisfaits. Les deux éléments centraux, le 25e et le 26e, ont la même valeur: « plutôt satisfait ». Cette valeur est donc la valeur médiane de l'ensemble des réponses.
Autres démarches
Pour déterminer une médiane d'une série statistique, il suffit de calculer les effectifs cumulés croissants rapportés à l'effectif total et on prend la première valeur de la série dont l'effectif cumulé rapporté atteint ou dépasse 1/2 (voir figure). Cette méthode est plus pratique lorsque l'on a un grand nombre de valeurs[Information douteuse].Tracé de pour la série (0,1,3,6,7,9); le minimum est atteint entre 3 et 6, donnant les valeurs médianes.
Les valeurs médianes de sont les valeurs de qui minimisent
(voir figure).
Efficacité des algorithmes
Il existe des algorithmes de complexité linéaire (en O(n)), donc plus performants[4]. Il s'agit d'algorithmes qui permettent de manière générale de déterminer le k-ième élément d'une liste de n éléments (voir Algorithme de sélection); k = n/2 pour la médiane. Ce sont des adaptations des algorithmes de tri, mais qui sont plus performants du fait que l'on ne s'intéresse pas à toutes les valeurs. On peut par exemple utiliser l'algorithme diviser pour régner en seulement O(n) opérations; c'est le cas de l'algorithme quickselect, variation du Tri rapide (quicksort), qui est en général en O(n) mais peut être en O(n2) dans le pire des cas.
Dans la pratique, si l'on cherche la médiane d'une liste de n entiers, et si l'on a la chance de constater que la valeur maximale m est inférieure à n2 (cette constatation coûte O(n)), alors le tri par comptage, de mise en œuvre très facile et dont le coût est, en l'espèce, de O(m) opérations, permet d'obtenir la médiane en moins de O(n2) opérations. Ce cas s'applique en particulier au cas des notes sur 20 (sans décimales) d'une classe de plus de 5 élèves (5 au carré est supérieur à 20).
Mesure de la dispersion statistique
Lorsque la médiane est utilisée pour situer des valeurs en statistiques descriptives, il existe différentes possibilités pour exprimer la variabilité: l'étendue, l'écart interquartile et l'écart absolu.
Pour toutes distributions symétriques, la médiane est égale à l'axe de symétrie:
Par la relation de Chasles, on a:
Or puisque la fonction est paire alors d'où:
Cette dernière intégrale correspond à la définition de la médiane pour une variable aléatoire réelle continue.
Pour toutes distributions symétriques, la médiane est égale à l'espérance:
Soit l'espérance de la variable aléatoire X telle que:
En posant le changement de variable :
Or puisque les fonctions et sont respectivement paire et impaire, alors la fonction est une fonction impaire. Par conséquent, l'intégrale est nulle. D'où finalement l'égalité entre l'espérance et la médiane .
La médiane de la loi de Cauchy avec le critère de position x0 et le paramètre d'échelle y est x0, le critère de position.
La médiane de la loi exponentielle avec le facteur d'échelle λ est la division du logarithme népérien de 2 par le facteur d'échelle, soit (ln 2)/λ.
La médiane de la distribution de Weibull avec le facteur de forme k et le facteur d'échelle λ est λ(ln 2)1/k.
Médianes en statistiques descriptives
Mode, médiane et moyenne de deux distributions différentes suivant la loi log-normale.
La médiane est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique. Considérons l'ensemble {1, 2, 2, 2, 3, 9}. La médiane est 2, tout comme le mode, ce qui est une meilleure mesure de tendance centrale que la moyenne arithmétique égale à 3,166….
Le calcul de la médiane est couramment effectué pour représenter différentes distributions et elle est facile à comprendre, tout comme à calculer. Elle est aussi plus robuste que la moyenne en présence de valeurs extrêmes.
Propriétés théoriques
Propriété optimale
La médiane est aussi la valeur centrale qui minimise la valeur moyenne des écarts absolus. Dans la série {1, 2, 2, 2, 3, 9} donnée auparavant, ce serait (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, plutôt que 1,944 à partir de la moyenne, qui, elle, minimise les écarts quadratiques. En théorie des probabilités, la valeur c qui minimise
est la médiane de la distribution de probabilités de la variable aléatoireX.
Inégalité impliquant les moyennes et les médianes
Pour les distributions continues de probabilités, la différence entre la médiane et l'espérance est au plus d'un écart type.