Indicateur de dispersion

En statistique, un indicateur de dispersion mesure la variabilité des valeurs d’une série statistique. Il est toujours positif et d’autant plus grand que les valeurs de la série sont étalées. Les plus courants sont la variance, l'écart-type et l'écart interquartile.

Ces indicateurs complètent l’information apportée par les indicateurs de position ou de tendance centrale, mesurés par la moyenne ou la médiane.

Dans la pratique, c'est-à-dire dans l'industrie, les laboratoires ou en métrologie, où s'effectuent des mesurages, cette dispersion est estimée par l'écart type.

Exemples d'indicateurs

Pou run ensemble de données, un indicateur de dispersion est un nombre réel positif, de la même unité que celle utilisée pour les données, nul si toutes les mesures sont égales et augmente à mesure que les données sont éloignées les unes des autres.

Les exemples les plus classiques sont :

l'écart type
l'écart interquartile
l'étendue
l'écart moyen (ou différence moyenne absolue de Gini)
l'écart absolu médian (en)
la valeur absolue des écarts
la corrélation de distance (en)

Elles sont fréquemment utilisées (en association avec des facteurs d'échelle) comme estimateurs de paramètres d'échelle, et sont alors appelées estimations d'échelle. » Les mesures robustes d'échelle sont celles qui ne sont pas affectées par un petit nombre de valeurs aberrantes, et comprennent l'écart interquartile et l'écart médian absolu.

Toutes les mesures de dispersion statistique ci-dessus ont la propriété utile d'être « invariantes en position » et « linéaires en échelle ». Cela signifie que si une variable aléatoire $X$ a une dispersion de $S_{X}$ , alors une transformation linéaire $Y=aX+b$ pour des réels $a$ et $b$ devrait avoir une dispersion $S_{Y}=|a|S_{X}$ .

D'autres mesures de dispersion sont « sans dimension ». En d'autres termes, elles n'ont pas d'unités, même si la variable elle-même en possède. Il s'agit notamment :

du coefficient de variation
du coefficient de dispersion par quartile (en)
Différence moyenne relative, égale au double du coefficient de Gini
Entropie : alors que l'entropie d'une variable discrète est invariante en position et indépendante de l'échelle, et ne constitue donc pas une mesure de dispersion au sens ci-dessus, l'entropie d'une variable continue est invariante en position et additive en échelle : si $H(z)$ est l'entropie d'une variable continue $z$ et $z=ax+b$ , alors $H(z)=H(x)+\log(a)$ .

Il existe d'autres mesures de dispersion :

la variance (le carré de l'écart type) – invariante par rapport à la position mais non linéaire en échelle ;
le rapport variance/moyenne (en) – principalement utilisé pour les données de comptage lorsque le terme coefficient de dispersion est employé et lorsque ce rapport est sans dimension, car les données de comptage sont elles-mêmes sans dimension, mais pas dans les autres cas.

Certaines mesures de dispersion ont des applications spécifiques. La variance d'Allan peut être utilisée dans les cas où le bruit perturbe la convergence^[1]. La variance de Hadamard peut être utilisée pour contrer la sensibilité à la dérive linéaire de fréquence^[2]

Étendue

L'étendue est la différence entre la valeur maximale et la valeur minimale du caractère statistique : $x max - x min$ .

Exemple : soit une série de mesures {8, 1, 2, 3, 7, 10, 9} ; la valeur maximale $x max$ est 10 et la valeur minimale $x min$ est 1. L'étendue de cette série statistique vaut donc 10-1 = 9.

Écart interquartile

Article détaillé : Écart interquartile.

L'écart interquartile est la différence entre le troisième et le premier quartiles.

Écart interquartile = Q₃ − Q₁

Il correspond à l'étendue de la série statistique après élimination de 25 % des valeurs les plus faibles et de 25 % des valeurs les plus fortes. Cette mesure est plus robuste que l'étendue, qui est sensible aux valeurs extrêmes.

Dispersion autour de la moyenne

Une fois calculée la moyenne, ${\bar {x}}$ , on peut chercher à savoir de quelle façon les valeurs s'en éloignent. On crée alors une nouvelle série statistique : la série des écarts. On définit un écart comme la différence entre une valeur et la moyenne

e_{i}=x_{i}-{\bar {x}}

Écart moyen

Article détaillé : Écart moyen.

La moyenne de ces écarts pourrait sembler un bon indicateur, mais les propriétés de la moyenne font qu'elle est nulle. En effet, certains de ces écarts sont négatifs et d'autres sont positifs, la somme des écarts positifs compensant exactement la somme des écarts négatifs. Pour s'abstraire du signe, on calcule la moyenne de la valeur absolue des écarts, soit l'écart moyen.

Variance

Article détaillé : Variance (mathématiques).

La fonction valeurs absolues n'étant pas dérivable, elle n'est pas compatible avec certaines analyses. Pour rendre positifs les écarts, on recourt alors à la mise au carré. La moyenne des carrés des écarts ainsi calculée est la variance, qui s'exprime ainsi :

$V={\frac {1}{n}}\sum _{i=1}^{n}e_{i}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}$ dans le cas d'une série discrète non triée ;
$V={\frac {\sum _{i=1}^{n}n_{i}(x_{i}-{\bar {x}})^{2}}{\sum _{i=1}^{n}n_{i}}}=\sum _{i=1}^{n}f_{i}(x_{i}-{\bar {x}})^{2}$ dans le cas d'une série discrète regroupée ;
$V={\frac {\sum _{i=1}^{n}n_{i}(m_{i}-{\bar {x}})^{2}}{\sum _{i=1}^{n}n_{i}}}=\sum _{i=1}^{n}f_{i}(m_{i}-{\bar {x}})^{2}$ dans le cas d'une série continue.

La disparition des valeurs absolues permet des calculs plus simples. On démontre que la variance peut se calculer plus simplement par les formules suivantes :

$V={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\bar {x}}^{2}$ dans le cas d'une série discrète non triée ;
$V={\frac {\sum _{i=1}^{n}n_{i}x_{i}^{2}}{\sum _{i=1}^{n}n_{i}}}-{\bar {x}}^{2}=\sum _{i=1}^{n}f_{i}x_{i}^{2}-{\bar {x}}^{2}$ dans le cas d'une série discrète regroupée ;
$V={\frac {\sum _{i=1}^{n}n_{i}m_{i}^{2}}{\sum _{i=1}^{n}n_{i}}}-{\bar {x}}^{2}=\sum _{i=1}^{n}f_{i}m_{i}^{2}-{\bar {x}}^{2}$ dans le cas d'une série continue.

Écart type

Article détaillé : Écart type.

En raison de la mise au carré des écarts, l'unité de la variance est le carré de celle du caractère (ex. : si le caractère est en kg, sa moyenne est en kg, mais sa variance est en kg²), d'où l'impossibilité d'additionner la moyenne et la variance. On définit donc l'écart type, noté $σ$ , comme étant la racine de la variance ; son unité est ainsi la même que celle de la moyenne. La possibilité d'additionner moyenne et écart type est fondamentale, en particulier pour le calcul d'intervalles de confiance (voir plus bas).

$\sigma ={\sqrt {{\dfrac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}$ dans le cas d'une série discrète non triée ;
$\sigma ={\sqrt {\dfrac {\sum _{i=1}^{n}n_{i}(x_{i}-{\overline {x}})^{2}}{\sum _{i=1}^{n}n_{i}}}}={\sqrt {\sum _{i=1}^{n}f_{i}(x_{i}-{\overline {x}})^{2}}}$ dans le cas d'une série discrète regroupée ;
$\sigma ={\sqrt {\dfrac {\sum _{i=1}^{n}n_{i}(m_{i}-{\overline {x}})^{2}}{\sum _{i=1}^{n}n_{i}}}}={\sqrt {\sum _{i=1}^{n}f_{i}(m_{i}-{\overline {x}})^{2}}}$ dans le cas d'une série continue.

Propriétés de l'écart type

Invariance par translation: L'écart type n'est pas modifié si on ajoute ou retranche une constante à la série statistique. Si $y i = x i + C$ alors $σ y = σ x$ .
Stabilité par multiplication par une constante: Si on multiplie une série par une constante positive, l'écart type est multiplié par la même constante. Si $y i = K x i$ alors $σ y = K σ x$ .
Positivité: L'écart type est toujours positif ; il n'est nul que si la série statistique est constante.
Sensibilité aux valeurs extrêmes: Comme la moyenne, l'écart type est sensible aux valeurs extrêmes ou aberrantes et il est parfois nécessaire d'éliminer ces valeurs avant de faire le calcul de l'écart type.

Écart type relatif

Pour comparer deux séries statistiques qui n'ont pas le même ordre de grandeur, il est parfois bon de comparer l'écart type et la moyenne en faisant le quotient, on obtient alors l'écart type relatif. $\sigma /{\overline {x}}$ .

Remarque : l'écart type relatif est aussi appelé coefficient de variation.

Intervalle de confiance ou plage de normalité

Article détaillé : intervalle de confiance.

Lorsque le caractère statistique a une distribution normale gaussienne, grossièrement en forme de cloche, l'écart type prend tout son sens :

dans l'intervalle $[{\bar {x}}-\sigma ,{\bar {x}}+\sigma ]$ , on trouve 68 % de la population ;
dans l'intervalle $[{\bar {x}}-2\sigma ,{\bar {x}}+2\sigma ]$ , on trouve 95 % de la population ;
dans l'intervalle $[{\bar {x}}-3\sigma ,{\bar {x}}+3\sigma ]$ , on trouve 99,7 % de la population.

Ces intervalles sont les plages de normalité à niveau de confiance de 68 %, 95 %, 99,7 % (voir la règle 68-95-99,7).

Diamètres d'ordre r

Lorsqu'on dispose d'un ensemble de points $(M_{i})_{i=1,...,n}$ , par exemple dans le plan, on peut mesurer la dispersion des points en utilisant les distances $d_{i,j}$ entre les couples de points différents. On appelle alors diamètre d'ordre r (où r est un réel non nul) le coefficient $D_{r}=\left({\frac {2}{n(n-1)}}\sum _{i<j}{d_{i,j}}^{r}\right)^{\frac {1}{r}}$ . Le diamètre d'ordre 0 est défini comme la limite, lorsque les $d i, j$ sont tous non nuls, de $D r$ , pour $r$ tendant vers 0.

Nicolas Gauvrit et Jean-Paul Delahaye ont montré que la meilleure valeur possible (parmi les diamètres d'ordre r) pour capturer la notion intuitive de dispersion est le diamètre d'ordre 0 : c'est celle qui correspond le mieux à ce que répondent des sujets adultes à qui on demande des estimations de dispersion^[3].

Question de minimum

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

La médiane est la valeur qui rend minimum la fonction f définie par

$f(X)={\dfrac {1}{n}}\sum _{i=1}^{n}|x_{i}-X|$ dans le cas d'une série discrète triée non regroupée.

La moyenne est la valeur qui rend minimum la fonction g définie par

$g(X)={\sqrt {{\dfrac {1}{n}}\sum _{i=1}^{n}(x_{i}-X)^{2}}}$ dans le cas d'une série discrète non triée.
$g(X)={\sqrt {\dfrac {\sum _{i=1}^{n}n_{i}(x_{i}-X)^{2}}{\sum _{i=1}^{n}n_{i}}}}={\sqrt {\sum _{i=1}^{n}f_{i}(x_{i}-X)^{2}}}$ dans le cas d'une série discrète regroupée.
$g(X)={\sqrt {\dfrac {\sum _{i=1}^{n}n_{i}(m_{i}-X)^{2}}{\sum _{i=1}^{n}n_{i}}}}={\sqrt {\sum _{i=1}^{n}f_{i}(m_{i}-X)^{2}}}$ dans le cas d'une série continue.