Distribution multimodale

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article n’est pas rédigé dans un style encyclopédique (décembre 2022).

Vous pouvez améliorer sa rédaction !

En probabilités et en statistique, une distribution multimodale est une distribution statistique présentant plusieurs modes, c'est-à-dire plusieurs maximums locaux de la distribution.

Dans ce cas précis, une distribution bimodale résultante d'un mélange de deux distributions normales avec la même variance mais des moyennes différentes. Si les poids n'étaient pas égaux, la distribution résultante pourrait toujours être bimodale mais avec des pics de hauteurs différentes.

Les distributions multimodales peuvent être rencontrées dans divers domaines, dont :

les sondages d’opinion ;
la production industrielle^[1], qui cherche généralement à éviter les phénomènes multimodaux souvent révélateurs d’un facteur d’influence non-maîtrisé dans le processus ;
les phénomènes liés à la climatologie, à l'analyse du débit des rivières^[2], à la géologie^[3].

La distribution peut être utilisée pour sa capacité prédictive comme n’importe quelle densité de probabilité ou fonction de répartition : l’observateur cherche à établir la loi de probabilité du phénomène étudié sur la base d’observations expérimentales dans le but d'évaluer la probabilité d'événements n'étant pas dans la base d'observations initiales.

De manière plus analytique, elle est souvent étudiée après modélisation pour comprendre la raison de la multimodalité. La loi de probabilité observée peut, par exemple, être décomposée en deux, ou plusieurs, lois élémentaires uni-modales, chacune s’appliquant avec une occurrence qui lui est propre. Ce processus d’identification est complexe, difficile à maîtriser comme peut l'être par exemple l'identification de superposition de fréquences (analyse spectrale) ou de mélanges de lois.

Le cadre étudié est celui des variables aléatoires continues (ou variables aléatoires à densité).

Explications informelles

Ce qu’indique la multimodalité d’une distribution

La multimodalité d’une distribution indique deux possibilités :

l’échantillon n’est pas homogène, mais composé de plusieurs familles d’individus présentant des caractéristiques différentes^[4] ;
le phénomène observé présente plusieurs réponses, suffisamment distinctes pour qu’elles émergent du bruit naturel, l’occurrence de chacune de ces réponses étant stable dans le temps^[5].

À l'inverse, l'unimodalité d'une distribution ne constitue pas en soi une preuve d’homogénéité de l’échantillon : un échantillon peut être hétérogène vis-à-vis d’une caractéristique donnée, sans que cela ne fasse émerger plusieurs modes sur la variable aléatoire étudiée.

À titre de contre-exemple, soit un échantillon composé de :

50 % d’individus suivant une loi normale de moyenne $m_{1}=-1$ et d’écart-type $\sigma _{1}=1$ ;
50 % d’individus suivant une loi normale de moyenne $m_{2}=+1$ et d’écart-type $\sigma _{2}=1$ .

Bien que cet échantillon soit hétérogène par construction, la distribution résultante ne présente qu’un mode, certes plus étendu que ceux des deux distributions normales à l’origine de la réponse d’ensemble, mais l'effet de l’hétérogénéité reste noyé dans le bruit naturel apporté par les variances des deux lois normales de base.

Partant du contre-exemple précédent, la bimodalité de la distribution résultante apparaît si l'on « écarte » davantage les deux lois normales :

en diminuant la moyenne de la première loi $(m_{1}:-1\rightarrow -2)$ ;
et en augmentant celle de la deuxième loi $(m_{2}:+1\rightarrow +2)$ ;
les deux écarts-types restants inchangés $(\sigma _{1}=\sigma _{2}=1)$ .

Le paramètre clé qui fait apparaître (ou non) la bimodalité de la loi résultante est le biais réduit, c'est-à-dire le paramètre ${\frac {|m_{1}-m_{2}|}{\max(\sigma _{1},\sigma _{2})}}$ . Aucun lien immédiat n'existe entre le nombre de composants présents dans un mélange et le nombre de modes de la densité de probabilité résultante.

Une distribution multimodale est-elle la somme de distributions unimodales ?

Le mélange de lois unimodales permet, sous certaines conditions, de créer un grand nombre de distributions multimodales (sens direct).

En revanche, retrouver à partir de la donnée de la distribution multimodale les lois unimodales qui la composent et leurs occurrences associées est une entreprise plus ardue (sens inverse) : la décomposition, toujours possible, n'est pas unique.

Pour illustrer la non-unicité d'une telle décomposition, on considère la distribution bimodale donnée par les deux figures ci-contre (courbe en violet). Cette distribution bimodale peut être vue comme le mélange de :

Une distribution uniforme d'étendue [-4 ;-1] d'occurrence 20% et une distribution unimodale (courbe verte, dont l'abscisse du mode est située à environ 0,9) d'occurrence 80% ;
Une distribution unimodale (courbe verte, dont l'abscisse du mode est située à environ -1) d'occurrence 40% et d'une distribution unimodale (courbe bleue, dont l'abscisse du mode vaut 1) d'occurrence 60%.

1^re possibilité de décomposition
2^de possibilité de décomposition

Terminologie

Homoscédastique

Un ensemble d'échantillons est dit homoscédastique si leur variance est uniforme.

Mode mineur, majeur et antimode

Lorsque deux modes sont inégaux (c'est-à-dire que la densité de probabilité ne présente pas la même valeur pour ces deux modes) :

le plus grand mode est appelé mode majeur, ;
l'autre, le mode mineur ;
la valeur la moins fréquente entre les modes est appelée antimode.

Mélange de deux lois unimodales (sens direct)

Le mélange de deux distributions unimodales constitue un moyen de générer des distributions bimodales, à condition que l'écartement des modes de ces lois de base soit grand devant les variances de ces dernières.

Les propriétés du mélange peuvent être déterminées à partir de celles des lois unimodales de base employées et de leurs occurrences.

$X$ désigne la variable aléatoire continue étudiée.

Dans ce sens direct, les 2 distributions de base sont connues, ainsi que leurs occurrences associées :


Caractéristiques	Distribution n^o 1	Distribution n^o 2
Densité de probabilité	$f_{1}(x)$	$f_{2}(x)$
Fonction de répartition	$F_{1}(x)$	$F_{2}(x)$
Espérance (ou moyenne)	$m_{1}$	$m_{2}$
Variance	$\sigma _{1}^{2}$	$\sigma _{2}^{2}$
Occurrence	$p_{1}$	$p_{2}=1-p_{1}$

Les distributions impliquées peuvent être quelconques : aucune hypothèse n’est faite sur la normalité ou non de ces lois.

Loi de distribution du mélange

Soient $g (x)$ la densité de probabilité recherchée, et $G (x)$ la fonction de répartition associée.

L’application des probabilités conditionnelles permet d’écrire :

d\mathbb {P} \left(x\leq X\leq x+dx\right)=d\mathbb {P} \left(x\leq X\leq x+dx\,|\,{\textrm {loi}}_{1}\right)\cdot p_{1}+d\mathbb {P} \left(x\leq X\leq x+dx\,|\,{\textrm {loi}}_{2}\right)\cdot p_{2}.

D'où l'expression de la densité de probabilité du mélange : $g(x)=p_{1}\cdot f_{1}(x)+p_{2}\cdot f_{2}(x).$

Cette densité de probabilité est convenablement normalisée, puisque son intégrale sur le domaine de définition de $X$ capture l'ensemble des effectifs :

\int _{-\infty }^{+\infty }g(x)\,\mathrm {d} x=p_{1}\,\int _{-\infty }^{+\infty }f_{1}(x)\,\mathrm {d} x+p_{2}\,\int _{-\infty }^{+\infty }f_{2}(x)\,\mathrm {d} x=p_{1}+p_{2}=1.

Le même raisonnement s'applique sur la fonction de répartition du mélange :

$G(x)=p_{1}\cdot F_{1}(x)+p_{2}\cdot F_{2}(x).$

Espérance du mélange

Connaissant désormais l'expression de la densité de probabilité du mélange, le calcul de l'espérance s'effectue comme suit :

$\mathbb {E} \left(X\right)=\int _{-\infty }^{+\infty }x\,g(x)\,\mathrm {d} x=p_{1}\int _{-\infty }^{+\infty }x\,f_{1}(x)\,\mathrm {d} x+p_{2}\int _{-\infty }^{+\infty }x\,f_{2}(x)\,\mathrm {d} x=p_{1}\,m_{1}+p_{2}\,m_{2}.$

Le résultat trouvé correspond à l'intuition : l'espérance du mélange est le barycentre des espérances de chaque loi pondéré par leur occurrence.

Variance du mélange

Par indépendance, la moyenne des carrés $\mathbb {E} (X^{2})$ est une forme linéaire des occurrences $p_{1}$ et $p_{2}$ : $\mathbb {E} (X^{2})=p_{1}\,\left(\sigma _{1}^{2}+m_{1}^{2}\right)+p_{2}\,\left(\sigma _{2}^{2}+m_{2}^{2}\right)$ .

Le carré de l'espérance vaut : $\mathbb {E} (X)^{2}=(p_{1}\,m_{1}+p_{2}\,m_{2})^{2}$ .

D'où l'expression de la variance du mélange — toujours sous la condition $\left(p_{1}+p_{2}=1\right)$ :

$V(X)=\mathbb {E} (X^{2})-\mathbb {E} (X)^{2}=p_{1}\,\sigma _{1}^{2}+p_{2}\,\sigma _{2}^{2}+p_{1}\,p_{2}\,\left(m_{1}-m_{2}\right)^{2}.$

Cette expression montre que tout écart sur les moyennes, quel que soit le signe de cet écart, contribue à augmenter la variance du mélange.

L'écart type $(\sigma )$ du mélange s'obtient par sa définition habituelle : $\sigma ={\sqrt {V(X)}}$ .

Mélange de deux distributions unimodales identiques mais simplement décalées

Ce cas de figure est fréquent, et présente une propriété permettant de retrouver les occurrences ( $p_{1}$ et $p_{2}=1-p_{1}$ ) par la lecture de la densité de probabilité du mélange.

Ce cas particulier est caractérisé par :

$f_{1}(x)$ $f_{1}(x)$ est la densité de probabilité d'une distribution unimodale :
- son mode est rencontré en $x_{1}$ ;
- l'occurrence de cette distribution est $p_{1}$ .
L'autre densité est obtenue par translation des abscisses de $f_{1}$ $f_{1}$ de la valeur d'un biais uniforme (noté $b$ $b$ ) :
- $\forall x\;f_{2}(x)=f_{1}(x-b)$ ;
- de même, $f_{1}(x)=f_{2}(x+b)$ ;
- le mode de $f_{2}$ est rencontré en $x_{2}=x_{1}+b$ ;
- l'occurrence de cette distribution est $p_{2}=1-p_{1}$ .

Si le biais $(b)$ est suffisant, le mélange de ces deux distributions est bimodal. Soient :

$g(x)$ la densité de probabilité du mélange ;
$x_{1m}$ l'abscisse du premier mode de $g(x)$ ;
$x_{2m}$ l'abscisse du second mode de $g(x)$ .

Une propriété de ce cas de figure est que le rapport des deux maxima de la fonction $g(x)$ donne le rapport des deux occurrences :

${\frac {g(x_{1m})}{g(x_{2m})}}\approxeq {\frac {p_{1}}{p_{2}}}={\frac {p_{1}}{1-p_{1}}}.$

Démonstration

Soit $R$ ce rapport : $R={\frac {g(x_{1m})}{g(x_{2m})}}={\frac {p_{1}\cdot f_{1}(x_{1m})+p_{2}\cdot f_{2}(x_{1m})}{p_{1}\cdot f_{1}(x_{2m})+p_{2}\cdot f_{2}(x_{2m})}}\approxeq {\frac {p_{1}\cdot f_{1}(x_{1m})}{p_{2}\cdot f_{2}(x_{2m})}}.$

En effet, puisque le biais $(b)$ doit être suffisamment grand (devant l'écart type de $f_{1}$ et $f_{2}$ ) pour faire émerger le caractère bimodal :

La contribution de la densité $f_{2}$ aux alentours du premier mode $(x_{1m})$ est négligeable devant celle de $f_{1}$
Et vice versa aux alentours du second mode $(x_{2m}).$

Le premier mode $(x_{1m})$ de la densité du mélange $g(x)$ n'est pas strictement celui de la fonction $f_{1}$ . Cette dernière peut être développée au voisinage de son mode $(x_{1})$ , qui — par définition du mode — annule sa dérivée :

$f_{1}(x_{1m})=f_{1}(x_{1})+(x_{1m}-x_{1})\cdot \underbrace {{\bigl (}{df_{1} \over dx}{\bigr )}_{x_{1}}} _{=0}+O\,(x_{1m}-x_{1})^{2}=f_{1}(x_{1})+O\,(x_{1m}-x_{1})^{2}.$

De même : $f_{2}(x_{2m})=f_{2}(x_{2})+O\,(x_{2m}-x_{2})^{2}.$

D'où : $R\approxeq {\frac {p_{1}\,f_{1}(x_{1})}{p_{2}\,f_{2}(x_{2})}}.$

La densité $f_{2}$ est obtenue (par hypothèse) par translation de $f_{1}$ en bloc sur les abscisses, donc : $f_{2}(x_{2})=f_{1}(x_{2}-b)=f_{1}(x_{1}).$

Il vient finalement : $R\approxeq {\frac {p_{1}}{p_{2}}}.$

Mélange de deux distributions normales

Il s'agit d'un autre cas de figure suffisamment fréquent pour que ce mélange ait été étudié en détail^[6].

La loi régissant la distribution du mélange de deux lois normales possède 5 paramètres :

la moyenne de la première loi normale $(m_{1})$ ;
l'écart-type de la première loi normale $(\sigma _{1})$ ;
la moyenne de la seconde loi normale $(m_{2})$ ;
l'écart-type de la seconde loi normale $(\sigma _{2})$ ;
l'occurrence $(p_{1})$ de la première loi, celle de la seconde étant une conséquence $(p_{2}=1-p_{1})$ .

Conditions de bimodalité du mélange

Les conditions nécessaires et suffisantes pour que le mélange de distributions normales soit bimodal ont été identifiées par Ray et Lindsay^[7].

Une condition nécessaire pour qu'un mélange homoscédastique de deux distributions normales — i.e. dont les écarts-types sont égaux $(\sigma _{1}=\sigma _{2})$ — soit bimodal est que leurs moyennes diffèrent d'au moins 2 fois l'écart-type commun^[8].

Conditions d'unimodalité du mélange

Une condition suffisante pour l'unimodalité du mélange est que^[9]: $\mid m_{1}-m_{2}\mid \leq 2\,\min(\sigma _{1},\sigma _{2})$ .

Cas homoscédastique

Une condition suffisante pour l'unimodalité du mélange dans le cas où les deux variances sont identiques^[9]: $\mid m_{1}-m_{2}\mid \leq 2\sigma \,{\sqrt {1+{\frac {|\ln p_{1}-\ln p_{2}|}{2}}}}$ .

Une condition nécessaire et suffisante pour l'unimodalité du mélange^[10]:

Soit $d={\frac {|m_{1}-m_{2}|}{2\sigma }}$ : $d\leq 1$ ou bien : $|\ln p_{1}-\ln p_{2}|\geq 2\,\ln \left(d-{\sqrt {d^{2}-1}}\right)+2\,d\,{\sqrt {d^{2}-1}}$ .

Cas où les deux occurrences sont égales (p1 = p2 = 0,5)

Une condition nécessaire et suffisante pour l'unimodalité du mélange^[8]:

Soient $r={\frac {\sigma _{1}^{2}}{\sigma _{2}^{2}}}$ et $S={\frac {\sqrt {-2+3r+3r^{2}-2r^{3}+2\left(1-r+r^{2}\right)^{\frac {3}{2}}}}{{\sqrt {r}}\,{\bigl (}1+{\sqrt {r}}{\bigr )}}}$ le facteur de séparation.

La densité du mélange est unimodale si, et seulement si, $|m_{1}-m_{2}|<S\,\left(\sigma _{1}+\sigma _{2}\right)$ .

Remarques

Si les deux écarts-types sont égaux, $S=1$ et l'on retrouve le critère d'espacement des moyennes de moins de 2 fois l'écart-type commun ;
Le critère $(S)$ est inchangé si l'on permute $\sigma _{1}$ et $\sigma _{2}$ : $S(r)=S\left({\frac {1}{r}}\right)$ ;
$S$ tend vers $0$ lorsque l'un des 2 écarts-types devient prépondérant par rapport à l'autre : $\lim _{r\rightarrow \,0}S=\lim _{r\rightarrow \,+\infty }S=0$ ;
La séparation des domaines uni/bimodal suivant cette condition est représentée par la figure 10.

Mélange de n lois (sens direct)

Le raisonnement peut être étendu au cas du mélange de $n$ lois quelconques.

Les expressions de la densité de probabilité $g(x)$ , de la fonction de répartition $G(x)$ , de l'espérance $\mathbb {E} (X)$ et de la variance $V(X)$ du mélange sont les suivantes :

${\begin{matrix}g(x)&=&\sum _{i=1}^{n}p_{i}\,f_{i}(x)\\G(x)&=&\sum _{i=1}^{n}p_{i}\,F_{i}(x)\\\mathbb {E} (X)&=&\sum _{i=1}^{n}p_{i}\,m_{i}\\V(X)&=&\sum _{i=1}^{n}p_{i}\,\sigma _{i}^{2}+\sum _{i=1}^{n}\,\sum _{j=i+1}^{n}p_{i}\,p_{j}\,{\bigl (}m_{i}-m_{j})^{2}\end{matrix}}$

Toujours sous la condition liant les occurrences : $\sum _{i=1}^{n}p_{i}=1$ .

Les conditions d'émergence de modes multiples sont plus complexes à formuler que dans le cas du mélange de 2 lois.

Statistiques descriptives

Les distributions bimodales constituent des exemples typiques où les paramètres classiques des statistiques descriptives (moyenne, médiane, écart-type) peuvent se révéler insuffisants, voire trompeurs :

la valeur de la moyenne (comme celle de la médiane) peut être située dans des classes creuses, ne représentant ainsi pas une valeur typique ;
l'écart-type cumule ceux des distributions impliquées dans le mélange et celui résultant du biais de moyenne (cf. sections précédentes).

Il n'existe actuellement aucune statistique descriptive universellement acceptée pour quantifier les paramètres d'une distribution multimodale dans le cas général, malgré des tentatives.

Rapport bimodal et amplitude de la bimodalité

En cas de distribution bimodale avérée, deux métriques peuvent être définies^[11] pour caractériser les différences d'amplitude entre les deux pics sur la densité de probabilité, obtenue en pratique par l'histogramme des effectifs observés par intervalles de valeurs sur la grandeur $(X)$ d'intérêt.

Le rapport bimodal $(R)$ ^[11] est défini comme le rapport des pics droit (indice $r$ comme right) et gauche (indice $l$ comme left) :

$R={\frac {g\,(x_{r})}{g\,(x_{l})}},$

où $g(x)$ désigne la densité de probabilité de la distribution bimodale étudiée, $x_{r}$ l'abscisse du pic droit, $x_{l}$ l'abscisse du pic gauche.

Cette quantité indique lequel des deux pics domine donc une indication sur les proportions du mélange $(p_{1}\,;\,p_{2}=1-p_{1})$ .

L'amplitude de la bimodalité $(A_{B})$ ^[11] est définie par le rapport suivant :

$A_{B}={\frac {g\,(x_{mode\;mineur})-g\,(x_{antimode})}{g\,(x_{mode\;mineur})}}.$

$A_{B}$ est toujours compris entre 0 et 1. Plus grande est sa valeur, plus les pics sont émergents^[11].

Séparation bimodale

Cet indice suppose que la distribution observée est un mélange de deux distributions normales ${\mathcal {N}}(m_{1};\sigma _{1})$ et ${\mathcal {N}}(m_{2};\sigma _{2})$ .

Les articles^[11]^,^[12] introduisent la métrique de séparation bimodale $(S)$ définie comme suit :

$S={\frac {m_{1}-m_{2}}{2\,(\sigma _{1}+\sigma _{2})}}.$ D'autres auteurs lui préfèrent : $D={\frac {|m_{1}-m_{2}|}{\sqrt {\frac {(\sigma _{1}^{2}+\sigma _{2}^{2})}{2}}}}.$ Ces métriques reviennent à la définition du « biais de moyenne réduit » - cf. section Explications informelles. Elles quantifient l'écartement des deux pics par rapport aux variances « naturelles » des 2 distributions normales constituant le mélange, l'idée étant que les deux pics doivent être suffisamment écartés pour qu'émerge le caractère bimodal du mélange.

Outre la restriction au mélange de distributions normales, on peut objecter à ces deux métriques que :

Lorsque l'observateur fait face à ses données brutes (histogramme des effectifs), il ne connaît généralement pas les 5 paramètres constitutifs du mélange de 2 lois normales $(m_{1}\,;\,m_{2}\,;\,\sigma _{1}\,;\,\sigma _{2}\,;\,p_{1})$ , nécessaires pour calculer ces métriques.
Que les proportions du mélange $(p_{1}\,;\,p_{2}=1-p_{1})$ n'interviennent pas dans ces formules proposées, alors que ces proportions interviennent dans les conditions d'unimodalité / multimodalité du mélange (cf. section Mélange de 2 distributions normales).
Lorsque l'observateur a identifié ces 5 paramètres par une méthode inverse, il n'a plus besoin de statistiques descriptives pour guider sa démarche d'identification.

Indices de bimodalité

Indice de Wang

Cet indice de bimodalité proposé par un article^[13] publié en 2009 suppose que la distribution observée résulte du mélange de deux distributions normales d'égales variances (cas homoscédastique), de moyennes $(m_{1}\,;\,m_{2})$ différentes, dans des proportions $(p_{1}\,;\,p_{2}=1-p_{1})$ différentes. Cet indice est défini comme suit : $BI={\frac {|m_{1}-m_{2}|}{\sigma }}\cdot \,{\sqrt {p\,(1-p)}}.$ Cet indice a du sens dans la mesure où :

Il résume le rapport des variances, entre celle du mélange $(\sigma _{glob})$ et celle des 2 lois normales $(\sigma )$ : ${\Bigl (}{\frac {\sigma _{glob}}{\sigma }}{\Bigr )}^{2}=1+BI^{2}$ .
Il constitue une combinaison des 4 paramètres $(m_{1}\,;\,m_{2}\,;\,\sigma \,;\,p)$ propres à ce type de mélange, et permettant de retrouver la séparation des domaines uni/bimodal vue précédemment (cf. Mélange de 2 distributions normales) — cf. figures 11 et 12.

Bien que la définition de cet indice incorpore la proportion de mélange $(p)$ , elle n'est pas suffisante pour capter tous les effets de cette proportion sur le comportement du mélange (cf. figure 11) et réduire ainsi l'analyse d'une dimension.

Cet indice est sujet aux mêmes objections que celles formulées à l'encontre des critères de séparation bimodale.

Mesure de l’accord (A) suivant Van der Eijk

Les travaux de Cees van der Eijk portent sur les comportements politiques comparés et leur méthode de mesure. Les distributions multimodales sont fréquentes dans ce domaine : elles révèlent différents groupes d’opinion.

Considérations liminaires

Dans son article référencé^[14], l’auteur :

rappelle que les métriques classiques (moyenne, écart-type) sont insuffisantes pour appréhender les distributions multimodales, car elles ne représentent pas convenablement ce qu'elles sont censées mesurer : la localisation des pics et leur acuité ;
propose une mesure $(A)$ de l’accord (Agreement) caractéristique d’un histogramme donné, une fois ce dernier décomposé en composantes élémentaires (ou « couches ») et pour lesquelles l'accord peut être exprimé de manière simple et sans équivoque.

La variable aléatoire examinée consiste en une échelle de notation à $(K)$ niveaux (ou rating scale). Si la variable aléatoire originelle est continue (variable à densité), il faut diviser son domaine en $(K)$ classes d’égale étendue.

En matière de sondages d’opinion, le nombre $(K)$ de niveaux est nécessairement limité pour des raisons pratiques liées au questionnaire, mais doit rester suffisamment élevé pour permettre une bonne résolution sur les écarts entre individus. Les échelles de 7, 9, 10 ou 11 points sont couramment pratiqués, cadre dans lequel s’inscrit la mesure $(A)$ de l’Accord.

L’échelle de l’Accord est adimensionnelle. L’auteur l’a construite de façon à respecter 3 niveaux caractéristiques :

La borne supérieure $(A=1)$ représente l’accord parfait : toutes les observations sont situées dans une seule classe de l’échelle de notation (quelle que soit la valeur associée à cette classe).
La borne intermédiaire $(A=0)$ représente l’absence d’accord : les observations sont équiréparties sur toutes les classes (distribution uniforme).
La borne inférieure $(A=-1)$ représente le désaccord maximal : les deux classes extrêmes de l’échelle de notation accueillent chacune la moitié des observations.

Analyse des distributions semi-uniformes

La méthode de Van der Eijk s’appuie sur une distribution élémentaire : la distribution semi-uniforme, dans laquelle les différentes classes offertes par l’échelle de notation sont soit vides, soit équi-peuplées.

Une telle distribution est complètement caractérisée par :

son effectif total ;
son motif : i.e. comment sont distribuées les classes vides et les classes non-vides.

Le motif est représenté par un $K$ -uplet de valeurs binaires : 0 représente une classe vide, 1 représente une classe non-vide.

Une distribution semi-uniforme est unimodale si et seulement si toutes les classes non-vides (i.e. les séquences de 1) sont contiguës.

Dans le cas contraire, où des 0 s’intercalent entre deux classes non-vides, la distribution semi-uniforme est multimodale.

Mesure de l’accord (A) pour les distributions semi-uniformes unimodales

La distribution étant unimodale, sa mesure d’unimodalité $(U)$ vaut 1 par construction de l'ensemble de la méthode.

Il reste alors à quantifier l’étendue des classes non-vides dans la plage permise par l’échelle de notation (à $K$ valeurs) pour obtenir la mesure de l’accord $(A)$ .

Soit $(S)$ le nombre de classes non-vides. L’auteur propose la forme linéaire suivante :

$A=1-{\frac {S-1}{K-1}}.$ Cette expression réalise les conditions limites souhaitées :

$A=1\,si\,S=1$ : lorsque toutes les observations sont situées dans une seule classe ;
$A=0\,si\,S=K$ : lorsque les observations sont équiréparties sur toutes les classes.

Toute étendue intermédiaire des classes non-vides $(1<S<K)$ aboutit à un accord $(A)$ compris entre 0 et 1, l’accord étant d’autant plus faible que l’on tend vers la distribution uniforme.

Remarquons que l’accord $(A)$ ne dépend que de l’étendue des classes non-vides contiguës, et non des valeurs de l’échelle de notation associées à cette localisation : sur une échelle de notation à 7 niveaux, les motifs $(0\,1\,1\,1\,0\,0\,0)$ et $(0\,0\,0\,0\,1\,1\,1)$ présentent la même valeur $A=2/3$ .

Mesure de l’accord (A) pour les distributions semi-uniformes multimodales

L’auteur propose de pondérer l’expression précédente de l’accord $(A)$ par une mesure d’unimodalité $(U)$ inférieure à 1, soit :

$A=U\,{\Bigl (}1-{\frac {S-1}{K-1}}{\Bigr )}.$

La mesure d’unimodalité $(U)$ est construite suivant le principe directeur selon lequel l’inclusion de nombreuses classes vides (0) entre deux séquences de classes non-vides (1), tendant à rejeter ces dernières sur les extrêmes de l’échelle de notation (à $K$ niveaux), traduit :

non pas l’absence d’accord ;
mais la manifestation d’un désaccord : $A<0$ , avec -1 comme valeur extrême.

La mesure d’unimodalité $(U)$ est évaluée par la méthode suivante :

Recensement des triplets de type (110), (011) ou (101) contenus dans le motif

L’évaluation de l’unimodalité $(U)$ demande de recenser tous les triplets constitués de deux « 1 » et d’un « 0 » parmi le K-uplet représentant le motif de la distribution semi-uniforme.

$(S)$ désignant toujours le nombre de classes non-vides, il représente le nombre de « 1 » contenus dans le motif. Le nombre de triplets recherchés vaut :

$N_{triplets}=C_{S}^{2}\times C_{K-S}^{1}={\frac {S\,(S-1)}{2}}\,(K-S).$

Catégorisation de ces triplets

Les triplets de type $(1\,1\,0)$ ou $(0\,1\,1)$ sont conformes à l’unimodalité : soit $TU$ le nombre de triplets répondant à ce type.
Les triplets de type $(1\,0\,1)$ dévient de l’unimodalité : soit $TDU$ le nombre de triplets répondant à ce type.

Évaluation de la mesure d’unimodalité (U)

L’auteur propose d’évaluer la mesure de l’unimodalité $(U)$ par la formule suivante :

$U={\frac {(K-2)\,TU\,-(K-1)\,TDU}{(K-2)\,(TU+TDU)}}.$

Remarques :

Cette mesure d’unimodalité $(U)$ tend vers 1 (distribution unimodale) lorsque $TDU$ tend vers 0 : pas de triplets de type $(1\,0\,1)$ déviant de l’unimodalité.

Le cas de bimodalité extrême est atteint lorsque les deux classes non-vides sont rejetés sur les bords du motif $(S=2\quad TU=0\quad TDU=K-2)$ , auquel cas :

La mesure d’unimodalité $(U)$ vaut $U=-{\frac {K-1}{K-2}}$ .
L’accord $(A)$ vaut : $A=U\,{\Bigl (}1-{\frac {S-1}{K-1}}{\Bigr )}=-{\frac {K-1}{K-2}}\cdot {\frac {K-2}{K-1}}=-1$ .

Décomposition d’un histogramme en couches de distributions semi-uniformes

L’histogramme réel contenant les observations n’a pas de raison de se conformer au modèle théorique de la distribution semi-uniforme défini précédemment.

En revanche, toute distribution (portant sur une échelle de notation à K niveaux) peut être décomposée sous la forme d’au plus $(K)$ couches de distributions semi-uniformes^[14].

Le principe de cette décomposition consiste :

À localiser la classe la moins représentée de l’histogramme, permettant de construire une première distribution uniforme : son accord $(A_{1})$ est nul.
Puis localiser la deuxième classe la moins représentée, permettant de construire une deuxième distribution semi-uniforme, avec une classe vide à l’endroit vidé par la première distribution. Son accord $(A_{2})$ est évalué par la méthode décrite précédemment.
Et ainsi de suite… jusqu’à avoir capturé tous les individus de l’histogramme.

La valeur finale de l’accord $(A)$ est obtenue par la somme pondérée des accords de chaque couche $(A_{i})$ par son poids $(\omega _{i})$ dans la distribution totale. Le poids $(\omega _{i})$ est défini comme le rapport des effectifs de la i^ème couche sur les effectifs totaux.

$A=\sum _{couches}\omega _{i}\cdot A_{i}.$

Ce mécanisme de décomposition est illustré par la figure ci-dessous :

**Figure 13.** Décomposition de l'histogramme des effectifs observés en couches de distributions semi-uniformes, sur un cas d'échelle de notation à 7 points.

Mise en œuvre de la méthode

Sur la base de l'exemple donné en Figure 13 :

La décomposition des effectifs de l'histogramme en 7 couches de distributions semi-uniformes est effectuée comme suit :

${\begin{array}{|c|c|c|}\hline Labels&A&B&C&D&E&F&G&Total&Poids(\omega )\\\hline Valeurs&1&2&3&4&5&6&7\\Observations&n_{1}&n_{2}&n_{3}&n_{4}&n_{5}&n_{6}&n_{7}&N\\\hline Couche\,1&n_{1}&n_{1}&n_{1}&n_{1}&n_{1}&n_{1}&n_{1}&7\,n_{1}&{\frac {7\,n_{1}}{N}}\\Couche\,2&0&n_{7}-n_{1}&n_{7}-n_{1}&n_{7}-n_{1}&n_{7}-n_{1}&n_{7}-n_{1}&n_{7}-n_{1}&6\,(n_{7}-n_{1})&{\frac {6\,(n_{7}-n_{1})}{N}}\\Couche\,3&0&n_{4}-n_{7}&n_{4}-n_{7}&n_{4}-n_{7}&n_{4}-n_{7}&n_{4}-n_{7}&0&5\,(n_{4}-n_{7})&{\frac {5\,(n_{4}-n_{7})}{N}}\\Couche\,4&0&n_{5}-n_{4}&n_{5}-n_{4}&0&n_{5}-n_{4}&n_{5}-n_{4}&0&4\,(n_{5}-n_{4})&{\frac {4\,(n_{5}-n_{4})}{N}}\\Couche\,5&0&n_{3}-n_{5}&n_{3}-n_{5}&0&0&n_{3}-n_{5}&0&3\,(n_{3}-n_{5})&{\frac {3\,(n_{3}-n_{5})}{N}}\\Couche\,6&0&n_{2}-n_{3}&0&0&0&n_{2}-n_{3}&0&2\,(n_{2}-n_{3})&{\frac {2\,(n_{2}-n_{3})}{N}}\\Couche\,7&0&0&0&0&0&n_{6}-n_{2}&0&n_{6}-n_{2}&{\frac {n_{6}-n_{2}}{N}}\\\hline Total&n_{1}&n_{2}&n_{3}&n_{4}&n_{5}&n_{6}&n_{7}&N&1\\\hline \end{array}}$

Ceci permet d'accéder à la représentation en motifs et poids pour chaque couche, et d'effectuer les calculs des mesures d'unimodalité $(U)$ et de l'Accord $(A)$ :

${\begin{array}{|c|c|c|}\hline Labels&A&B&C&D&E&F&G&\omega _{i}&U_{i}&1-{\frac {S_{i}-1}{K-1}}&A_{i}&\omega _{i}\cdot A_{i}\\Valeurs&1&2&3&4&5&6&7&&&&&\\\hline Couche\,1&1&1&1&1&1&1&1&\omega _{1}&1&0&0&0\\Couche\,2&0&1&1&1&1&1&1&\omega _{2}&1&0,167&0,167&0,167\,\omega _{2}\\Couche\,3&0&1&1&1&1&1&0&\omega _{3}&1&0,333&0,333&0,333\,\omega _{3}\\Couche\,4&0&1&1&0&1&1&0&\omega _{4}&0,511&0,500&0,256&0,256\,\omega _{4}\\Couche\,5&0&1&1&0&0&1&0&\omega _{5}&0,267&0,667&0,178&0,178\,\omega _{5}\\Couche\,6&0&1&0&0&0&1&0&\omega _{6}&-0,320&0,833&-0,267&-0,267\,\omega _{6}\\Couche\,7&0&0&0&0&0&1&0&\omega _{7}&1&1&1&\omega _{7}\\\hline Total&&&&&&&&1&&&&A=\sum _{i=1}^{7}\omega _{i}\cdot Ai\\\hline \end{array}}$

Un autre exemple montre deux distributions portant sur la même variable (échelle de notation à 8 niveaux) :

dont les moyennes sont identiques, et les écarts-types très similaires ;
mais évaluées comme différentes par l'Accord $(A)$ de Van der Eijk, car la première est unimodale alors que la seconde possède un caractère bimodal fortement marqué (Figure 14).

${\begin{array}{|c|c|c|}\hline {\text{Valeurs}}&1&2&3&4&5&6&7&8&Total&m&\sigma &A\\\hline {\text{Effectifs distr. n°1}}&12&73&178&237&237&178&73&12&1000&4,5&1,46&0,446\\{\text{Effectifs distr. n°2}}&1&1&479&19&19&479&1&1&1000&4,5&1,48&0,260\\\hline \end{array}}$

Avantages et limites de la méthode


Avantages	Limites
La méthode est autoporteuse : elle ne nécessite que les seules données brutes (observations) elle n'est tributaire d'aucune hypothèse.	Nécessité de former des classes d'égale étendue, ce qui peut limiter la portée de la méthode, ou causer une perte d'information.
La méthode distingue les 2 cas : dispersion des données à l'intérieur d'un mode multimodalité	Aucune règle ne permet de définir un intervalle de confiance autour de l'Accord $(A)$ , puisque l'auteur ne définit pas la statistique qui régit cet Accord.
	Point d'attention : La comparaison de deux distributions (sur la base de l'accord $A$ ) n'a de sens que si l'échelle comporte le même nombre de points $(K)$ .

Méthode d'Otsu

La méthode d'Otsu propose de déterminer un seuil de séparation entre deux modes à partir d'un histogramme des effectifs d'une distribution d'origine donnée. Le seuil de séparation jugé pertinent suivant cette méthode est celui qui minimise les variances intra-classes, donc celui qui maximise la variance inter-classes^[15].

Cette méthode, utilisée en traitement d'image, aboutit à un résumé binaire de la distribution d'origine, avec perte d'information. Cette méthode est d'autant plus pertinente que la distribution d'origine présente un caractère bimodal affirmé.

Notes et références

↑ 14:00-17:00, « ISO 22514-8:2014 », sur ISO (consulté le 31 octobre 2022)
↑ « A.12 - Mode et distribution multimodale - Wikhydro », sur wikhydro.developpement-durable.gouv.fr (consulté le 31 octobre 2022).
↑ « Distribution bimodale des altitudes et mobilité horizontale (dérive) des continents — Planet-Terre », sur planet-terre.ens-lyon.fr (consulté le 31 octobre 2022).
↑ « Distribution Multimodale », sur www.statsoft.fr (consulté le 31 octobre 2022)
↑ (en) E. Fieller, « The distribution of the index in a normal bivariate population », Biometrika, vol. 24, n^os 3–4,‎ 1932, p. 428–440 (DOI 10.1093/biomet/24.3-4.428)
↑ C. A. Robertson et J. G. Fryer, « Some descriptive properties of normal mixtures », Scandinavian Actuarial Journal, vol. 1969, n^os 3-4,‎ janvier 1969, p. 137–146 (ISSN 0346-1238 et 1651-2030, DOI 10.1080/03461238.1969.10404590, lire en ligne, consulté le 2 novembre 2022)
↑ Surajit Ray et Bruce G. Lindsay, « The topography of multivariate normal mixtures », The Annals of Statistics, vol. 33, n^o 5,‎ 1^er octobre 2005 (ISSN 0090-5364, DOI 10.1214/009053605000000417, lire en ligne, consulté le 2 novembre 2022)
1 2 (en) M. Schilling, A. Watkins et W. Watkins, « Is Human Height Bimodal? », undefined,‎ 2002 (lire en ligne, consulté le 2 novembre 2022)
1 2 Javad Behboodian, « On the Modes of a Mixture of Two Normal Distributions », Technometrics, vol. 12, n^o 1,‎ février 1970, p. 131–139 (ISSN 0040-1706 et 1537-2723, DOI 10.1080/00401706.1970.10488640, lire en ligne, consulté le 2 novembre 2022)
↑ (en) Hajo Holzmann et Sebastian Vollmer, « A likelihood ratio test for bimodality in two-component mixtures with application to regional income distribution in the EU », AStA Advances in Statistical Analysis, vol. 92, n^o 1,‎ 2008, p. 57-69 (DOI 10.1007/s10182-008-0057-2, lire en ligne, consulté le 2 novembre 2022)
1 2 3 4 5 Chidong Zhang, Brian E. Mapes et Brian J. Soden, « Bimodality in tropical water vapour », Quarterly Journal of the Royal Meteorological Society, vol. 129, n^o 594,‎ octobre 2003, p. 2847–2866 (ISSN 0035-9009 et 1477-870X, DOI 10.1256/qj.02.166, lire en ligne, consulté le 12 novembre 2022)
↑ Keith A. Ashman, Christina M. Bird et Stephen E. Zepf, « Detecting bimodality in astronomical datasets », The Astronomical Journal, vol. 108,‎ décembre 1994, p. 2348 (ISSN 0004-6256, DOI 10.1086/117248, lire en ligne, consulté le 12 novembre 2022)
↑ Jing Wang, Sijin Wen, W. Fraser Symmans et Lajos Pusztai, « The Bimodality Index: A criterion for Discovering and Ranking Bimodal Signatures from Cancer Gene Expression Profiling Data », Cancer Informatics, vol. 7,‎ janvier 2009, CIN.S2846 (ISSN 1176-9351 et 1176-9351, DOI 10.4137/cin.s2846, lire en ligne, consulté le 13 novembre 2022)
1 2 (en) Cees Van der Eijk, « Measuring Agreement in Ordered Rating Scales », Quality & Quantity, Kluwer Academic Publishers, 35 (3): 325–341.,‎ 2001 (lire en ligne)
↑ (en) D. Chaudhuri et A. Agrawal, « Split-and-merge Procedure for Image Segmentation using Bimodality Detection Approach », Defence Electronics Application Laboratory, Dehradun-248 001,‎ mai 2010 (lire en ligne )