Distribution multimodale
From Wikipedia, the free encyclopedia
En probabilités et en statistique, une distribution multimodale est une distribution statistique présentant plusieurs modes, c'est-à-dire plusieurs maximums locaux de la distribution.


Les distributions multimodales peuvent être rencontrées dans divers domaines, dont :
- les sondages d’opinion ;
- la production industrielle[1], qui cherche généralement à éviter les phénomènes multimodaux souvent révélateurs d’un facteur d’influence non-maîtrisé dans le processus ;
- les phénomènes liés à la climatologie, à l'analyse du débit des rivières[2], à la géologie[3].
La distribution peut être utilisée pour sa capacité prédictive comme n’importe quelle densité de probabilité ou fonction de répartition : l’observateur cherche à établir la loi de probabilité du phénomène étudié sur la base d’observations expérimentales dans le but d'évaluer la probabilité d'événements n'étant pas dans la base d'observations initiales.
De manière plus analytique, elle est souvent étudiée après modélisation pour comprendre la raison de la multimodalité. La loi de probabilité observée peut, par exemple, être décomposée en deux, ou plusieurs, lois élémentaires uni-modales, chacune s’appliquant avec une occurrence qui lui est propre. Ce processus d’identification est complexe, difficile à maîtriser comme peut l'être par exemple l'identification de superposition de fréquences (analyse spectrale) ou de mélanges de lois.
Le cadre étudié est celui des variables aléatoires continues (ou variables aléatoires à densité).
Explications informelles
Ce qu’indique la multimodalité d’une distribution
La multimodalité d’une distribution indique deux possibilités :
- l’échantillon n’est pas homogène, mais composé de plusieurs familles d’individus présentant des caractéristiques différentes[4] ;
- le phénomène observé présente plusieurs réponses, suffisamment distinctes pour qu’elles émergent du bruit naturel, l’occurrence de chacune de ces réponses étant stable dans le temps[5].
À l'inverse, l'unimodalité d'une distribution ne constitue pas en soi une preuve d’homogénéité de l’échantillon : un échantillon peut être hétérogène vis-à-vis d’une caractéristique donnée, sans que cela ne fasse émerger plusieurs modes sur la variable aléatoire étudiée.
À titre de contre-exemple, soit un échantillon composé de :

- 50 % d’individus suivant une loi normale de moyenne et d’écart-type ;
- 50 % d’individus suivant une loi normale de moyenne et d’écart-type .
Bien que cet échantillon soit hétérogène par construction, la distribution résultante ne présente qu’un mode, certes plus étendu que ceux des deux distributions normales à l’origine de la réponse d’ensemble, mais l'effet de l’hétérogénéité reste noyé dans le bruit naturel apporté par les variances des deux lois normales de base.

Partant du contre-exemple précédent, la bimodalité de la distribution résultante apparaît si l'on « écarte » davantage les deux lois normales :
- en diminuant la moyenne de la première loi ;
- et en augmentant celle de la deuxième loi ;
- les deux écarts-types restants inchangés .
Le paramètre clé qui fait apparaître (ou non) la bimodalité de la loi résultante est le biais réduit, c'est-à-dire le paramètre . Aucun lien immédiat n'existe entre le nombre de composants présents dans un mélange et le nombre de modes de la densité de probabilité résultante.
Une distribution multimodale est-elle la somme de distributions unimodales ?
Le mélange de lois unimodales permet, sous certaines conditions, de créer un grand nombre de distributions multimodales (sens direct).
En revanche, retrouver à partir de la donnée de la distribution multimodale les lois unimodales qui la composent et leurs occurrences associées est une entreprise plus ardue (sens inverse) : la décomposition, toujours possible, n'est pas unique.
Pour illustrer la non-unicité d'une telle décomposition, on considère la distribution bimodale donnée par les deux figures ci-contre (courbe en violet). Cette distribution bimodale peut être vue comme le mélange de :
- Une distribution uniforme d'étendue [-4 ;-1] d'occurrence 20% et une distribution unimodale (courbe verte, dont l'abscisse du mode est située à environ 0,9) d'occurrence 80% ;
- Une distribution unimodale (courbe verte, dont l'abscisse du mode est située à environ -1) d'occurrence 40% et d'une distribution unimodale (courbe bleue, dont l'abscisse du mode vaut 1) d'occurrence 60%.
- 1re possibilité de décomposition
- 2de possibilité de décomposition
Terminologie
Homoscédastique
Un ensemble d'échantillons est dit homoscédastique si leur variance est uniforme.
Mode mineur, majeur et antimode
Lorsque deux modes sont inégaux (c'est-à-dire que la densité de probabilité ne présente pas la même valeur pour ces deux modes) :
- le plus grand mode est appelé mode majeur, ;
- l'autre, le mode mineur ;
- la valeur la moins fréquente entre les modes est appelée antimode.
Mélange de deux lois unimodales (sens direct)
Le mélange de deux distributions unimodales constitue un moyen de générer des distributions bimodales, à condition que l'écartement des modes de ces lois de base soit grand devant les variances de ces dernières.
Les propriétés du mélange peuvent être déterminées à partir de celles des lois unimodales de base employées et de leurs occurrences.
X désigne la variable aléatoire continue étudiée.
Dans ce sens direct, les 2 distributions de base sont connues, ainsi que leurs occurrences associées :
| Caractéristiques | Distribution no 1 | Distribution no 2 |
|---|---|---|
| Densité de probabilité | ||
| Fonction de répartition | ||
| Espérance (ou moyenne) | ||
| Variance | ||
| Occurrence |
Les distributions impliquées peuvent être quelconques : aucune hypothèse n’est faite sur la normalité ou non de ces lois.
Loi de distribution du mélange
Soient g(x) la densité de probabilité recherchée, et G(x) la fonction de répartition associée.
L’application des probabilités conditionnelles permet d’écrire :
D'où l'expression de la densité de probabilité du mélange :
Cette densité de probabilité est convenablement normalisée, puisque son intégrale sur le domaine de définition de X capture l'ensemble des effectifs :
Le même raisonnement s'applique sur la fonction de répartition du mélange :
- Espérance du mélange
Connaissant désormais l'expression de la densité de probabilité du mélange, le calcul de l'espérance s'effectue comme suit :
Le résultat trouvé correspond à l'intuition : l'espérance du mélange est le barycentre des espérances de chaque loi pondéré par leur occurrence.
- Variance du mélange
Par indépendance, la moyenne des carrés est une forme linéaire des occurrences et : .
Le carré de l'espérance vaut : .
D'où l'expression de la variance du mélange — toujours sous la condition :
Cette expression montre que tout écart sur les moyennes, quel que soit le signe de cet écart, contribue à augmenter la variance du mélange.
L'écart type du mélange s'obtient par sa définition habituelle : .
Mélange de deux distributions unimodales identiques mais simplement décalées
Ce cas de figure est fréquent, et présente une propriété permettant de retrouver les occurrences (et ) par la lecture de la densité de probabilité du mélange.

Ce cas particulier est caractérisé par :
- est la densité de probabilité d'une distribution unimodale :
- son mode est rencontré en ;
- l'occurrence de cette distribution est .
- L'autre densité est obtenue par translation des abscisses de de la valeur d'un biais uniforme (noté ) :
- ;
- de même, ;
- le mode de est rencontré en ;
- l'occurrence de cette distribution est .
Si le biais est suffisant, le mélange de ces deux distributions est bimodal. Soient :
- la densité de probabilité du mélange ;
- l'abscisse du premier mode de ;
- l'abscisse du second mode de .
Une propriété de ce cas de figure est que le rapport des deux maxima de la fonction donne le rapport des deux occurrences :
Mélange de deux distributions normales
Il s'agit d'un autre cas de figure suffisamment fréquent pour que ce mélange ait été étudié en détail[6].
La loi régissant la distribution du mélange de deux lois normales possède 5 paramètres :
- la moyenne de la première loi normale ;
- l'écart-type de la première loi normale ;
- la moyenne de la seconde loi normale ;
- l'écart-type de la seconde loi normale ;
- l'occurrence de la première loi, celle de la seconde étant une conséquence .
Conditions de bimodalité du mélange
Les conditions nécessaires et suffisantes pour que le mélange de distributions normales soit bimodal ont été identifiées par Ray et Lindsay[7].
Une condition nécessaire pour qu'un mélange homoscédastique de deux distributions normales — i.e. dont les écarts-types sont égaux — soit bimodal est que leurs moyennes diffèrent d'au moins 2 fois l'écart-type commun[8].
Conditions d'unimodalité du mélange
Une condition suffisante pour l'unimodalité du mélange est que[9]: .
- Cas homoscédastique
Une condition suffisante pour l'unimodalité du mélange dans le cas où les deux variances sont identiques[9]: .

Une condition nécessaire et suffisante pour l'unimodalité du mélange[10]:
Soit : ou bien :.
Cas où les deux occurrences sont égales (p1 = p2 = 0,5)
Une condition nécessaire et suffisante pour l'unimodalité du mélange[8]:

Soient et le facteur de séparation.
La densité du mélange est unimodale si, et seulement si, .
- Remarques
- Si les deux écarts-types sont égaux, et l'on retrouve le critère d'espacement des moyennes de moins de 2 fois l'écart-type commun ;
- Le critère est inchangé si l'on permute et : ;
- tend vers lorsque l'un des 2 écarts-types devient prépondérant par rapport à l'autre : ;
- La séparation des domaines uni/bimodal suivant cette condition est représentée par la figure 10.
Mélange de n lois (sens direct)
Le raisonnement peut être étendu au cas du mélange de lois quelconques.
Les expressions de la densité de probabilité , de la fonction de répartition , de l'espérance et de la variance du mélange sont les suivantes :
Toujours sous la condition liant les occurrences : .
Les conditions d'émergence de modes multiples sont plus complexes à formuler que dans le cas du mélange de 2 lois.




