Distribution multimodale

From Wikipedia, the free encyclopedia

Exemple de distribution bimodale de minerai d'or. Abscisse : teneur en gramme d'or par tonne de minerai ; ordonnée : production en tonne. Le caractère bimodal définit deux groupes de populations statistiques résultant de deux phénomènes différents.

En probabilités et en statistique, une distribution multimodale est une distribution statistique présentant plusieurs modes, c'est-à-dire plusieurs maximums locaux de la distribution.

Histogramme bimodal
Dans ce cas précis, une distribution bimodale résultante d'un mélange de deux distributions normales avec la même variance mais des moyennes différentes. Si les poids n'étaient pas égaux, la distribution résultante pourrait toujours être bimodale mais avec des pics de hauteurs différentes.

Les distributions multimodales peuvent être rencontrées dans divers domaines, dont :

  • les sondages d’opinion ;
  • la production industrielle[1], qui cherche généralement à éviter les phénomènes multimodaux souvent révélateurs d’un facteur d’influence non-maîtrisé dans le processus ;
  • les phénomènes liés à la climatologie, à l'analyse du débit des rivières[2], à la géologie[3].

La distribution peut être utilisée pour sa capacité prédictive comme n’importe quelle densité de probabilité ou fonction de répartition : l’observateur cherche à établir la loi de probabilité du phénomène étudié sur la base d’observations expérimentales dans le but d'évaluer la probabilité d'événements n'étant pas dans la base d'observations initiales.

De manière plus analytique, elle est souvent étudiée après modélisation pour comprendre la raison de la multimodalité. La loi de probabilité observée peut, par exemple, être décomposée en deux, ou plusieurs, lois élémentaires uni-modales, chacune s’appliquant avec une occurrence qui lui est propre. Ce processus d’identification est complexe, difficile à maîtriser comme peut l'être par exemple l'identification de superposition de fréquences (analyse spectrale) ou de mélanges de lois.

Le cadre étudié est celui des variables aléatoires continues (ou variables aléatoires à densité).

Explications informelles

Ce qu’indique la multimodalité d’une distribution

La multimodalité d’une distribution indique deux possibilités :

  • l’échantillon n’est pas homogène, mais composé de plusieurs familles d’individus présentant des caractéristiques différentes[4] ;
  • le phénomène observé présente plusieurs réponses, suffisamment distinctes pour qu’elles émergent du bruit naturel, l’occurrence de chacune de ces réponses étant stable dans le temps[5].

À l'inverse, l'unimodalité d'une distribution ne constitue pas en soi une preuve d’homogénéité de l’échantillon : un échantillon peut être hétérogène vis-à-vis d’une caractéristique donnée, sans que cela ne fasse émerger plusieurs modes sur la variable aléatoire étudiée.

À titre de contre-exemple, soit un échantillon composé de :

Distribution suivant une loi mélange de deux lois normales  ; bien que les modes des deux lois ne soient pas les mêmes, la loi mixte (violet) est unimodale
  • 50 % d’individus suivant une loi normale de moyenne et d’écart-type  ;
  • 50 % d’individus suivant une loi normale de moyenne et d’écart-type .

Bien que cet échantillon soit hétérogène par construction, la distribution résultante ne présente qu’un mode, certes plus étendu que ceux des deux distributions normales à l’origine de la réponse d’ensemble, mais l'effet de l’hétérogénéité reste noyé dans le bruit naturel apporté par les variances des deux lois normales de base.

Distribution suivant une loi mélange de deux lois normales  ; la loi mixte (violet) est ici bimodale

Partant du contre-exemple précédent, la bimodalité de la distribution résultante apparaît si l'on « écarte » davantage les deux lois normales :

  • en diminuant la moyenne de la première loi  ;
  • et en augmentant celle de la deuxième loi  ;
  • les deux écarts-types restants inchangés .

Le paramètre clé qui fait apparaître (ou non) la bimodalité de la loi résultante est le biais réduit, c'est-à-dire le paramètre . Aucun lien immédiat n'existe entre le nombre de composants présents dans un mélange et le nombre de modes de la densité de probabilité résultante.

Une distribution multimodale est-elle la somme de distributions unimodales ?

Le mélange de lois unimodales permet, sous certaines conditions, de créer un grand nombre de distributions multimodales (sens direct).

En revanche, retrouver à partir de la donnée de la distribution multimodale les lois unimodales qui la composent et leurs occurrences associées est une entreprise plus ardue (sens inverse) : la décomposition, toujours possible, n'est pas unique.

Pour illustrer la non-unicité d'une telle décomposition, on considère la distribution bimodale donnée par les deux figures ci-contre (courbe en violet). Cette distribution bimodale peut être vue comme le mélange de :

  1. Une distribution uniforme d'étendue [-4 ;-1] d'occurrence 20% et une distribution unimodale (courbe verte, dont l'abscisse du mode est située à environ 0,9) d'occurrence 80% ;
  2. Une distribution unimodale (courbe verte, dont l'abscisse du mode est située à environ -1) d'occurrence 40% et d'une distribution unimodale (courbe bleue, dont l'abscisse du mode vaut 1) d'occurrence 60%.

Terminologie

Homoscédastique

Un ensemble d'échantillons est dit homoscédastique si leur variance est uniforme.

Mode mineur, majeur et antimode

Lorsque deux modes sont inégaux (c'est-à-dire que la densité de probabilité ne présente pas la même valeur pour ces deux modes) :

  • le plus grand mode est appelé mode majeur, ;
  • l'autre, le mode mineur ;
  • la valeur la moins fréquente entre les modes est appelée antimode.

Mélange de deux lois unimodales (sens direct)

Le mélange de deux distributions unimodales constitue un moyen de générer des distributions bimodales, à condition que l'écartement des modes de ces lois de base soit grand devant les variances de ces dernières.

Les propriétés du mélange peuvent être déterminées à partir de celles des lois unimodales de base employées et de leurs occurrences.

X désigne la variable aléatoire continue étudiée.

Dans ce sens direct, les 2 distributions de base sont connues, ainsi que leurs occurrences associées :

Caractéristiques Distribution no 1 Distribution no 2
Densité de probabilité
Fonction de répartition
Espérance (ou moyenne)
Variance
Occurrence

Les distributions impliquées peuvent être quelconques : aucune hypothèse n’est faite sur la normalité ou non de ces lois.

Loi de distribution du mélange

Soient g(x) la densité de probabilité recherchée, et G(x) la fonction de répartition associée.

L’application des probabilités conditionnelles permet d’écrire :

D'où l'expression de la densité de probabilité du mélange :

Cette densité de probabilité est convenablement normalisée, puisque son intégrale sur le domaine de définition de X capture l'ensemble des effectifs :

Le même raisonnement s'applique sur la fonction de répartition du mélange :

Espérance du mélange

Connaissant désormais l'expression de la densité de probabilité du mélange, le calcul de l'espérance s'effectue comme suit :

Le résultat trouvé correspond à l'intuition : l'espérance du mélange est le barycentre des espérances de chaque loi pondéré par leur occurrence.

Variance du mélange

Par indépendance, la moyenne des carrés est une forme linéaire des occurrences et  : .

Le carré de l'espérance vaut : .

D'où l'expression de la variance du mélange — toujours sous la condition  :

Cette expression montre que tout écart sur les moyennes, quel que soit le signe de cet écart, contribue à augmenter la variance du mélange.

L'écart type du mélange s'obtient par sa définition habituelle : .

Mélange de deux distributions unimodales identiques mais simplement décalées

Ce cas de figure est fréquent, et présente une propriété permettant de retrouver les occurrences (et ) par la lecture de la densité de probabilité du mélange.

Cas où les distributions f1 et f2 sont identiques, mais décalées en abscisse.

Ce cas particulier est caractérisé par :

  1. est la densité de probabilité d'une distribution unimodale :
    • son mode est rencontré en  ;
    • l'occurrence de cette distribution est .
  2. L'autre densité est obtenue par translation des abscisses de de la valeur d'un biais uniforme (noté ) :
    •  ;
    • de même,  ;
    • le mode de est rencontré en  ;
    • l'occurrence de cette distribution est .

Si le biais est suffisant, le mélange de ces deux distributions est bimodal. Soient :

  1. la densité de probabilité du mélange ;
  2. l'abscisse du premier mode de  ;
  3. l'abscisse du second mode de .

Une propriété de ce cas de figure est que le rapport des deux maxima de la fonction donne le rapport des deux occurrences :

Mélange de deux distributions normales

Il s'agit d'un autre cas de figure suffisamment fréquent pour que ce mélange ait été étudié en détail[6].

La loi régissant la distribution du mélange de deux lois normales possède 5 paramètres :

  1. la moyenne de la première loi normale  ;
  2. l'écart-type de la première loi normale  ;
  3. la moyenne de la seconde loi normale  ;
  4. l'écart-type de la seconde loi normale  ;
  5. l'occurrence de la première loi, celle de la seconde étant une conséquence .

Conditions de bimodalité du mélange

Les conditions nécessaires et suffisantes pour que le mélange de distributions normales soit bimodal ont été identifiées par Ray et Lindsay[7].

Une condition nécessaire pour qu'un mélange homoscédastique de deux distributions normales — i.e. dont les écarts-types sont égaux — soit bimodal est que leurs moyennes diffèrent d'au moins 2 fois l'écart-type commun[8].

Conditions d'unimodalité du mélange

Une condition suffisante pour l'unimodalité du mélange est que[9]: .

Cas homoscédastique

Une condition suffisante pour l'unimodalité du mélange dans le cas où les deux variances sont identiques[9]: .

Séparation des domaines uni/bimodal dans le cas du mélange de homoscédastique de 2 lois normales = f (p ; d)
Séparation des domaines uni/bimodal dans le cas du mélange homoscédastique de 2 lois normales = f (p ; d)

Une condition nécessaire et suffisante pour l'unimodalité du mélange[10]:

Soit  : ou bien :.

Cas où les deux occurrences sont égales (p1 = p2 = 0,5)

Une condition nécessaire et suffisante pour l'unimodalité du mélange[8]:

Séparation des domaines uni/bimodal dans le cas du mélange à 50%-50% de 2 lois normales
Séparation des domaines uni/bimodal dans le cas du mélange à 50%-50% de 2 lois normales

Soient et le facteur de séparation.

La densité du mélange est unimodale si, et seulement si, .

Remarques
  1. Si les deux écarts-types sont égaux, et l'on retrouve le critère d'espacement des moyennes de moins de 2 fois l'écart-type commun ;
  2. Le critère est inchangé si l'on permute et  :  ;
  3. tend vers lorsque l'un des 2 écarts-types devient prépondérant par rapport à l'autre :  ;
  4. La séparation des domaines uni/bimodal suivant cette condition est représentée par la figure 10.

Mélange de n lois (sens direct)

Le raisonnement peut être étendu au cas du mélange de lois quelconques.

Les expressions de la densité de probabilité , de la fonction de répartition , de l'espérance et de la variance du mélange sont les suivantes :

Toujours sous la condition liant les occurrences : .

Les conditions d'émergence de modes multiples sont plus complexes à formuler que dans le cas du mélange de 2 lois.

Statistiques descriptives

Notes et références

Voir aussi

Related Articles

Wikiwand AI