Loi de probabilité composée

En probabilités et en statistiques, une loi de probabilité composée (également appelée loi de mélange ou loi contagieuse ) est la loi de probabilité obtenue en supposant qu'une variable aléatoire suit une loi paramétrée, dont certains paramètres sont eux-mêmes des variables aléatoires. Si le paramètre est un paramètre d'échelle, le mélange résultant est également appelé mélange d'échelles.

La loi composée (« loi inconditionnelle ») est le résultat de la marginalisation (intégration) sur la ou les variables aléatoires latentes représentant le ou les paramètres de la loi paramétrée (« loi conditionnelle »).

Une loi de probabilité composée est la loide probabilité qui résulte de l'hypothèse qu'une variable aléatoire $X$ suit une loi paramétrée $F$ avec un paramètre inconnu $\theta$ qui est à son tour une variable aléatoire suivant une autre loi $G$ . La loi résultante $H$ est la loi qui résulte de la composition de $F$ avec $G$ . La distribution du paramètre $G$ est parfois appelée loi de mélange ou loi latente . Techniquement, la loi inconditionnelle $H$ résulte de la marginalisation de $G$ , c'est-à-dire en intégrant le(s) paramètre(s) inconnu(s) $\theta$ . Sa fonction de densité de probabilité est donnée par :

p_{H}(x)={\displaystyle \int \limits p_{F}(x|\theta )\,p_{G}(\theta )\operatorname {d} \!\theta }

La même formule s'applique de manière similaire si certaines ou toutes les variables sont des vecteurs.

D'après la formule ci-dessus, on peut constater qu'une loi composée est essentiellement un cas particulier de loi marginale : la loi conjointe de $x$ et $\theta$ est donnée par $p(x,\theta )=p(x|\theta )p(\theta )$ , et les résultats composés par sa loi marginale : ${\textstyle p(x)=\int p(x,\theta )\operatorname {d} \!\theta }$ . Si le domaine de $\theta$ si est discret, alors la loi est à nouveau un cas particulier de loi de mélange.

Propriétés

Généralités

La loi composée $H$ dépend de l'expression spécifique de chaque distribution, ainsi que du type de paramètre de $F$ qui suit la loi $G$ , et les paramètres de $H$ comprendra tous les paramètres de $G$ qui ne sont ni marginalisés ni intégrés. Le support de $H$ est identique à celui de $F$ et si cette dernière est une loi paramétrée par la moyenne et la variance, certaines propriétés générales existent.

Moyenne et variance

Les deux premiers moments de la loi composée sont donnés par la loi de l'espérance totale et la loi de la variance totale :

$\mathbb {E} _{H}[X]=\mathbb {E} _{G}\left[\mathbb {E} _{F}[X|\theta ]\right]$

$\operatorname {Var} _{H}(X)=\mathbb {E} _{G}\left[\operatorname {Var} _{F}(X|\theta )\right]+\operatorname {Var} _{G}\left(\mathbb {E} _{F}[X|\theta ]\right)$

Si la moyenne de $F$ est suit une loi $G$ , qui à son tour a pour moyenne $\mu$ et pour variance $\sigma ^{2}$ les expressions ci-dessus impliquent $\mathbb {E} _{H}[X]=\mathbb {E} _{G}[\theta ]=\mu$ et $\operatorname {Var} _{H}(X)=\operatorname {Var} _{F}(X|\theta )+\operatorname {Var} _{G}(Y)=\tau ^{2}+\sigma ^{2}$ , où $\tau ^{2}$ est la variance de $F$ .

Preuve

Soient $F$ et $G$ des lois de probabilité paramétrées par leurs moyennes et leurs variances de sorte que ${\begin{aligned}x&\sim {\mathcal {F}}(\theta ,\tau ^{2})\\\theta &\sim {\mathcal {G}}(\mu ,\sigma ^{2})\end{aligned}}$ en désignant les fonctions de densité de probabilité par $f(x|\theta )=p_{F}(x|\theta )$ et $g(\theta )=p_{G}(\theta )$ respectivement, et $h(x)$ étant la densité de probabilité de $H$ on a ${\begin{aligned}\mathbb {E} _{H}[X]=\int _{F}xh(x)\,\mathrm {d} x&=\int _{F}x\int _{G}f(x|\theta )g(\theta )\,\mathrm {d} \theta \,\mathrm {d} x\\&=\int _{G}\int _{F}xf(x|\theta )\,\mathrm {d} x\ g(\theta )\,\mathrm {d} \theta \\&=\int _{G}\mathbb {E} _{F}[X|\theta ]g(\theta )\,\mathrm {d} \theta \end{aligned}}$ et on en déduit à partir de la paramétrisation ${\mathcal {F}}$ et ${\mathcal {G}}$ que ${\begin{aligned}\mathbb {E} _{F}[X|\theta ]&=\int _{F}xf(x|\theta )\,\mathrm {d} x=\theta \\\mathbb {E} _{G}[\theta ]&=\int _{G}\theta g(\theta )\,\mathrm {d} \theta =\mu \end{aligned}}$ et donc la moyenne de la distribution composée vaut $\mathbb {E} _{H}[X]=\mu$ conformément à l'expression de son premier moment ci-dessus.

La variance de $H$ est donnée par $\mathbb {E} _{H}[X^{2}]-(\mathbb {E} _{H}[X])^{2}$ , et ${\begin{aligned}\mathbb {E} _{H}[X^{2}]=\int _{F}x^{2}h(x)\,\mathrm {d} x&=\int _{F}x^{2}\int _{G}f(x|\theta )g(\theta )\,\mathrm {d} \theta \,\mathrm {d} x\\&=\int _{G}g(\theta )\int _{F}x^{2}f(x|\theta )\,\mathrm {d} x\,\mathrm {d} \theta \\&=\int _{G}g(\theta )(\tau ^{2}+\theta ^{2})\,\mathrm {d} \theta \\&=\tau ^{2}\int _{G}g(\theta )\,\mathrm {d} \theta +\int _{G}g(\theta )\theta ^{2}\,\mathrm {d} \theta \\&=\tau ^{2}+(\sigma ^{2}+\mu ^{2}),\end{aligned}}$ étant donné que $\int _{F}x^{2}f(x\mid \theta )\,\mathrm {d} x=\mathbb {E} _{F}[X^{2}\mid \theta ]=\operatorname {Var} _{F}(X\mid \theta )+(\mathbb {E} _{F}[X\mid \theta ])^{2}$ et $\int _{G}\theta ^{2}g(\theta )\,\mathrm {d} \theta =\mathbb {E} _{G}[\theta ^{2}]=\operatorname {Var} _{G}(\theta )+(\mathbb {E} _{G}[\theta ])^{2}$ Finalement, on obtient ${\begin{aligned}\operatorname {Var} _{H}(X)&=\mathbb {E} _{H}[X^{2}]-(\mathbb {E} _{H}[X])^{2}\\&=\tau ^{2}+\sigma ^{2}\end{aligned}}$

Applications

Tests

Les distributions des statistiques de test courantes se présentent sous forme de distributions composées sous leur hypothèse nulle, par exemple dans le test t de Student (où la statistique de test résulte du rapport d'une variable aléatoire normale et d'une variable aléatoire du χ²), ou dans le test F (où la statistique de test est le rapport de deux variables aléatoires suivant toutes deux une loi du χ²).

Modélisation de la surdispersion

Les lois composées sont utiles pour modéliser des résultats présentant une surdispersion, c'est-à-dire une variabilité supérieure à celle attendue par un modèle donné. Par exemple, les données de comptage sont généralement modélisées à l'aide de la loi de Poisson, dont la variance est égale à sa moyenne. Cette loi peut être généralisée en autorisant une variabilité de son paramètre d'échelle, implémentée via une loi gamma, ce qui donne une loi binomiale négative marginale. Cette loi a une forme similaire à celle de la distribution de Poisson, mais elle peut avoir des variances plus importantes. De même, une loi binomiale peut être généralisée pour permettre une variabilité supplémentaire en la combinant avec une loi bêta pour son paramètre de probabilité de succès, ce qui donne une loi bêta-binomiale.

Inférence bayésienne

Outre les lois marginales omniprésentes, qui peuvent être considérées comme des cas particuliers de lois composées, en inférence bayésienne, les lois composées apparaissent lorsque, dans la notation ci-dessus, F représente la loi des observations futures et G la loi a posteriori des paramètres de F, compte tenu des informations contenues dans un ensemble de données observées. Ceci donne une loi prédictive a posteriori . De même, pour la loi prédictive a priori, F est la loi d'une nouvelle donnée tandis que G est la loi a priori des paramètres.

Convolution

La convolution des lois de probabilité (pour obtenir la loi de probabilité des sommes de variables aléatoires) peut également être considérée comme un cas particulier de composition ; ici, la loi de la somme résulte essentiellement du fait de considérer un terme comme un paramètre de position aléatoire pour l'autre terme^[1].

Calcul intégral numérique

Les lois composées dérivées de la famille exponentielle admettent souvent une forme analytique. Si l'intégration analytique est impossible, des méthodes numériques peuvent s'avérer nécessaires.

Les lois composées peuvent être étudiées relativement facilement par des méthodes de Monte Carlo, c'est-à-dire en générant des échantillons aléatoires. Il est souvent aisé de générer des nombres aléatoires à partir des lois $p(\theta )$ ainsi que $p(x|\theta )$ et ensuite utiliser ces données pour effectuer un échantillonnage de Gibbs réduit afin de générer des échantillons à partir de $p(x)$ .

Une loi composée peut généralement aussi être approchée à un degré suffisant par une loi de mélange utilisant un nombre fini de composants de mélange, permettant de dériver une densité approximative, une fonction de distribution, etc. ^[1]

L'estimation des paramètres (par le maximum de vraisemblance ou le maximum a posteriori ) dans un modèle de distribution composé peut parfois être simplifiée en utilisant l'algorithme espérance-maximisation^[2].

Exemples

Mélanges à échelle gaussienne^[3]^,^[4]:
- La combinaison d'une loi normale avec une variance suivant une loi inverse-gamma (ou de manière équivalente, avec une précision suivant une loi gamma ) donne une loi de Student non standardisée^[5]. Cette loi a la même forme symétrique qu'une distribution normale avec le même point central, mais a une variance plus grande et des queues lourdes.
- La combinaison d'une loi normale avec une variance suivant une loi exponentielle (ou avec un écart-type suivant une loi de Rayleigh) donne une loi de Laplace. Plus généralement, la combinaison d'une loi normale avec une variance suivant une loi gamma donne une loi variance-gamma.
- La combinaison d'une loi normale avec une variance suivant une loi exponentielle dont le paramètre d'échelle suit lui-même une loi gamma donne une loi normale-exponentielle-gamma (ceci implique deux étapes de combinaison. La variance suit ensuite une loi de Lomax ; voir ci-dessous.).
- La combinaison d'une loi normale avec un écart type suivant une loi inverse donne une loi de Slash.
- La combinaison d'une loi normale avec une loi de Kolmogorov donne une loi logistique^[3].
Autres mélanges gaussiens :
- La combinaison d'une loi gaussienne avec une moyenne suivant elle-même une loi gaussienne donne (à nouveau) une loi gaussienne.
- La combinaison d'une loi gaussienne avec une moyenne distribuée selon une loi exponentielle décalée donne une loi gaussienne modifiée exponentiellement.

Composer une loi de Bernoulli avec une probabilité de succès $p$ suivant une loi $X$ qui a une espérance fixe donne une loi de Bernoulli avec une probabilité de succès $E[X]$ . Une conséquence intéressante est que l'étendue de $X$ n'influence pas l'étendue de la distribution du composé résultant.
La combinaison d'une loi binomiale avec une probabilité de succès suivant une loi bêta donne une loi bêta-binomiale . Elle possède trois paramètres, un paramètre $n$ (nombre d'échantillons) venant de la loi binomiale et des paramètres de forme $\alpha$ et $\beta$ de la loi bêta^[6]^,^[7].
La combinaison d'une loi multinomiale avec un vecteur de probabilité suivant une loi de Dirichlet donne une loi multinomiale de Dirichlet.
La combinaison d'une loi de Poisson avec un paramètre d'échelle suivant une loi gamma donne une loi binomiale négative^[8]^,^[9].
La combinaison d'une loi de Poisson avec un paramètre d'échelle suivant une loi exponentielle donne une loi géométrique.
La combinaison d'une loi exponentielle avec un paramètre d'échelle suivant une loi gamma donne une loi de Lomax^[10].
La combinaison d'une loi gamma avec l'inverse du paramètre d'échelle lui-même une loi gamma donne une loi bêta prime à trois paramètres^[11].
La combinaison d'une loi demi-normale avec un paramètre d'échelle suivant une loi de Rayleigh donne une loi exponentielle. Ceci découle directement de la loi de Laplace, qui résulte d'un mélange de loi normales (voir ci-dessus). Les rôles des lois conditionnelles et mélangeantes peuvent également être intervertis ; par conséquent, la combinaison d'une loi de Rayleigh avec un paramètre d'échelle suivant une loi demi-normale donne aussi une distribution exponentielle.
Une variable aléatoire suivant une loi Gamma(k=2,θ) dont le paramètre d'échelle θ est lui-même uniformément distribué marginalement donne une loi exponentielle.

Termes similaires

La notion de « loi composée », telle qu'utilisée par exemple dans la définition d'une loi de Poisson composée ou d'un processus de Poisson composé, diffère de la définition présentée dans cet article. Le sens donné ici correspond à celui employé, par exemple, dans la modélisation hiérarchique bayésienne.

Le cas particulier des distributions de probabilité composées où la loi paramétrée $F$ est la loi de Poisson est également appelée loi de Poisson mixte.

Voir aussi

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Compound probability distribution » (voir la liste des auteurs).

1 2 Röver et Friede, « Discrete approximation of a mixture distribution via restricted divergence », Journal of Computational and Graphical Statistics, vol. 26, n^o 1,‎ 2017, p. 217–222 (DOI 10.1080/10618600.2016.1276840, arXiv 1602.04060)
↑ A. Gelman, J. B. Carlin, H. Stern et D. B. Rubin, Bayesian Data Analysis, Boca Raton, Chapman & Hall / CRC, 1997, « 9.5 Finding marginal posterior modes using EM and related algorithms », p. 276
1 2 S.X. Lee et G.J. McLachlan, Wiley StatsRef: Statistics Reference Online, 2019, 1–16 p. (ISBN 978-1-118-44511-2, DOI 10.1002/9781118445112.stat08201), « Scale Mixture Distribution »
↑ Gneiting, « Normal scale mixtures and dual probability densities », Journal of Statistical Computation and Simulation, vol. 59, n^o 4,‎ 1997, p. 375–384 (DOI 10.1080/00949659708811867)
↑ A. M. Mood, F. A. Graybill et D. C. Boes, Introduction to the theory of statistics, New York, McGraw-Hill, 1974
↑ N. L. Johnson, A. W. Kemp et S. Kotz, Univariate discrete distributions, New York, Wiley, 2005, « 6.2.2 », p. 253
↑ A. Gelman, J. B. Carlin, H. Stern, D. B. Dunson, Vehtari et Rubin, Bayesian Data Analysis, Boca Raton, Chapman & Hall / CRC, 2014 (Bibcode 2014bda..book.....G)
↑ Lawless, « Negative binomial and mixed Poisson regression », The Canadian Journal of Statistics, vol. 15, n^o 3,‎ 1987, p. 209–225 (DOI 10.2307/3314912, JSTOR 3314912)
↑ Teich, M. C. et Diament, P., « Multiply stochastic representations for K distributions and their Poisson transforms », Journal of the Optical Society of America A, vol. 6, n^o 1,‎ 1989, p. 80–91 (DOI 10.1364/JOSAA.6.000080, Bibcode 1989JOSAA...6...80T, CiteSeer^x 10.1.1.64.596)
↑ N. L. Johnson, S. Kotz et N. Balakrishnan, Continuous univariate distributions, vol. 1, New York, Wiley, 1994, « 20 Pareto distributions », p. 573
↑ Dubey, « Compound gamma, beta and F distributions », Metrika, vol. 16,‎ 1970, p. 27–31 (DOI 10.1007/BF02613934)