Summarize Timeline Top Qs Fact Check
Soit X distribuée selon une normale de moyenne
μ
{\displaystyle \mu }
et variance
1
/
τ
{\displaystyle 1/\tau }
inconnues
X
∼
N
(
μ
,
τ
−
1
)
{\displaystyle X\sim {\mathcal {N}}(\mu ,\tau ^{-1})}
Supposons que la distribution a priori de
(
μ
,
τ
)
{\displaystyle (\mu ,\tau )}
suive une distribution gamma-normale
(
μ
0
,
λ
0
,
α
0
,
β
0
)
,
{\displaystyle (\mu _{0},\lambda _{0},\alpha _{0},\beta _{0}),}
π
(
μ
,
τ
)
∝
τ
α
0
−
1
2
exp
[
−
β
0
τ
]
exp
[
−
λ
0
τ
(
μ
−
μ
0
)
2
2
]
.
{\displaystyle \pi (\mu ,\tau )\propto \tau ^{\alpha _{0}-{\frac {1}{2}}}\,\exp[{-\beta _{0}\tau }]\,\exp \left[-{\frac {\lambda _{0}\tau (\mu -\mu _{0})^{2}}{2}}\right].}
Étant donné un échantillon
X
{\displaystyle \mathbf {X} }
constitué de n variables aléatoires indépendantes et identiquement distribuées (i.i.d)
{
x
1
,
.
.
.
,
x
n
}
{\displaystyle \{x_{1},...,x_{n}\}}
, la distribution a posteriori de
μ
{\displaystyle \mu }
et
τ
{\displaystyle \tau }
conditionnellement à cet échantillon se calcule par la formule de Bayes .
P
(
τ
,
μ
|
X
)
∝
L
(
X
|
τ
,
μ
)
π
(
τ
,
μ
)
{\displaystyle \mathbf {P} (\tau ,\mu |\mathbf {X} )\propto \mathbf {L} (\mathbf {X} |\tau ,\mu )\pi (\tau ,\mu )}
,
où
L
{\displaystyle \mathbf {L} }
est la vraisemblance des données observées pour ces paramètres.
Pour des données i.i.d, la vraisemblance conjointe de l'échantillon est égale au produit des vraisemblances individuelles :
L
(
X
|
τ
,
μ
)
=
∏
i
=
1
n
L
(
x
i
|
τ
,
μ
)
.
{\displaystyle \mathbf {L} (\mathbf {X} |\tau ,\mu )=\prod _{i=1}^{n}\mathbf {L} (x_{i}|\tau ,\mu ).}
Ainsi,
L
(
X
|
τ
,
μ
)
∝
∏
i
=
1
n
τ
1
/
2
exp
[
−
τ
2
(
x
i
−
μ
)
2
]
∝
τ
n
/
2
exp
[
−
τ
2
∑
i
=
1
n
(
x
i
−
μ
)
2
]
∝
τ
n
/
2
exp
[
−
τ
2
∑
i
=
1
n
(
x
i
−
x
¯
+
x
¯
−
μ
)
2
]
∝
τ
n
/
2
exp
[
−
τ
2
∑
i
=
1
n
(
(
x
i
−
x
¯
)
2
+
(
x
¯
−
μ
)
2
)
]
∝
τ
n
/
2
exp
[
−
τ
2
(
n
s
+
n
(
x
¯
−
μ
)
2
)
]
,
{\displaystyle {\begin{aligned}\mathbf {L} (\mathbf {X} |\tau ,\mu )&\propto \prod _{i=1}^{n}\tau ^{1/2}\exp \left[{\frac {-\tau }{2}}(x_{i}-\mu )^{2}\right]\\&\propto \tau ^{n/2}\exp \left[{\frac {-\tau }{2}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}\right]\\&\propto \tau ^{n/2}\exp \left[{\frac {-\tau }{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}}+{\bar {x}}-\mu )^{2}\right]\\&\propto \tau ^{n/2}\exp \left[{\frac {-\tau }{2}}\sum _{i=1}^{n}\left((x_{i}-{\bar {x}})^{2}+({\bar {x}}-\mu )^{2}\right)\right]\\&\propto \tau ^{n/2}\exp \left[{\frac {-\tau }{2}}\left(ns+n({\bar {x}}-\mu )^{2}\right)\right],\end{aligned}}}
où
x
¯
=
1
n
∑
i
=
1
n
x
i
{\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}
, moyenne d'échantillon, et
s
=
1
n
∑
i
=
1
n
(
x
i
−
x
¯
)
2
{\displaystyle s={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}
, variance d'échantillon.
La distribution a posteriori des paramètres devient ainsi
P
(
τ
,
μ
|
X
)
∝
L
(
X
|
τ
,
μ
)
π
(
τ
,
μ
)
∝
τ
n
/
2
exp
[
−
τ
2
(
n
s
+
n
(
x
¯
−
μ
)
2
)
]
τ
α
0
−
1
2
exp
[
−
β
0
τ
]
exp
[
−
λ
0
τ
(
μ
−
μ
0
)
2
2
]
∝
τ
n
2
+
α
0
−
1
2
exp
[
−
τ
(
1
2
n
s
+
β
0
)
]
exp
[
−
τ
2
(
λ
0
(
μ
−
μ
0
)
2
+
n
(
x
¯
−
μ
)
2
)
]
{\displaystyle {\begin{aligned}\mathbf {P} (\tau ,\mu |\mathbf {X} )&\propto \mathbf {L} (\mathbf {X} |\tau ,\mu )\pi (\tau ,\mu )\\&\propto \tau ^{n/2}\exp \left[{\frac {-\tau }{2}}\left(ns+n({\bar {x}}-\mu )^{2}\right)\right]\tau ^{\alpha _{0}-{\frac {1}{2}}}\,\exp \left[-\beta _{0}\tau \right]\,\exp \left[-{\frac {\lambda _{0}\tau (\mu -\mu _{0})^{2}}{2}}\right]\\&\propto \tau ^{{\frac {n}{2}}+\alpha _{0}-{\frac {1}{2}}}\exp \left[-\tau \left({\frac {1}{2}}ns+\beta _{0}\right)\right]\exp \left[-{\frac {\tau }{2}}\left(\lambda _{0}(\mu -\mu _{0})^{2}+n({\bar {x}}-\mu )^{2}\right)\right]\\\end{aligned}}}
Développant le terme de la deuxième exponentielle, on a :
λ
0
(
μ
−
μ
0
)
2
+
n
(
x
¯
−
μ
)
2
=
λ
0
μ
2
−
2
λ
0
μ
μ
0
+
λ
0
μ
0
2
+
n
μ
2
−
2
n
x
¯
μ
+
n
x
¯
2
=
(
λ
0
+
n
)
μ
2
−
2
(
λ
0
μ
0
+
n
x
¯
)
μ
+
λ
0
μ
0
2
+
n
x
¯
2
=
(
λ
0
+
n
)
(
μ
2
−
2
λ
0
μ
0
+
n
x
¯
λ
0
+
n
μ
)
+
λ
0
μ
0
2
+
n
x
¯
2
=
(
λ
0
+
n
)
(
μ
−
λ
0
μ
0
+
n
x
¯
λ
0
+
n
)
2
+
λ
0
μ
0
2
+
n
x
¯
2
−
(
λ
0
μ
0
+
n
x
¯
)
2
λ
0
+
n
=
(
λ
0
+
n
)
(
μ
−
λ
0
μ
0
+
n
x
¯
λ
0
+
n
)
2
+
λ
0
n
(
x
¯
−
μ
0
)
2
λ
0
+
n
,
{\displaystyle {\begin{aligned}\lambda _{0}(\mu -\mu _{0})^{2}+n({\bar {x}}-\mu )^{2}&=\lambda _{0}\mu ^{2}-2\lambda _{0}\mu \mu _{0}+\lambda _{0}\mu _{0}^{2}+n\mu ^{2}-2n{\bar {x}}\mu +n{\bar {x}}^{2}\\[3pt]&=(\lambda _{0}+n)\mu ^{2}-2(\lambda _{0}\mu _{0}+n{\bar {x}})\mu +\lambda _{0}\mu _{0}^{2}+n{\bar {x}}^{2}\\[3pt]&=(\lambda _{0}+n)\left(\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+n{\bar {x}}}{\lambda _{0}+n}}\mu \right)+\lambda _{0}\mu _{0}^{2}+n{\bar {x}}^{2}\\[3pt]&=(\lambda _{0}+n)\left(\mu -{\frac {\lambda _{0}\mu _{0}+n{\bar {x}}}{\lambda _{0}+n}}\right)^{2}+\lambda _{0}\mu _{0}^{2}+n{\bar {x}}^{2}-{\frac {\left(\lambda _{0}\mu _{0}+n{\bar {x}}\right)^{2}}{\lambda _{0}+n}}\\[3pt]&=(\lambda _{0}+n)\left(\mu -{\frac {\lambda _{0}\mu _{0}+n{\bar {x}}}{\lambda _{0}+n}}\right)^{2}+{\frac {\lambda _{0}n({\bar {x}}-\mu _{0})^{2}}{\lambda _{0}+n}}\end{aligned}},}
ce qui donne :
P
(
τ
,
μ
|
X
)
∝
τ
n
2
+
α
0
−
1
2
exp
[
−
τ
(
1
2
n
s
+
β
0
)
]
exp
[
−
τ
2
(
(
λ
0
+
n
)
(
μ
−
λ
0
μ
0
+
n
x
¯
λ
0
+
n
)
2
+
λ
0
n
(
x
¯
−
μ
0
)
2
λ
0
+
n
)
]
∝
τ
n
2
+
α
0
−
1
2
exp
[
−
τ
(
1
2
n
s
+
β
0
+
λ
0
n
(
x
¯
−
μ
0
)
2
2
(
λ
0
+
n
)
)
]
exp
[
−
τ
2
(
λ
0
+
n
)
(
μ
−
λ
0
μ
0
+
n
x
¯
λ
0
+
n
)
2
]
{\displaystyle {\begin{aligned}\mathbf {P} (\tau ,\mu |\mathbf {X} )&\propto \tau ^{{\frac {n}{2}}+\alpha _{0}-{\frac {1}{2}}}\exp \left[-\tau \left({\frac {1}{2}}ns+\beta _{0}\right)\right]\exp \left[-{\frac {\tau }{2}}\left(\left(\lambda _{0}+n\right)\left(\mu -{\frac {\lambda _{0}\mu _{0}+n{\bar {x}}}{\lambda _{0}+n}}\right)^{2}+{\frac {\lambda _{0}n({\bar {x}}-\mu _{0})^{2}}{\lambda _{0}+n}}\right)\right]\\&\propto \tau ^{{\frac {n}{2}}+\alpha _{0}-{\frac {1}{2}}}\exp \left[-\tau \left({\frac {1}{2}}ns+\beta _{0}+{\frac {\lambda _{0}n({\bar {x}}-\mu _{0})^{2}}{2(\lambda _{0}+n)}}\right)\right]\exp \left[-{\frac {\tau }{2}}\left(\lambda _{0}+n\right)\left(\mu -{\frac {\lambda _{0}\mu _{0}+n{\bar {x}}}{\lambda _{0}+n}}\right)^{2}\right]\end{aligned}}}
Cette dernière expression est bien celle d'une distribution Gamma-Normale,
P
(
τ
,
μ
|
X
)
∼
NormalGamma
(
λ
0
μ
0
+
n
x
¯
λ
0
+
n
,
λ
0
+
n
,
α
0
+
n
2
,
β
0
+
1
2
(
n
s
+
λ
0
n
(
x
¯
−
μ
0
)
2
λ
0
+
n
)
)
{\displaystyle \mathbf {P} (\tau ,\mu |\mathbf {X} )\sim {\text{NormalGamma}}\left({\frac {\lambda _{0}\mu _{0}+n{\bar {x}}}{\lambda _{0}+n}},\lambda _{0}+n,\alpha _{0}+{\frac {n}{2}},\beta _{0}+{\frac {1}{2}}\left(ns+{\frac {\lambda _{0}n({\bar {x}}-\mu _{0})^{2}}{\lambda _{0}+n}}\right)\right)}
La nouvelle moyenne est la moyenne pondérée de l'ancienne pseudo-moyenne et de la moyenne d'échantillon observée, avec des poids relatifs proportionnels aux nombres de (pseudo-)observations.
Le nombre de pseudo-observations (
λ
0
{\displaystyle \lambda _{0}}
) est adapté simplement en y additionnant le nombre correspondant de nouvelles observations (
n
{\displaystyle n}
).
La concentration (l'inverse de la variance) a priori revient à estimer sur base de
2
α
{\displaystyle 2\alpha }
pseudo-observations (c.à.d. un nombre éventuellement différent de pseudo-observations, afin de permettre de contrôler séparément la variance de la moyenne et de la concentration) de moyenne
μ
{\displaystyle \mu }
et variance
β
α
{\displaystyle {\frac {\beta }{\alpha }}}
.
Une nouvelle somme d'écarts quadratiques est constituée de l'addition des sommes d'écarts quadratiques respectives. Toutefois, un "terme d'interaction" doit être ajouté parce que les deux ensembles d'écarts étaient mesurés par rapport à des moyennes distinctes, ce qui sous-estime l'écart quadratique total réel.
Par conséquent, si on a une moyenne a priori
μ
0
{\displaystyle \mu _{0}}
basée sur
n
μ
{\displaystyle n_{\mu }}
observations et une concentration a priori
τ
0
{\displaystyle \tau _{0}}
basée sur
n
τ
{\displaystyle n_{\tau }}
observations, la distribution a priori de
(
μ
,
τ
)
{\displaystyle (\mu ,\tau )}
est
P
(
τ
,
μ
|
X
)
∼
NormalGamma
(
μ
0
,
n
μ
,
n
τ
2
,
n
τ
2
τ
0
)
{\displaystyle \mathbf {P} (\tau ,\mu |\mathbf {X} )\sim {\text{NormalGamma}}\left(\mu _{0},n_{\mu },{\frac {n_{\tau }}{2}},{\frac {n_{\tau }}{2\tau _{0}}}\right)}
et la distribution a posteriori après échantillon de
n
{\displaystyle n}
observations de moyenne
μ
{\displaystyle \mu }
et variance
s
{\displaystyle s}
sera
P
(
τ
,
μ
|
X
)
∼
NormalGamma
(
n
μ
μ
0
+
n
μ
n
μ
+
n
,
n
μ
+
n
,
1
2
(
n
τ
+
n
)
,
1
2
(
n
τ
τ
0
+
n
s
+
n
μ
n
(
μ
−
μ
0
)
2
n
μ
+
n
)
)
{\displaystyle \mathbf {P} (\tau ,\mu |\mathbf {X} )\sim {\text{NormalGamma}}\left({\frac {n_{\mu }\mu _{0}+n\mu }{n_{\mu }+n}},n_{\mu }+n,{\frac {1}{2}}(n_{\tau }+n),{\frac {1}{2}}\left({\frac {n_{\tau }}{\tau _{0}}}+ns+{\frac {n_{\mu }n(\mu -\mu _{0})^{2}}{n_{\mu }+n}}\right)\right)}