Le théorème de Pitman–Koopman–Darmois montre que parmi les familles de lois dont le domaine ne dépend pas du paramètre à estimer, seules les familles exponentielles offrent une statistique suffisante dont la dimension reste bornée quand la taille d'échantillon croît.
Concrètement, soient Xk, (où k = 1, 2, 3, ... n) des variables aléatoires indépendantes, identiquement distribuées. Il faut que leur loi soit de famille exponentielle pour qu'existe une statistique suffisante T(X1, ..., Xn) dont le nombre de composantes scalaires n'augmente pas avec la taille d'échantillon n : sa dimension ne changera pas quand on collecte plus de données.
En inférence bayésienne, une loi a priori d'un paramètre à estimer est multipliée par une fonction de vraisemblance (puis normalisée) pour aboutir à une loi a posteriori.
Une prieure conjuguée est une loi a priori qui, après combinaison à la fonction de vraisemblance, donne une loi a posteriori de même type, ce qui rend particulièrement facile le calcul de la postérieure. Par exemple, pour estimer la probabilité de succès p d'une loi binomiale, si on prend une loi bêta comme prieure, la postérieure sera une autre loi bêta. De même, l'estimation du paramètre d'une Poisson par une prieure Gamma donne une postérieure Gamma. Les prieures conjuguées sont souvent très pratiques, de par leur flexibilité.
Lorsque la fonction de vraisemblance est de famille exponentielle, il existe une prieure conjuguée, qui sera en général elle aussi de famille exponentielle.
En règle générale, une fonction de vraisemblance ne sera pas de famille exponentielle, et donc il n'existera pas de prieure conjuguée. La postérieure devra être calculée par des méthodes numériques.
La prieure conjuguée π (pour « prior ») sur le paramètre η d'une famille exponentielle est donnée par :

où
- ν > 0 représente le nombre virtuel d'observations fournies par la prieure.
(s étant la dimension de η) représente la contribution de ces pseudo-observations dans la statistique suffisante constituée de toutes les observations et pseudo-observations.
χ et ν sont des hyperparamètres (paramètres contrôlant des paramètres).
- f(χ,ν) est la constante de normalisation, déterminée automatiquement par les autres fonctions, qui sert à assurer que π(η| χ,ν) est une fonction de densité.
- A(η) (resp. a(η)) sont les mêmes fonctions que dans la loi p(x| χ) pour laquelle π est prieure conjuguée.
Pour voir que cette loi a priori est une prieure conjuguée, on peut en calculer la postérieure.
Soit la fonction de densité (ou de probabilité) d'une observation, de famille exponentielle, écrite en paramètre naturel :

La vraisemblance des données X = (x1, ...,xn) est donnée par :

Par conséquent, en appliquant la loi a priori susdite :
,
on dérive la postérieure :

Ainsi, la postérieure a effectivement la même forme que la prieure :
.
On peut remarquer que les observations X n'entrent dans la formule qu'à travers
, autrement dit la statistique suffisante des observations. Ceci confirme que la valeur de la statistique suffisante détermine complètement la loi a posteriori. Les valeurs individuelles des observations ne sont pas nécessaires : tout ensemble de données avec la même valeur pour la statistique suffisante produira la même loi. Or, la dimension de la statistique suffisante ne croît pas avec la taille d'échantillon : elle a au plus le nombre de composantes de η ( le nombre de paramètres de la loi d'une seule donnée).
Les nouveaux hyperparamètres sont :


La mise à jour bayésienne ne nécessite que de savoir le nombre d'observations et la valeur de la statistique suffisante des données.
Pour une famille exponentielle à paramètre simple θ, si η(θ) est non-décroissant, le ratio de vraisemblance est une fonction monotone non-décroissante de la statistique suffisante T(x). En conséquence, il existe un test d'hypothèse « uniformément plus puissant » pour tester H0 : θ ≥ θ0 contre H1 : θ < θ0.
La famille exponentielle est à la base des fonctions de loi utilisées dans le modèle linéaire généralisé, qui comprend la plupart des modèles de régression en statistique et en économétrie.
La fonction génératrice des moments de T(x) est définie comme :
.
Par conséquent, K(u|η) = A(η+u) – A(η) est la fonction génératrice des cumulants de T.
- N.B. : Dans la sous-famille exponentielle naturelle (où T(x) = x), c'est la fonction génératrice des moments de x.
Par définition de la fonction génératrice des cumulants,

Les moments et cumulants d'ordre supérieur sont fournis par les dérivées supérieures. Cette technique est particulièrement utile lorsque T est une fonction compliquée, dont les moments sont difficiles à calculer par intégration.
Ce résultat est démontrable sans recourir à la théorie des cumulants.
Exemple : soit
.
Par contrainte de normalisation,
.
On dérive les deux côtés par rapport à η :
![{\displaystyle {\begin{aligned}0&=a(\eta ){\frac {d}{d\eta }}\int _{x}b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=a(\eta )\int _{x}b(x)\left({\frac {d}{d\eta }}{\rm {e}}^{\eta T(x)}\right)\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=a(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}T(x)\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x\\&=\int _{x}T(x)a(\eta )b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x+{\frac {a'(\eta )}{a(\eta )}}\int _{x}a(\eta )b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=\int _{x}T(x)p(x)\mathrm {d} x+{\frac {a'(\eta )}{a(\eta )}}\int _{x}p(x)\mathrm {d} x\\&=\mathbb {E} [T(x)]+{\frac {a'(\eta )}{a(\eta )}}\\&=\mathbb {E} [T(x)]+{\frac {\mathrm {d} }{\mathrm {d} \eta }}\ln a(\eta )\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1d34d8c5b439af5fbbec980274f38d4f749d4db3)
Par conséquent,
![{\displaystyle \mathbb {E} [T(x)]=-{\frac {\mathrm {d} }{\mathrm {d} \eta }}\ln a(\eta )={\frac {\mathrm {d} }{\mathrm {d} \eta }}A(\eta ).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/df5f16991af8c8f936652531dbed5b45f7b9b898)
- Loi gamma
La loi gamma est définie par la fonction de densité

Le tableau ci-dessus donne pour paramètre naturel :


dont les réciproques sont :


Les statistiques suffisantes sont (ln x, x), et la fonction de log-partition vaut :

On cherche la moyenne de la statistique suffisante. Pour η1 :
![{\displaystyle {\begin{aligned}\mathbb {E} [\ln x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{1}}}={\frac {\partial }{\partial \eta _{1}}}\left(\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2})\right)\\&=\psi (\eta _{1}+1)-\ln(-\eta _{2})\\&=\psi (r)-\ln \lambda ,\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a1d88ee7d31b3a89fa28efde2829d1b3db5187df)
où ψ(x) est la fonction digamma (dérivée du log gamma).
De même, pour η2 :
![{\displaystyle {\begin{aligned}\mathbb {E} [x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left(\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2})\right)\\&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {r}{\lambda }},\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/247b475149a8e49f31642dbfefd69905b035222c)
Pour trouver la variance de x, il faut différencier à nouveau :

Tous ces calculs peuvent se faire par intégration, en partant de la fonction gamma, mais cela demande plus d'efforts.
- Loi logistique asymétrique
Soit une variable aléatoire réelle X de loi logistique asymétrique.

où θ > 0 est un paramètre de forme. Cette densité se factorise comme suit :

C'est donc une famille exponentielle de paramètre naturel η = –θ, donc une statistique suffisante est T = log(1 + e–x), et la fonction de log-partition vaut : A(η) = –log(θ) = –log(–η).
Ainsi, par la première équation,
![{\displaystyle \mathbb {E} (\log(1+{\rm {e}}^{-X}))=\mathbb {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4cf4bb0e021dd4b059580c1049d8c470352558b1)
et par la seconde,
![{\displaystyle \mathrm {Var} (\log(1+{\rm {e}}^{-X}))={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{(-\eta )^{2}}}={\frac {1}{\theta ^{2}}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/354bd6c4dd0dc1b7e9f4203d23f64a0a6fdd2f31)
Dans cet exemple, l'usage de la méthode simplifie les calculs, une approche directe alourdissant grandement les égalités.
- Loi de Wishart
La loi de Wishart est définie sur des matrices aléatoires. Ce dernier exemple aborde un cas où l'intégration serait particulièrement ardue. N.B. : la dérivation elle-même est difficile, car elle exige du calcul matriciel, mais l'intégration est pire.
Le tableau donne le paramètre naturel :


dont la transformation réciproque est :

.
Les statistiques suffisantes sont (X, ln|X|).
La fonction de log-partition est donnée sous différentes formes, afin de faciliter la différentiation et les transformations. On utilisera les formes suivantes :


- Espérance de X (associé à η1)
La dérivée par rapport à η1 repose sur l'égalité calcul matriciel :

Dès lors :
![{\displaystyle {\begin{aligned}\mathbb {E} [\mathbf {X} ]&={\frac {\partial A({\boldsymbol {\eta }}_{1},\ldots )}{\partial {\boldsymbol {\eta }}_{1}}}={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\ln |-{\boldsymbol {\eta }}_{1}|+\ln \Gamma _{p}\left({\frac {n}{2}}\right)\right]\\&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\&=n(\mathbf {V} )^{\rm {T}}\\&=n\mathbf {V} \end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7ce851bf94abe80eefa49ce87fbc60b24b48bd8b)
car V est symétrique.
- Espérance de ln|X| (associé à η2)
D'abord, on développe la partie de la log-partition qui contient la fonction gamma multivariée :
![{\displaystyle \ln \Gamma _{p}(y)=\ln \left(\pi ^{p(p-1)/4}\prod _{j=1}^{p}\Gamma \left[y+(1-j)/2\right]\right)=p(p-1)/4\ln \pi +\sum _{j=1}^{p}\ln \Gamma \left[y+(1-j)/2\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3eb3d1c5be0820fe183f11c1aeff427573eae183)
On introduit la fonction digamma
.
Dès lors :
![{\displaystyle {\begin{aligned}\mathbb {E} [\ln |\mathbf {X} |]&={\frac {\partial A(\ldots ,\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)\right]\\&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+p(p-1)/4\ln \pi +\sum _{j=1}^{p}\ln \Gamma \left(\eta _{2}+{\frac {p+1}{2}}+(1-j)/2\right)\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[\eta _{2}+{\frac {p+1}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[{\frac {n-p-1}{2}}+{\frac {p+1}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[{\frac {n}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n+1-j}{2}}\right)\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/065ea4b7a55a4895956d30bbae72212095ec53a4)
Ces deux espérances sont nécessaires pour dériver les équations d'adaptation variationnelle d'un réseau bayésien qui comporte une loi de Wishart (laquelle est la prieure conjuguée de la normale multivariée).
On cherche la loi dont l'entropie est maximale, conditionnellement à une série de contraintes sur les espérances. La réponse est une famille exponentielle.
L'entropie informationnelle d'une loi de probabilité dF(x) se calcule par rapport à une autre loi de probabilité (ou, de façon plus générale, une mesure positive), telle que les deux mesures soient mutuellement absolument continues.
Soit une mesure de base dH(x) de même support que dF(x).
L'entropie de dF(x) relativement à dH(x) est définie comme :
![{\displaystyle S[dF|dH]=-\int {dF \over dH}\ln {dF \over dH}\,dH=\int \ln {dH \over dF}\,dF}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4dd9506c4413f506af240a426c058b13ec1840f2)
où dF/dH et dH/dF sont les dérivées de Radon–Nikodym.
- On note que la définition habituelle de l'entropie d'une loi discrète sur un ensemble Y, à savoir
, suppose implicitement que la mesure dH choisie est la mesure de comptage de Y.
- De même, pour une loi continue, H(x)=x donne :

Soit un échantillon de quantités observables (variables aléatoires) Tj.
La loi dF d'entropie maximale par rapport à dH, conditionnellement à ce que l'espérance de Tj soit égale à tj, sera un membre de la famille exponentielle ayant dH pour mesure de base et (T1, ..., Tn) pour statistique(s) suffisante(s).
Ce résultat se déduit par le calcul des variations à l'aide de multiplicateurs de Lagrange. La normalisation est garantie en imposant la contrainte T0 = 1. Les paramètres naturels de la loi sont les multiplicateurs de Lagrange associés aux tj et le facteur de normalisation est le multiplicateur de Lagrange associé à T0.