Dans un modèle stochastique, on peut définir les notions de faible exogénéité, forte exogénéité et super exogénéité. Une variable est :
- faiblement exogène si les coefficients d'intérêt sont tous inclus dans l'équation que l'on cherche à estimer, et si l'estimation de ces coefficients n'est pas contrainte par la valeur des coefficients apparaissant dans d'autres équations du modèle[1] ;
- fortement exogène si elle est faiblement exogène et qu'elle n'est pas causée au sens de Granger ;
- super exogène si les coefficients ne varient pas.
Quand les variables explicatives ne sont pas stochastiques, elles sont fortement exogènes.
Si la variable explicative est corrélée avec le terme d'erreur, alors le coefficient estimé par l'estimateur des moindres carrés ordinaires (MCO) sera biaisé. Il existe plusieurs méthodes de correction de ce biais, comme la méthode des variables instrumentales.
Cette partie présente les principales causes d'endogénéité.
Dans ce cas, l'endogénéité vient du fait qu'une des variables explicatives corrélée à la fois avec la variable expliquée et avec le terme d'erreur n'est pas prise en compte dans l'équation. Par exemple, supposons que le « vrai » modèle devant être estimé est :

mais que l'on oublie d'inclure la variable
(par exemple parce que l'on ne dispose pas de données dessus), alors
sera incluse dans le terme d'erreur et l'équation que nous estimerons en réalité sera :
(avec
)
Si la corrélation entre
et
n'est pas nulle et que
agit directement sur
(ce qui revient à dire que
), alors
est corrélée avec le terme d'erreur.
Supposons que nous n'ayons pas une parfaite mesure d'une des variables explicatives. Par exemple, imaginons qu'au lieu d'observer
, on observe
où
est le « bruit » mesuré. Dans ce cas, un modèle sous la forme :

peut alors s'écrire :


(où
)
Puisque
et
dépendent de
, ces deux variables sont corrélées et l'estimation de
par les MCO sera biaisée à la baisse. En revanche, une erreur de mesure de la variable expliquée ne cause pas d'endogénéité (bien qu'elle augmente la variance du terme d'erreur).
Supposons qu'on ait un modèle avec deux équations « structurelles » dans lesquelles les variables
et
s'influencent réciproquement :


Chercher à estimer chaque équation donnera de l'endogénéité. Par exemple, pour la première équation, on a
. Si l'on cherche à exprimer
(en supposant que
), on obtient

Si l'on suppose que
et
ne sont pas corrélées avec
, on a donc

Par conséquent, si l'on essaie d'estimer l'une des deux équations structurelles, on se retrouvera bloqué par l'endogénéité.
Le problème de l'endogénéité est particulièrement prévalent dans l'étude de liens de causalité dans les séries temporelles. Dans un système causal, il est fréquent que la valeur de certains facteurs en
dépendent de la valeur d'autres facteurs en
. Supposons par exemple que le niveau de contamination de la peste soit indépendant de tout autre facteur dans une période donnée, mais soit influencé par le niveau de précipitations et d'engrais utilisés au cours de la période précédente. Dans ce cas, il serait correct de dire que la contamination est exogène dans la période donnée mais endogène dans le temps.
Notons ce modèle
. Si la variable
est faiblement exogène pour le paramètre
, et que
ne cause pas
au sens de Granger, alors la variable
est fortement exogène pour le paramètre
.
En général, la simultanéité se produit dans les modèles dynamiques de la même manière que dans les modèles statiques décrits ci-dessus.