Endogénéité

En économétrie, l'endogénéité se réfère généralement à une situation dans laquelle une des variables explicatives est corrélée avec le terme d'erreur. La distinction entre les variables endogènes et exogènes vient des modèles d'équations simultanées, où on sépare les variables entre celles qui sont déterminées par le modèle et celles qui sont prédéterminées. Ignorer la simultanéité dans l'estimation provoque un biais des estimateurs car cela viole l'hypothèse d'orthogonalité présente dans le théorème de Gauss-Markov. Le problème de l'endogénéité est malheureusement souvent ignoré par les chercheurs faisant de la recherche non-expérimentale, ce qui empêche de faire de bonnes recommandations en matière de politique à mener^{[réf. nécessaire]}. La méthode des variables instrumentales est souvent utilisée pour régler le problème de l'endogénéité.

En plus de la simultanéité, la corrélation entre les variables explicatives et le terme d'erreur peut survenir quand une variable omise agit à la fois sur la variable expliquée et sur une (ou des) variable(s) explicative(s). Cette corrélation peut également arriver quand il y a des erreurs de mesure sur les variables explicatives.

Modèles statiques

Dans un modèle stochastique, on peut définir les notions de faible exogénéité, forte exogénéité et super exogénéité. Une variable est :

faiblement exogène si les coefficients d'intérêt sont tous inclus dans l'équation que l'on cherche à estimer, et si l'estimation de ces coefficients n'est pas contrainte par la valeur des coefficients apparaissant dans d'autres équations du modèle^[1] ;
fortement exogène si elle est faiblement exogène et qu'elle n'est pas causée au sens de Granger ;
super exogène si les coefficients ne varient pas.

Quand les variables explicatives ne sont pas stochastiques, elles sont fortement exogènes. Si la variable explicative est corrélée avec le terme d'erreur, alors le coefficient estimé par l'estimateur des moindres carrés ordinaires (MCO) sera biaisé. Il existe plusieurs méthodes de correction de ce biais, comme la méthode des variables instrumentales.

Cette partie présente les principales causes d'endogénéité.

Variable omise

Dans ce cas, l'endogénéité vient du fait qu'une des variables explicatives corrélée à la fois avec la variable expliquée et avec le terme d'erreur n'est pas prise en compte dans l'équation. Par exemple, supposons que le « vrai » modèle devant être estimé est :

$y_{i}=\alpha +\beta x_{i}+\gamma z_{i}+u_{i}$

mais que l'on oublie d'inclure la variable $z_{i}$ (par exemple parce que l'on ne dispose pas de données dessus), alors $z_{i}$ sera incluse dans le terme d'erreur et l'équation que nous estimerons en réalité sera :

$y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}$ (avec $\varepsilon _{i}=\gamma z_{i}+u_{i}$ )

Si la corrélation entre $x$ et $z$ n'est pas nulle et que $z$ agit directement sur $y$ (ce qui revient à dire que $\gamma \neq 0$ ), alors $x$ est corrélée avec le terme d'erreur.

Erreur de mesure

Supposons que nous n'ayons pas une parfaite mesure d'une des variables explicatives. Par exemple, imaginons qu'au lieu d'observer $x_{i}^{*}$ , on observe $x_{i}=x_{i}^{*}+\nu _{i}$ où $\nu _{i}$ est le « bruit » mesuré. Dans ce cas, un modèle sous la forme :

$y_{i}=\alpha +\beta x_{i}^{*}+\varepsilon _{i}$

peut alors s'écrire :

$y_{i}=\alpha +\beta (x_{i}-\nu _{i})+\varepsilon _{i}$

$y_{i}=\alpha +\beta x_{i}+(\varepsilon _{i}-\beta \nu _{i})$

$y_{i}=\alpha +\beta x_{i}+u_{i}$ (où $u_{i}=\varepsilon _{i}-\beta \nu _{i}$ )

Puisque $x_{i}$ et $u_{i}$ dépendent de $\nu _{i}$ , ces deux variables sont corrélées et l'estimation de $\beta$ par les MCO sera biaisée à la baisse. En revanche, une erreur de mesure de la variable expliquée ne cause pas d'endogénéité (bien qu'elle augmente la variance du terme d'erreur).

Simultanéité

Supposons qu'on ait un modèle avec deux équations « structurelles » dans lesquelles les variables $z_{i}$ et $y_{i}$ s'influencent réciproquement :

$y_{i}=\beta _{1}x_{i}+\gamma _{1}z_{i}+u_{i}$

$z_{i}=\beta _{2}x_{i}+\gamma _{2}y_{i}+v_{i}$

Chercher à estimer chaque équation donnera de l'endogénéité. Par exemple, pour la première équation, on a $\operatorname {E} (z_{i}u_{i})\neq 0$ . Si l'on cherche à exprimer $z_{i}$ (en supposant que $1-\gamma _{1}\gamma _{2}\neq 0$ ), on obtient

$z_{i}={\frac {\beta _{2}+\gamma _{2}\beta _{1}}{1-\gamma _{1}\gamma _{2}}}x_{i}+{\frac {1}{1-\gamma _{1}\gamma _{2}}}v_{i}+{\frac {\gamma _{2}}{1-\gamma _{1}\gamma _{2}}}u_{i}$

Si l'on suppose que $x_{i}$ et $v_{i}$ ne sont pas corrélées avec $u_{i}$ , on a donc

$\operatorname {E} (z_{i}u_{i})={\frac {\gamma _{2}}{1-\gamma _{1}\gamma _{2}}}\operatorname {E} (u_{i}u_{i})\neq 0$

Par conséquent, si l'on essaie d'estimer l'une des deux équations structurelles, on se retrouvera bloqué par l'endogénéité.

Modèles dynamiques

Le problème de l'endogénéité est particulièrement prévalent dans l'étude de liens de causalité dans les séries temporelles. Dans un système causal, il est fréquent que la valeur de certains facteurs en $t$ dépendent de la valeur d'autres facteurs en $t-1$ . Supposons par exemple que le niveau de contamination de la peste soit indépendant de tout autre facteur dans une période donnée, mais soit influencé par le niveau de précipitations et d'engrais utilisés au cours de la période précédente. Dans ce cas, il serait correct de dire que la contamination est exogène dans la période donnée mais endogène dans le temps.

Notons ce modèle $y=f(x,z)+u$ . Si la variable $x$ est faiblement exogène pour le paramètre $\alpha$ , et que $y$ ne cause pas $x$ au sens de Granger, alors la variable $x$ est fortement exogène pour le paramètre $\alpha$ .

Simultanéité

En général, la simultanéité se produit dans les modèles dynamiques de la même manière que dans les modèles statiques décrits ci-dessus.

Modèles statiques

Variable omise

Erreur de mesure

Simultanéité

Modèles dynamiques

Simultanéité

Notes et références

Related Articles