Un processus AR(p) s'écrit :

Les différents moments d'un processus stationnaire (voir section suivante) sont[1] :



Les formules de la variance et de la covariance correspondent aux équations dites de Yule et walker (voir plus bas).
Théorème — Un processus AR(p) est stationnaire si le module des solutions (les racines) de son équation caractéristique est à chaque fois strictement supérieur à 1 en valeur absolue.
La condition est souvent formulée différemment, selon laquelle les racines doivent être en dehors du cercle complexe unitaire.
Le polynôme des retards d'un processus AR(1)
s'écrit:
. Sa résolution (en remplaçant l'opérateur retard L par la simple valeur x) donne
. La condition que la solution soit plus grande que 1 revient à 
Le polynôme des retards d'un processus AR(2)
s'écrit:
. La résolution de l'équation du second degré
amène aux conditions suivantes[2] :



Le polynôme des retards d'un processus AR(p)
s'écrit:
. La résolution de l'équation
amène aux conditions nécessaires (mais pas suffisantes) suivantes[3] :


Les équations de Yule-Walker établissent une correspondance directe entre les paramètres du modèle (les
et
) et ses autocovariances. Elles sont utiles pour déterminer la fonction d'autocorrélation ou estimer les paramètres. Elles établissent que :
équation YW — 
- Les coefficients
représentent la fonction d'autocovariance de X d'ordre j.
Lorsque l'on inclut également l'autocovariance d'ordre 0 (en fait la variance), il faut également rajouter la variance des résidus pour la première équation. Ce terme supplémentaire ne se retrouve que dans la première équation car on a fait l'hypothèse d'indépendance des résidus (et donc
).
équation YW — 
est la déviation (écart-type) du bruit blanc et δj le Symbole de Kronecker, qui vaut 1 si j=0 et 0 autrement.
Il est aussi possible d'exprimer ces équations en fonction de l'autocorrélation :
équation YW — 
Pour un processus AR(1), on a :

On remarque que l'on retrouve rapidement, avec j=1, le résultat obtenu plus haut :

en prenant l'équation supplémentaire pour
, qui devient alors 

Que l'on peut écrire sous forme matricielle :

L'équation définissante du processus AR est

En multipliant les deux membres par Xt − j et en prenant l'espérance, on obtient
![{\displaystyle E[X_{t}X_{t-j}]=E\left[\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}X_{t-j}\right]+E[\varepsilon _{t}X_{t-j}].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e060d4cd1f686a805574792713a67745efc1d1bc)
Or, il se trouve que
. Dans le cas où on considère le processus
de moyenne nulle (
),
se ramène à la fonction d’auto-corrélation. Les termes du bruit blancs sont indépendants les uns des autres et, de plus,
est indépendant de
où
est plus grand que zéro. Pour
. Pour
,
![{\displaystyle E[\varepsilon _{t}X_{t}]=E\left[\varepsilon _{t}\left(\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}+\varepsilon _{t}\right)\right]=\sum _{i=1}^{p}\varphi _{i}\,E[\varepsilon _{t}\,X_{t-i}]+E[\varepsilon _{t}^{2}]=0+\sigma _{\varepsilon }^{2},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/525dcfb63320ca8507b03d9ba9071bb86fbda251)
Maintenant, on a pour j ≥ 0,
![{\displaystyle \gamma _{j}=E\left[\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}X_{t-j}\right]+\sigma _{\varepsilon }^{2}\delta _{j}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0c3006e9b81b0b980367ab6df02c1ec08095944c)
Par ailleurs,
![{\displaystyle E\left[\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}X_{t-j}\right]=\sum _{i=1}^{p}\varphi _{i}\,E[X_{t}X_{t-j+i}]=\sum _{i=1}^{p}\varphi _{i}\,\gamma _{j-i},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/257f224e98620aaa725b9016e5f013b68cae1007)
qui donne les équations de Yule-Walker :

pour j ≥ 0. Pour j < 0,

En partant du modèle AR(p) sans constante donné par :

Les paramètres à estimer sont les
et
.
La méthode consiste à reprendre les équations de Yule-Walker en inversant les relations : on exprime les coefficients en fonction des autocovariances. On applique alors le raisonnement de la Méthode des moments: on trouve les paramètres estimés d'après les autocovariances estimées.
En prenant l'équation sous sa forme matricielle :

Le vecteur des paramètres
peut alors être obtenu.
La matrice du système est une matrice de Toeplitz. Un algorithme que l'on peut employer pour l'inversion du système est l'algorithme de Levinson-Durbin.
L'estimation d'un modèle AR(P) par la méthode du maximum de vraisemblance est délicate car la fonction de vraisemblance est très complexe et n'a pas de dérivée analytique. Cette difficulté provient de l'interdépendance des valeurs, ainsi que du fait que les observations antérieures ne sont pas toutes disponibles pour les p premières valeurs.
Une manière de simplifier la complexité de la fonction de vraisemblance est de conditionner cette fonction aux p premières observations.
La fonction de log-vraisemblance devient :

La maximisation de cette fonction par rapport aux paramètres
correspond à la minimisation des erreurs du modèle. L'estimateur du maximum de vraisemblance conditionnel correspond ainsi à celui des moindres carrés.
L'estimateur obtenu sera équivalent à l'estimateur inconditionnel dans de grands échantillons et tous deux ont la même distribution asymptotique (Hamilton 1994, p. 126). Il peut être biaisé[4].
Davidson et McKinnon (1993) rapportent que l'estimateur des moindres carrés conditionnel est biaisé, mais néanmoins convergent. Cryer et Chan (2008) proposent une simulation Monte-Carlo pour tester les différents estimateurs.