Los residuos de un modelo ajustado son las diferencias entre las respuestas observadas en cada combinación de valores de las variables explicativas y la correspondiente predicción de la respuesta calculada utilizando la función de regresión. Matemáticamente, la definición del residuo para la i-ésima observación en el conjunto de datos se escribe:

donde Yi denotando la i-ésima respuesta en el conjunto de datos y Xi el vector de las variables explicativas, cada uno de ellos con los correspondientes valores encontrados en la i-ésima observación en el conjunto de datos.
Si el modelo ajustado a los datos era correcto, los residuos se aproximarían a los errores aleatorios que hacen que la relación entre las variables explicativas y la variable de respuesta sea una relación estadística. Por lo tanto, si los residuos parecen comportarse de forma aleatoria, sugiere que el modelo se ajusta bien a los datos. Por otra parte, si la estructura no aleatoria es evidente en los residuos, es una clara señal de que el modelo se ajusta a los datos mal. La siguiente sección detalla los tipos de parcelas que se utilizarán para probar diferentes aspectos de un modelo y dar las interpretaciones correctas de los diferentes resultados que se podrían observar para cada tipo de parcela.
Modelo de regresión lineal múltiple: Y=X β +U, donde X es la matriz de regresores nx(k+1), β es el vector de parámetros (k+1)x1 y U es un vector nx1 con ley normal multivariante NMn(0,σ2 I). Una vez estimado el modelo de regresión lineal múltiple tendremos que comprobar las hipótesis de linealidad, normalidad, homocedasticidad e independencia, realizando un estudio de los residuos.
Una manera básica, aunque no cuantitativamente precisa, de buscar problemas que hacen que un modelo sea inadecuado es realizar un examen visual de los residuos (los errores en las predicciones de los datos utilizados para cuantificar el modelo) para buscar desviaciones obvias de la aleatoriedad. Si un examen visual sugiere, por ejemplo, la posible presencia de heteroscedasticidad (una relación entre la varianza de los errores del modelo y el tamaño de las observaciones de una variable independiente), entonces se pueden realizar pruebas estadísticas para confirmar o rechazar este palpitar; Si se confirma, se requieren procedimientos de modelado diferentes.
Diferentes tipos de gráficos de los residuos de un modelo ajustado proporcionan información sobre la adecuación de diferentes aspectos del modelo.
- Suficiencia de la parte funcional del modelo: diagramas de dispersión de los residuos frente a los predictores.
- Varianza no constante a través de los datos: diagramas de dispersión de los residuos frente a los predictores; Para los datos recolectados con el tiempo, también gráficas de residuos en función del tiempo.
- Deriva en los errores (datos recogidos con el tiempo): gráficos de ejecución de la respuesta y errores en función del tiempo.
- Independencia de errores: gráficos de autocorrelación
- Normalidad de los errores: histograma y gráfico de probabilidad normal.
Los métodos gráficos tienen una ventaja sobre los métodos numéricos para la validación del modelo porque ilustran fácilmente una amplia gama de aspectos complejos de la relación entre el modelo y los datos.
Los métodos numéricos también juegan un papel importante en la validación del modelo. Por ejemplo, la prueba de falta de ajuste para evaluar la corrección de la parte funcional del modelo puede ayudar a interpretar un gráfico de residuos. Una situación común cuando los métodos numéricos de validación tienen prioridad sobre los métodos gráficos es cuando el número de parámetros que se están estimando es relativamente cercano al tamaño del conjunto de datos. En esta situación los gráficos de residuos son a menudo difíciles de interpretar debido a las restricciones sobre los residuos impuestas por la estimación de los parámetros desconocidos. Un área en la que esto suele suceder es en aplicaciones de optimización que utilizan experimentos diseñados. La regresión logística con datos binarios es otra área en la que el análisis gráfico residual puede ser difícil. La correlación seriada de los residuos puede indicar error específico del modelo, y se puede comprobar con el estadístico de Durbin-Watson. El problema de la heteroscedasticidad puede comprobarse de varias maneras.