Validación de la regresión

Validación de ajuste — Validación de dos posibles modelos de ajuste. Tanto el análisis de residuos como el coeficiente de determinación (R²), indican que es mejor el modelo cuadrático que el lineal

En estadística, la validación de regresión es el proceso de decidir si los resultados numéricos cuantifican relaciones de hipótesis entre variables obtenidos de análisis de la regresión . El proceso de validación puede implicar analizar la bondad de ajuste de la regresión analizando si los residuos de regresión son aleatorios y comprobamos si el rendimiento del modelo se deteriora cuando fueron aplicando a datos que no fue utilizado en la valoración de modelo.

R2 NO ES UN PARAMETRO DE BONDAD DEL AJUSTE. Un valor de R² (coeficiente de determinación) próximo a uno se garantiza que el modelo se ajuste bien a los datos, es decir, la bondad del ajuste, como el cuarteto de Anscombe, un R² alto puede ocurrir en presencia de una especificación incorrecta de la forma funcional de una relación o en presencia de valores atípicos que distorsionan la relación verdadera.

Análisis de Residuos

Los residuos de un modelo ajustado son las diferencias entre las respuestas observadas en cada combinación de valores de las variables explicativas y la correspondiente predicción de la respuesta calculada utilizando la función de regresión. Matemáticamente, la definición del residuo para la i-ésima observación en el conjunto de datos se escribe:

e_{i}=y_{i}-f(x_{i};{\hat {\beta }}),

donde Yi denotando la i-ésima respuesta en el conjunto de datos y Xi el vector de las variables explicativas, cada uno de ellos con los correspondientes valores encontrados en la i-ésima observación en el conjunto de datos.

Si el modelo ajustado a los datos era correcto, los residuos se aproximarían a los errores aleatorios que hacen que la relación entre las variables explicativas y la variable de respuesta sea una relación estadística. Por lo tanto, si los residuos parecen comportarse de forma aleatoria, sugiere que el modelo se ajusta bien a los datos. Por otra parte, si la estructura no aleatoria es evidente en los residuos, es una clara señal de que el modelo se ajusta a los datos mal. La siguiente sección detalla los tipos de parcelas que se utilizarán para probar diferentes aspectos de un modelo y dar las interpretaciones correctas de los diferentes resultados que se podrían observar para cada tipo de parcela.

Modelo de regresión lineal múltiple: Y=X β +U, donde X es la matriz de regresores nx(k+1), β es el vector de parámetros (k+1)x1 y U es un vector nx1 con ley normal multivariante NMn(0,σ2 I). Una vez estimado el modelo de regresión lineal múltiple tendremos que comprobar las hipótesis de linealidad, normalidad, homocedasticidad e independencia, realizando un estudio de los residuos.

Análisis gráfico de residuos

Una manera básica, aunque no cuantitativamente precisa, de buscar problemas que hacen que un modelo sea inadecuado es realizar un examen visual de los residuos (los errores en las predicciones de los datos utilizados para cuantificar el modelo) para buscar desviaciones obvias de la aleatoriedad. Si un examen visual sugiere, por ejemplo, la posible presencia de heteroscedasticidad (una relación entre la varianza de los errores del modelo y el tamaño de las observaciones de una variable independiente), entonces se pueden realizar pruebas estadísticas para confirmar o rechazar este palpitar; Si se confirma, se requieren procedimientos de modelado diferentes.

Diferentes tipos de gráficos de los residuos de un modelo ajustado proporcionan información sobre la adecuación de diferentes aspectos del modelo.

Suficiencia de la parte funcional del modelo: diagramas de dispersión de los residuos frente a los predictores.
Varianza no constante a través de los datos: diagramas de dispersión de los residuos frente a los predictores; Para los datos recolectados con el tiempo, también gráficas de residuos en función del tiempo.
Deriva en los errores (datos recogidos con el tiempo): gráficos de ejecución de la respuesta y errores en función del tiempo.
Independencia de errores: gráficos de autocorrelación
Normalidad de los errores: histograma y gráfico de probabilidad normal.

Los métodos gráficos tienen una ventaja sobre los métodos numéricos para la validación del modelo porque ilustran fácilmente una amplia gama de aspectos complejos de la relación entre el modelo y los datos.

Análisis cuantitativo de residuos

Los métodos numéricos también juegan un papel importante en la validación del modelo. Por ejemplo, la prueba de falta de ajuste para evaluar la corrección de la parte funcional del modelo puede ayudar a interpretar un gráfico de residuos. Una situación común cuando los métodos numéricos de validación tienen prioridad sobre los métodos gráficos es cuando el número de parámetros que se están estimando es relativamente cercano al tamaño del conjunto de datos. En esta situación los gráficos de residuos son a menudo difíciles de interpretar debido a las restricciones sobre los residuos impuestas por la estimación de los parámetros desconocidos. Un área en la que esto suele suceder es en aplicaciones de optimización que utilizan experimentos diseñados. La regresión logística con datos binarios es otra área en la que el análisis gráfico residual puede ser difícil. La correlación seriada de los residuos puede indicar error específico del modelo, y se puede comprobar con el estadístico de Durbin-Watson. El problema de la heteroscedasticidad puede comprobarse de varias maneras.

Validación de la regresión

Análisis de Residuos

Análisis gráfico de residuos

Análisis cuantitativo de residuos

Evaluación fuera de la muestra

Medidas de ajuste

Referencias

Related Articles