Error cuadrático medio

En estadística, el error cuadrático medio (ECM) de un estimador mide el promedio de los errores al cuadrado, es decir, la diferencia entre el estimador y lo que se estima. El ECM es una función de riesgo, correspondiente al valor esperado de la pérdida del error al cuadrado o pérdida cuadrática. La diferencia se produce debido a la aleatoriedad o porque el estimador no tiene en cuenta la información que podría producir una estimación más precisa.^[1]

El ECM es el segundo momento (sobre el origen) del error, y por lo tanto incorpora tanto la varianza del estimador así como su sesgo. Para un estimador insesgado, el ECM es la varianza del estimador. Al igual que la varianza, el ECM tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima. En una analogía con la desviación estándar, tomando la raíz cuadrada del ECM produce el error de la raíz cuadrada de la media o la desviación de la raíz cuadrada media (RMSE o RMSD), que tiene las mismas unidades que la cantidad que se estima; para un estimador insesgado, el RMSE es la raíz cuadrada de la varianza, conocida como la desviación estándar.

Si ${\hat {Y}}$ es un vector de n predicciones y $Y$ es el vector de los verdaderos valores, entonces el (estimado) ECM del predictor es:

\operatorname {ECM} ={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}.

Esta es una cantidad conocida, calculado dada una muestra particular (y por lo tanto es dependiente de la muestra).

El ECM de un estimador ${\hat {\theta }}$ con respecto al parámetro desconocido $\theta$ se define como

\operatorname {ECM} ({\hat {\theta }})=\operatorname {E} {\big [}({\hat {\theta }}-\theta )^{2}{\big ]}.

Esta definición depende del parámetro desconocido, y el ECM en este sentido es una propiedad de un estimador (de un método de obtención de una estimación).

El ECM es igual a la suma de la varianza y el cuadrado sesgo del estimador o de las predicciones. En el caso del ECM de un estimador,^[2]

\operatorname {ECM} ({\hat {\theta }})=\operatorname {Var} ({\hat {\theta }})+\left(\operatorname {sesgo} ({\hat {\theta }},\theta )\right)^{2}.

Así pues, el ECM evalúa la calidad de un estimador o conjunto de predicciones en cuanto a su variación y el grado de sesgo.

Desde ECM es una expectativa, no es técnicamente una variable aleatoria, pero va a estar sujeto a error de estimación cuando se calcula para un estimador particular de $\theta$ con valor verdadero desconocido. Por lo tanto, cualquier estimación del ECM sobre la base de un parámetro estimado es de hecho una variable aleatoria.

Demostración

{\begin{aligned}\operatorname {ECM} ({\hat {\theta }})\equiv \mathbb {E} (({\hat {\theta }}-\theta )^{2})&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})+\mathbb {E} ({\hat {\theta }})-\theta \right)^{2}\right]\\&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)^{2}+2\left(({\hat {\theta }}-\mathbb {E} ({\hat {\theta }}))(\mathbb {E} ({\hat {\theta }})-\theta )\right)+\left(\mathbb {E} ({\hat {\theta }})-\theta \right)^{2}\right]\\&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)^{2}\right]+2\mathbb {E} \left[({\hat {\theta }}-\mathbb {E} ({\hat {\theta }}))(\mathbb {E} ({\hat {\theta }})-\theta )\right]+\mathbb {E} \left[\left(\mathbb {E} ({\hat {\theta }})-\theta \right)^{2}\right]\\&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)^{2}\right]+2(\mathbb {E} ({\hat {\theta }})-\theta )\overbrace {\mathbb {E} ({\hat {\theta }}-\mathbb {E} ({\hat {\theta }}))} ^{=\mathbb {E} ({\hat {\theta }})-\mathbb {E} ({\hat {\theta }})=0}+\mathbb {E} \left[\left(\mathbb {E} ({\hat {\theta }})-\theta \right)^{2}\right]\\&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)^{2}\right]+\mathbb {E} \left[\left(\mathbb {E} ({\hat {\theta }})-\theta \right)^{2}\right]\\&=\operatorname {Var} ({\hat {\theta }})+\operatorname {sesgo} ({\hat {\theta }},\theta )^{2}\end{aligned}}

Regresión

Ejemplos

Media

Supongamos que tenemos una muestra aleatoria de tamaño n de una población, $X_{1},\dots ,X_{n}$ . Supongamos que las unidades de muestra se eligieron con el reemplazo. Es decir, las n unidades se seleccionan uno a la vez, y las unidades previamente seleccionadas siguen siendo elegibles para ser seleccionados para todo n empates. El estimador usual de la media es el promedio de la muestra

{\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

el cual tiene un valor esperado igual a la media real μ (por lo que es imparcial) y un error cuadrático medio de

\operatorname {ECM} ({\overline {X}})=\operatorname {E} (({\overline {X}}-\mu )^{2})=\left({\frac {\sigma }{\sqrt {n}}}\right)^{2}={\frac {\sigma ^{2}}{n}}

donde $\sigma ^{2}$ es la varianza de la población.

Para una distribución gaussiana este es el mejor estimador insesgado (es decir, que tiene el MSE más bajo entre todos los estimadores insesgados), pero no, por ejemplo, para una distribución uniforme .

Varianza

El estimador usual para la varianza es la varianza muestral :

S_{n-1}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}={\frac {1}{n-1}}\left(\sum _{i=1}^{n}X_{i}^{2}-n{\overline {X}}^{2}\right).

Este estimador es insesgado, es decir, su valor esperado es $\sigma ^{2}$ . Su ECM es^[4]

{\begin{aligned}\operatorname {ECM} (S_{n-1}^{2})&={\frac {1}{n}}\left(\mu _{4}-{\frac {n-3}{n-1}}\sigma ^{4}\right)\\&={\frac {1}{n}}\left(\gamma _{2}+{\frac {2n}{n-1}}\right)\sigma ^{4},\end{aligned}}

donde $\mu _{4}$ es el cuarto momento central de la distribución o de la población y $\gamma _{2}=\mu _{4}/\sigma ^{4}-3$ es el exceso de curtosis.

Sin embargo, se puede utilizar otros estimadores de $\sigma ^{2}$ que son proporcionales a $S_{n-1}^{2}$ , Y una elección adecuada siempre puede dar un error cuadrático medio menor. Si definimos

{\begin{aligned}S_{a}^{2}&={\frac {n-1}{a}}S_{n-1}^{2}\\&={\frac {1}{a}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}\end{aligned}}

a continuación, el ECM es

{\begin{aligned}\operatorname {ECM} (S_{a}^{2})&=\operatorname {E} \left(\left({\frac {n-1}{a}}S_{n-1}^{2}-\sigma ^{2}\right)^{2}\right)\\&={\frac {n-1}{na^{2}}}[(n-1)\gamma _{2}+n^{2}+n]\sigma ^{4}-{\frac {2(n-1)}{a}}\sigma ^{4}+\sigma ^{4}\end{aligned}}

Esto se minimiza cuando

a={\frac {(n-1)\gamma _{2}+n^{2}+n}{n}}=n+1+{\frac {n-1}{n}}\gamma _{2}.

Para una distribución gaussiana, donde $\gamma _{2}=0$ . Esto significa que el ECM se minimiza al dividir la suma por $a=n+1$ . El exceso de curtosis es mínimo $\gamma _{2}=-2$ , [a] que se consigue mediante una distribución de Bernoulli con p = 1/2 (un tirón de la moneda), y el ECM se reduce al mínimo para $a=n-1+2/n$ . Así que no importa lo que la curtosis, obtenemos una estimación "mejor" (en el sentido de tener un ECM inferior) reduciendo el tamaño de la perito imparcial un poco; este es un ejemplo sencillo de un estimador de la contracción : uno "encoge" el estimador hacia cero (escalas por el estimador no sesgado).

Además, mientras que la varianza muestral corregida es el mejor estimador insesgado (error cuadrático medio mínimo entre los estimadores no sesgados) de la varianza para distribuciones gaussianas, si la distribución no es gaussiana entonces incluso entre estimadores no sesgados, el mejor estimador insesgado de la varianza puede no ser $S_{n-1}^{2}.$

Distribución gaussiana

a tabla siguiente da varios estimadores de los verdaderos parámetros de la población,μ y σ², para el caso de Gauss.^[5]

True value	Estimator	Mean squared error
θ = μ	${\hat {\theta }}$ = El estimador insesgado de la media de la población, ${\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i})$	$\operatorname {MSE} ({\overline {X}})=\operatorname {E} (({\overline {X}}-\mu )^{2})=\left({\frac {\sigma }{\sqrt {n}}}\right)^{2}$
θ = σ²	${\hat {\theta }}$ = El estimador insesgado de la varianza de la población, $S_{n-1}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}$	$\operatorname {MSE} (S_{n-1}^{2})=\operatorname {E} ((S_{n-1}^{2}-\sigma ^{2})^{2})={\frac {2}{n-1}}\sigma ^{4}$
θ = σ²	${\hat {\theta }}$ = El estimador sesgado de la varianza de la población, $S_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}$	$\operatorname {MSE} (S_{n}^{2})=\operatorname {E} ((S_{n}^{2}-\sigma ^{2})^{2})={\frac {2n-1}{n^{2}}}\sigma ^{4}$
θ = σ²	${\hat {\theta }}$ = El estimador sesgado de la varianza de la población, $S_{n+1}^{2}={\frac {1}{n+1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}$	$\operatorname {MSE} (S_{n+1}^{2})=\operatorname {E} ((S_{n+1}^{2}-\sigma ^{2})^{2})={\frac {2}{n+1}}\sigma ^{4}$

Tenga en cuenta que:

Las MSEs mostradas para los estimadores de varianza asumen que $X_{i}\sim \operatorname {N}$ ( (N (medido por MSE): el MSE de $S_{n-1}^{2}$ es mayor que $S_{n+1}^{2}$ or $S_{n}^{2}$ .
Los estimadores con la variación total más pequeña pueden producir estimaciones sesgadas: $S_{n+1}^{2}$ típicamente subestima σ² por ${\frac {2}{n}}\sigma ^{2}$