Mínimas desviaciones absolutas
Las Mínimas desviaciones absolutas, también conocidas como Mínimos Errores Absolutos (LAE), es una técnica de optimización técnica similar a los de mínimos cuadrados ordinarios que intenta encontrar una función que se aproxima mucho a un conjunto de datos. En el caso simple de un conjunto de datos, la función de aproximación es una simple "línea de tendencia" en dos dimensiones de coordenadas cartesianas. El método minimiza la suma de errores absolutos (SAE). La estimación de desviaciones mínimas absolutas también surge como la estimación de máxima verosimilitud si los errores tienen una distribución de Laplace.
From Wikipedia, the free encyclopedia
Las Mínimas desviaciones absolutas (LAD, por sus siglas en inglés), también conocidas como Mínimos Errores Absolutos (LAE), es una técnica de optimización técnica similar a los de mínimos cuadrados ordinarios que intenta encontrar una función que se aproxima mucho a un conjunto de datos. En el caso simple de un conjunto de datos (x, y) , la función de aproximación es una simple "línea de tendencia" en dos dimensiones de coordenadas cartesianas. El método minimiza la suma de errores absolutos (SAE) (la suma de los valores absolutos de los "residuos" verticales entre puntos generados por la función y los puntos correspondientes en los datos). La estimación de desviaciones mínimas absolutas también surge como la estimación de máxima verosimilitud si los errores tienen una distribución de Laplace.
Supongamos que el conjunto de datos consta de los puntos (xi, yi) con i = 1, 2, ..., n. Queremos encontrar una función f tal que
Para alcanzar este objetivo, se supone que la función f es de una forma particular que contiene algunos parámetros que deben determinarse. Por ejemplo, la forma más simple sería lineal: f(x) = bx + c, donde b y c son parámetros cuyos valores no se conocen, pero que nos gustaría estimar.
Supongamos que f (x) es una función cuadrática, lo que significa que f(x) = ax2 + bx + c, donde a, b y c no se conocen aún. (En general, podría ser no sólo una variable explicativa x, sino una pluralidad de variables, todos los que aparecen como argumentos de la función f.)
Ahora buscamos valores estimados de los parámetros desconocidos que minimizan la suma de los valores absolutos de los residuos:
Contrastando Mínimos Cuadrados con menos desviaciones absolutas
La siguiente es una tabla de contraste algunas propiedades del método de mínimas desviaciones absolutas con los del método de los mínimos cuadrados (para problemas no singulares).[1][2]
| Regresión de mínimos cuadrados | Regresión de mínimas desviaciones absolutas | |
|---|---|---|
| No muy robusta | Robusta | |
| Solución estable | Solución inestable | |
| Una solución | Múltiples soluciones posibles | |
El método de los desvíos menos absolutos encuentra aplicaciones en muchas áreas, debido a su solidez en comparación con el método de mínimos cuadrados. Por lo menos desviaciones absolutas es robusto en los que es resistente a los valores atípicos en los datos. Esto puede ser útil en los estudios donde los valores extremos pueden ser ignoradas de manera segura y efectiva. Si es importante prestar atención a todas y todos los valores atípicos, el método de los mínimos cuadrados es una mejor opción.
La propiedad inestabilidad del método de los desvíos menos absolutos significa que, por un pequeño ajuste horizontal de un dato , la línea de regresión puede saltar una gran cantidad. El método tiene soluciones continuas para algunas configuraciones de datos; Sin embargo, moviendo un punto de referencia una pequeña cantidad, se podría "saltar pasado" una configuración que tiene múltiples soluciones que abarcan una región. Después de pasar por esta región de soluciones, la línea de desviaciones menos absoluta tiene una pendiente que puede diferir mucho de la de la línea anterior. En contraste, las soluciones de mínimos cuadrados es estable en que, para cualquier pequeño ajuste de un punto de datos, la línea de regresión siempre se moverá sólo ligeramente; es decir, los parámetros de regresión son funciones continuas de los datos.
Por último, para un determinado conjunto de datos, el método de las desviaciones absolutas menos puede producir múltiples soluciones, mientras que el método de los mínimos cuadrados siempre produce sólo una solución (la línea de regresión es único).
Otras propiedades
Existen otras propiedades únicas de la línea de desviaciones menos absoluta. En el caso de un conjunto de (x, y) de datos, la línea de desviaciones menos absoluta siempre pasará a través de al menos dos de los puntos de datos, a menos que existan múltiples soluciones. Si existen varias soluciones, entonces la región de soluciones válidas desviaciones menos absolutos será delimitado por al menos dos líneas, cada una de las cuales pasa a través de al menos dos puntos de datos. Más en general, si hay k regresores (incluyendo la constante), a continuación, al menos una superficie de regresión óptimo se pasan a través de K de los puntos de datos.[3]: p.936
Este "bloqueo" de la línea a los puntos de datos puede ayudar a entender la propiedad "inestabilidad": si la línea siempre se engancha a por lo menos dos puntos, la línea va a saltar entre los diferentes conjuntos de puntos como se alteran los puntos de datos. El "enganche" también ayuda a entender la propiedad "robustez": si existe un valor atípico y un mínimo absoluto línea desviaciones deben aferrarse a dos puntos de datos, el valor atípico muy probablemente no será uno de esos dos puntos, porque eso no va a minimizar la suma de las desviaciones absolutas en la mayoría de los casos.
Un caso conocido en el que existen múltiples soluciones es un conjunto de puntos simétrica respecto a una línea horizontal, como se muestra en la Figura A a continuación.
Para entender por qué hay varias soluciones en el caso que se muestra en la Figura A, considere la línea rosa en la región verde. Su suma de errores absolutos es algún valor S. Si uno fuera a inclinar la línea ligeramente hacia arriba, mientras se mantiene dentro de la región verde, la suma de errores seguiría siendo S. No cambiaría porque la distancia de cada punto a la línea crece en un lado de la línea, mientras que la distancia de cada punto en el lado opuesto de la línea disminuye por exactamente la misma cantidad. Así, la suma de errores absolutos sigue siendo el mismo. Además, dado que se puede inclinar la línea en incrementos infinitamente pequeños, esto también muestra que si hay más de una solución, hay un número infinito de soluciones.