Regresión de mínimos cuadrados parciales

From Wikipedia, the free encyclopedia

La regresión de mínimos cuadrados parciales o Partial least squares regression (PLS regression) es un método estadístico que tiene relación con la regresión de componentes principales, en lugar de encontrar hiperplanos de máxima varianza entre la variable de respuesta y las variables independientes, se encuentra una regresión lineal mediante la proyección de las variables de predicción y las variables observables a un nuevo espacio. Debido a que tanto los datos de X e Y se proyectan a nuevos espacios, la familia de los modelos PLS se conoce como factor de modelos bilineales. Los cuadrados mínimos parciales Análisis discriminante (PLS-DA) es una variante que se utiliza cuando la Y es binaria.

La regresión de mínimos cuadrados parciales se utiliza para encontrar las relaciones fundamentales entre las dos matrices (X e Y), es decir, un enfoque de variable latente para modelar la estructura de covarianza en estos dos espacios. Un modelo de PLS trata de encontrar el sentido multidimensional en el espacio de X que explica la dirección de la máxima varianza multidimensional en el espacio Y. regresión de mínimos cuadrados parciales es especialmente adecuada cuando la matriz de predictores tiene más variables que observaciones, y cuando hay multicolinealidad entre los valores de X. Por el contrario, de no usarse este modelo se producirá un error estándar de la regresión en estos casos.

El algoritmo de la regresión PLS se emplea en el modelado de ruta PLS,[1][2] un método para modelar una red "causal" de variables latentes, la palabra 'causal' se pone entre comillas, porque las causas, obviamente, no se pueden determinar sin experimentos o cuasi -métodos experimentales. Esta técnica es una forma de modelos de ecuaciones estructurales, que se distingue del método clásico por estar basadas en componentes en lugar de las covarianza.[3]

El método de mínimos cuadrados parciales se introdujo por el estadístico sueco Herman Wold, quien lo desarrolló con su hijo, Svante Wold. Un término alternativo para el PLS (y más correctamente según Svante Wold[4]) es la proyección sobre estructuras latentes, pero la expresión de mínimos cuadrados parciales sigue siendo dominante en muchas áreas. Aunque las aplicaciones originales estaban en las ciencias sociales, la regresión PLS es hoy en día más utilizado en Quimiometría y áreas relacionadas. También se utiliza en la bioinformática, Sensometrics, la neurociencia y la antropología. Por el contrario, PLS ruta modelado es la más utilizada en las ciencias sociales, la econometría, la comercialización y la gestión estratégica.

El modelo subyacente general de PLS multivariantes es:

donde es una matriz predictores, es una matriz de respuestas; y son matrices que son, respectivamente, proyecciones de X (el X score, component o factor matrix) y proyecciones de Y (the Y scores); y son, respectivamente, y matrices de cargo ortogonales; y matrices y son los términos de error, supone que los independientes e idénticamente distribuidas las variables aleatorias normales. Las descomposiciones de X e Y se hacen con el fin de maximizar la covarianza de T y U.

Algoritmos

Un número de variantes de PLS existe para estimar el factor de carga y las matrices y . La mayoría de ellos constructo estimaciones de la regresión lineal entre e como . Algunos algoritmos PLS sólo son apropiados para el caso en el que Y es un vector columna, mientras que otros tratan el caso general de una matriz . Algoritmos también difieren en si se estima la matriz de factores como una vista ortogonal, una matriz ortonormal o no.[5][6][7][8][9][10] La predicción final será el mismo para todas estas variedades de PLS, pero los componentes será diferente.

PLS1

Extensiones

Referencias

Related Articles

Wikiwand AI