Regressió de mínims quadrats parcials

La regressió de mínims quadrats parcials, (en anglès partial least squares, PLS), és un mètode estadístic multivariant que analitza la relació entre variables per trobar un subespai de variables latents que sintetize les variables de predicció o independents (X) amb l'objectiu d'entendre la dispersió de les variables dependents o observades (Y) de forma lineal.

A diferència de la regressió de components principals (PCR), que obté el subespai latent buscant maximitzar la variància de les variables explicatives (X), la PLS intenta maximitzar la covariància entre les variables dependents (Y) i les variables independents (X). Això ens permet trobar un subespai latent que conté informació de les observacions i per tant ens permet trobar aquell subespai que compacta la informació continguda a X, Y i la relació entre ambdós.

La regressió de mínims quadrats parcials va ser introduïda per l'estadístic suec Herman Wold juntament amb el seu fill Svante Wold en el camp de la quimiometria. Un terme alternatiu - i més correcte segons els seus autors - per a PLS és projecció sobre estructures latents (Projection to Latent Structures). La utilització de la terminologia concreta dependrà del camp d'aplicació, essent regressió de mínims quadrats parcials la forma més comuna de referir-s'hi.

Model matemàtic modifica

El model matemàtic subjacent de PLS és el següent:

 
 

on X és la matriu de predictors de dimensió   i Y és la matriu d'observacions de dimensió  . T and U són matrius de dimensió   que referencien les projeccions a l'espai latent de projections de X (X score) i Y (the Y scores) respectivament, mentre que P and Q són les respectives matrius de loading i de dimensions   and  . Finalment, les matrius E and F són els termes d'error del model, assumint que són variables aleatòries independents i idènticament distribuïdes (i.i.d) que segueixen una distribució normal. La descomposició de X i Y busca maximitzar la covariància de T i U.

L'equació de regressió resultant queda així:

 

on l'expressió concreta de la matriu de coeficients   dependrà de l'algoritme utilitzat.

Algoritmes modifica

Existeixen diferents implementacions de PLS. NIPALS és l'algoritme introduït per Herman i Svante Wold.[1] Més tard, va sortir SIMPLS, una alternativa més simple i ràpida de càlcul introduïda per S. De Jong l'any 1993.[2]

NIPALS modifica

NIPALS és l'acrònim de Non-linear iterative partial least squares (Mínims quadrats parcials no lineals i iteratius). Com el seu nom indica, obté les matrius del model PLS mitjançant la iteració entre els bocs X i Y.


1 function NIPALS(X, Y, l)
2  
3  
3   utilitzem la primera columna de Y com a estimació inicial de u_{k}
4 for   to  
5 while  waiting for  convergence
6  
7  
8  
9  
10  
11 
12  
13  
14  
15  
16  
17
18 define W to be the matrix with columns  .
Do the same to form the P and C matrices.
18  
19 return  

on   són les matrius de pesos de   respectivament. La convergència de l'algoritme per a cada variable latent es defineix, normalment, quan la variació de la variable   és mínima entre iteracions consecutives

SIMPLS modifica

L'algoritme SIMPLS (Statistically Inpired Modification of PLS) és una modificació del NIPALS, més ràpid de càlcul. Utilitza descomposició en valors singulars, convertint-lo en més eficient.

Software modifica

La majoria de softwares estadístics, tenen diferents implementacions de PLS.

Referències modifica

  1. Wold, S; Sjöström, M.; Eriksson, L. «PLS-regression: a basic tool of chemometrics». Chemometrics and Intelligent Laboratory Systems, 58, 2, 2001, pàg. 109–130. DOI: 10.1016/S0169-7439(01)00155-1.
  2. De Jong, Sijmen «SIMPLS: An alternative approach to partial least squares regression». Chemometrics and Intelligent Laboratory Systems, 18, 3, pàg. 251-263.