Regressió de mínims quadrats parcials

La regressió de mínims quadrats parcials, (en anglès partial least squares, PLS), és un mètode estadístic multivariant que analitza la relació entre variables per trobar un subespai de variables latents que sintetize les variables de predicció o independents (X) amb l'objectiu d'entendre la dispersió de les variables dependents o observades (Y) de forma lineal.

A diferència de la regressió de components principals (PCR), que obté el subespai latent buscant maximitzar la variància de les variables explicatives (X), la PLS intenta maximitzar la covariància entre les variables dependents (Y) i les variables independents (X). Això ens permet trobar un subespai latent que conté informació de les observacions i per tant ens permet trobar aquell subespai que compacta la informació continguda a X, Y i la relació entre ambdós.

La regressió de mínims quadrats parcials va ser introduïda per l'estadístic suec Herman Wold juntament amb el seu fill Svante Wold en el camp de la quimiometria. Un terme alternatiu - i més correcte segons els seus autors - per a PLS és projecció sobre estructures latents (Projection to Latent Structures). La utilització de la terminologia concreta dependrà del camp d'aplicació, essent regressió de mínims quadrats parcials la forma més comuna de referir-s'hi.

Model matemàtic

El model matemàtic subjacent de PLS és el següent:

X=TP^{\mathrm {T} }+E

Y=UQ^{\mathrm {T} }+F

on $X$ és la matriu de predictors de dimensió $n\times m$ i $Y$ és la matriu d'observacions de dimensió $n\times p$ . $T$ and $U$ són matrius de dimensió $n\times l$ que referencien les projeccions a l'espai latent de projections de $X$ (X score) i $Y$ (the Y scores) respectivament, mentre que $P$ and $Q$ són les respectives matrius de loading i de dimensions $m\times l$ and $p\times l$ . Finalment, les matrius $E$ and $F$ són els termes d'error del model, assumint que són variables aleatòries independents i idènticament distribuïdes (i.i.d) que segueixen una distribució normal. La descomposició de $X$ i $Y$ busca maximitzar la covariància de $T$ i $U$ .

L'equació de regressió resultant queda així:

Y=XB_{PLS}+B_{0}

on l'expressió concreta de la matriu de coeficients $B_{PLS}$ dependrà de l'algoritme utilitzat.

Algoritmes

Existeixen diferents implementacions de PLS. NIPALS és l'algoritme introduït per Herman i Svante Wold.^[1] Més tard, va sortir SIMPLS, una alternativa més simple i ràpida de càlcul introduïda per S. De Jong l'any 1993.^[2]

NIPALS

NIPALS és l'acrònim de Non-linear iterative partial least squares (Mínims quadrats parcials no lineals i iteratius). Com el seu nom indica, obté les matrius del model PLS mitjançant la iteració entre els bocs X i Y.

1 function NIPALS( $X, Y, l$ )
2  $X_{(0)}\gets X$ 
3  $Y_{(0)}\gets Y$ 
3  $u_{(0)}\gets Y[:,0]$  utilitzem la primera columna de Y com a estimació inicial de u_{k}
4 for  $k=0$  to  $l-1$ 
5 while  waiting for  convergence
6  $w_{k}\gets {\frac {1}{u_{k}^{\mathrm {T} }u_{k}}}X_{k}^{\mathrm {T} }u_{k}$ 
7  $w_{k}\gets {\frac {w_{k}}{\sqrt {w_{k}^{\mathrm {T} }w_{k}}}}$ 
8  $t_{k}\gets {\frac {1}{w_{k}^{\mathrm {T} }w_{k}}}X_{k}^{\mathrm {T} }w_{k}$ 
9  $c_{k}\gets {\frac {1}{t_{k}^{\mathrm {T} }t_{k}}}Y_{k}^{\mathrm {T} }t_{k}$ 
10  $u_{k}\gets {\frac {1}{c_{k}^{\mathrm {T} }c_{k}}}Y_{k}^{\mathrm {T} }c_{k}$ 
11 
12  $p_{k}\gets {\frac {1}{t_{k}^{\mathrm {T} }t_{k}}}X_{k}^{\mathrm {T} }t_{k}$ 
13  ${\hat {X_{k}}}\gets t_{k}p_{k}^{\mathrm {T} }$ 
14  $X_{k+1}\gets F_{k}=X_{k}-{\hat {X_{k}}}$ 
15  ${\hat {y_{k}}}\gets t_{k}c_{k}^{\mathrm {T} }$ 
16  $X_{k+1}\gets E_{K}=Y_{k}-{\hat {Y_{k}}}$ 
17
18 define  $W$  to be the matrix with columns  $w^{(0)},w^{(1)},...,w^{(l-1)}$ .
Do the same to form the  $P$  and  $C$  matrices.
18  $B_{PLS}\gets W(P^{\mathrm {T} }W)^{-1}C$ 
19 return  $B_{PLS}$

on $W,C$ són les matrius de pesos de $X,Y$ respectivament. La convergència de l'algoritme per a cada variable latent es defineix, normalment, quan la variació de la variable $u_{k}$ és mínima entre iteracions consecutives

SIMPLS

L'algoritme SIMPLS (Statistically Inpired Modification of PLS) és una modificació del NIPALS, més ràpid de càlcul. Utilitza descomposició en valors singulars, convertint-lo en més eficient.

Software

La majoria de softwares estadístics, tenen diferents implementacions de PLS.

Python: la llibreria scikit-learn té una implementació de NIPALS a la classe PLSRegression
R: té diverses implementacions de PLS al paquet pls i plsdepot
SAS: implementa PLS mitjançant PLS Procedure
Matlab: la funció plsregress implementa l'algoritme SIMPLS

Referències

↑ Wold, S; Sjöström, M.; Eriksson, L. «PLS-regression: a basic tool of chemometrics». Chemometrics and Intelligent Laboratory Systems, 58, 2, 2001, pàg. 109–130. DOI: 10.1016/S0169-7439(01)00155-1.
↑ De Jong, Sijmen «SIMPLS: An alternative approach to partial least squares regression». Chemometrics and Intelligent Laboratory Systems, 18, 3, pàg. 251-263.

[wold_2001-1] Wold, S; Sjöström, M.; Eriksson, L. «PLS-regression: a basic tool of chemometrics». Chemometrics and Intelligent Laboratory Systems, 58, 2, 2001, pàg. 109–130. DOI: 10.1016/S0169-7439(01)00155-1.

[2] De Jong, Sijmen «SIMPLS: An alternative approach to partial least squares regression». Chemometrics and Intelligent Laboratory Systems, 18, 3, pàg. 251-263.

[1]

[2]