Lasso (estadística)

mètode estadístic

En estadística i aprenentatge automàtic, lasso (operador de selecció i contracció mínima absoluta; també Lasso o LASSO) és un mètode d'anàlisi de regressió que realitza tant la selecció de variables com la regularització per tal de millorar la precisió de predicció i la interpretabilitat del model estadístic resultant. Va ser introduït originalment en geofísica,[1] i més tard per Robert Tibshirani,[2] que va encunyar el terme.

Lasso es va formular originalment per a models de regressió lineal. Aquest cas senzill revela una quantitat substancial sobre l'estimador. Aquests inclouen la seva relació amb la regressió de la cresta i la selecció del millor subconjunt i les connexions entre les estimacions del coeficient de lazo i l'anomenat llindar suau. També revela que (com la regressió lineal estàndard) les estimacions dels coeficients no han de ser úniques si les covariables són colineals.

Tot i que es va definir originalment per a la regressió lineal, la regularització de lazo s'estén fàcilment a altres models estadístics, inclosos els models lineals generalitzats, les equacions d'estimació generalitzades, els models de riscos proporcionals i els estimadors M. [3][4] La capacitat de Lasso per dur a terme la selecció de subconjunts depèn de la forma de la restricció i té una varietat d'interpretacions que inclouen en termes de geometria, estadística bayesiana i anàlisi convexa.

El LASSO està estretament relacionat amb l'eliminació de sorolls de recerca de base.

Història modifica

Es va introduir Lasso per tal de millorar la precisió de predicció i la interpretabilitat dels models de regressió. Selecciona un conjunt reduït de covariables conegudes per utilitzar-les en un model.[5][6]

Lasso es va desenvolupar de manera independent a la literatura de geofísica el 1986, basant-se en treballs previs que utilitzaven el   penalització tant per l'ajustament com per la penalització dels coeficients. L'estadístic Robert Tibshirani el va redescobrir i popularitzar de manera independent el 1996, basant-se en el garrot no negatiu de Breiman.[7][8]

Forma bàsica modifica

Mínims quadrats modifica

Considereu una mostra formada per N casos, cadascun dels quals consta de p covariables i un únic resultat. Deixar   ser el resultat i   sigui el vector covariable per al cas i . Llavors l'objectiu del lazo és resoldre

 

Aquí   és el coeficient constant,   és el vector coeficient, i   és un paràmetre lliure predeterminat que determina el grau de regularització.

  sigui la matriu de covariables, de manera que   i   és la ia fila de  , l'expressió es pot escriure de manera més compacta com

 

on   és l'estàndard   norma.

Covariables ortonormals modifica

Ara es poden considerar algunes propietats bàsiques de l'estimador de lazo.

Suposant primer que les covariables són ortonormals de manera que  , on   és el delta de Kronecker o, de manera equivalent,  , llavors utilitzant mètodes de subgradient es pot demostrar que

 

Forma general modifica

La regularització del lazo es pot estendre a altres funcions objectives, com ara les dels models lineals generalitzats, les equacions d'estimació generalitzades, els models de riscos proporcionals i els estimadors M. [9][10] Donada la funció objectiu
 
la versió regularitzada amb lazo de l'estimador és la solució a
 
on només   es penalitza mentre   és lliure d'assumir qualsevol valor permès, igual que   no va ser penalitzat en el cas bàsic.

Interpretacions modifica

 
Formes de les regions de restricció per a la regressió de lazo i cresta.

Interpretació geomètrica modifica

Lasso pot posar els coeficients a zero, mentre que la regressió de cresta superficialment semblant no. Això es deu a la diferència en la forma dels seus límits de restricció. Tant la regressió de lazo com la de cresta es poden interpretar com una minimització de la mateixa funció objectiu.

Interpretació bayesiana modifica

 
Les distribucions de Laplace tenen un pic marcat a la seva mitjana amb més densitat de probabilitat concentrada allà en comparació amb una distribució normal.

De la mateixa manera que la regressió de cresta es pot interpretar com una regressió lineal per a la qual els coeficients s'han assignat distribucions anteriors normals, lasso es pot interpretar com una regressió lineal per a la qual els coeficients tenen distribucions anteriors de Laplace. La distribució de Laplace té un pic marcat a zero (la seva primera derivada és discontínua a zero) i concentra la seva massa de probabilitat més a prop de zero que la distribució normal. Això proporciona una explicació alternativa de per què el lazo tendeix a posar alguns coeficients a zero, mentre que la regressió de cresta no ho fa.[11]

Referències modifica

  1. Santosa, Fadil; Symes, William W. SIAM Journal on Scientific and Statistical Computing, 7, 4, 1986, pàg. 1307–1330. DOI: 10.1137/0907087.
  2. Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
  3. Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
  4. Tibshirani, Robert Statistics in Medicine, 16, 4, 1997, pàg. 385–395. DOI: 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3. PMID: 9044528.
  5. Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
  6. Santosa, Fadil; Symes, William W. SIAM Journal on Scientific and Statistical Computing, 7, 4, 1986, pàg. 1307–1330. DOI: 10.1137/0907087.
  7. Santosa, Fadil; Symes, William W. SIAM Journal on Scientific and Statistical Computing, 7, 4, 1986, pàg. 1307–1330. DOI: 10.1137/0907087.
  8. Breiman, Leo Technometrics, 37, 4, 1995, pàg. 373–84. DOI: 10.1080/00401706.1995.10484371.
  9. Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
  10. Tibshirani, Robert Statistics in Medicine, 16, 4, 1997, pàg. 385–395. DOI: 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3. PMID: 9044528.
  11. Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.