Regressió lineal

plantejament estadístic al modelatge de la relació entre una variable dependent escalar i una altra o més d'una variable

En estadística la regressió lineal o ajust lineal és un mètode estadístic que modelitza la relació entre una variable dependent Y, les variables independents X i i un terme aleatori ε, per trobar una funció lineal que s'ajusti al màxim a la distribució de punts generada per una variable de dues dimensions.[1] Aquest model es pot expressar com:

Exemple gràfic d'una regressió lineal amb una variable dependent i una variable independent.

on és la intersecció amb l'eix d'ordenades o terme "constant", les (i> 0) són els paràmetres respectius a cada variable independent, i és el nombre de paràmetres independents que cal tenir en compte en la regressió. La regressió lineal pot ser comparada amb la regressió no lineal.

Història

modifica

La primera forma de regressions lineals documentada va ser el mètode dels mínims quadrats, el qual va ser publicat per Legendre a 1805,[2] i per Carl Friedrich Gauss a 1809.[3] El terme "mínims quadrats" prové de la descripció donada per Legendre "moindre carrés". No obstant això Gauss va assegurar que coneixia aquest mètode des de 1795.

Tant Legendre com Gauss van aplicar el mètode per determinar, a partir d'observacions astronòmiques, les òrbites de cossos al voltant del sol.[4] A 1821, Gauss va publicar un treball on desenvolupava de manera més profunda el mètode dels mínims quadrats,[5] i on s'incloïa una versió del teorema de Gauss-Markov.

Etimologia

modifica

El terme regressió es va utilitzar per primera vegada en l'estudi de variables antropomètriques: en comparar l'estatura de pares i fills, va resultar que els fills els pares dels quals tenien una alçada molt superior al valor mitjà tendien a igualar-se a aquest, mentre que aquells els pares dels quals eren molt baixos tendien a reduir la seva diferència respecte a l'estatura mitjana, és a dir, "tornaven" a la mitjana.[6] La constatació empírica d'aquesta propietat es va veure reforçada més tard amb la justificació teòrica d'aquest fenomen.

El terme lineal s'utilitza per a distingir de la resta de tècniques de regressió, que utilitzen models basats en qualsevol classe de funció matemàtica. Els models lineals són una explicació simplificada de la realitat, molt més àgil i amb un suport teòric per part de la matemàtica i l'estadística molt més extens.

El model de regressió lineal

modifica

El model lineal relaciona la variable dependent Y amb K variables explicatives   (k = 1, ... K), o qualsevol transformació d'aquestes, que generen un hiperplà de paràmetres   desconeguts:

(2) 

on   és la pertorbació aleatòria que recull tots aquells factors de la realitat no controlables o observables i que per tant s'associen amb l'atzar, i és la que confereix al model el seu caràcter estocàstic. En el cas més senzill de dues variables explicatives, l'hiperplà és una recta:

(3) 

El problema de la regressió consisteix a escollir uns valors determinats per als paràmetres desconeguts  , de manera que l'equació quedi completament especificada. Per a això es necessita un conjunt d'observacions. En una observació qualsevol i-èsima (i = 1, ... I) es registra el comportament simultani de la variable dependent i les variables explicatives (les pertorbacions aleatòries se suposen no observables).

(4) 

Els valors escollits com estimador és dels paràmetres,  , són els coeficients de regressió, sense que es pugui garantir que coincideixen amb paràmetres reals del procés generador. Per tant, en

(5) 

Els valors   són per la seva banda estimacions de la pertorbació aleatòria o errors.

Supòsits del model de regressió lineal

modifica

Per poder crear un model de regressió lineal, cal que es compleixi amb els següents supòsits:[7]

  1. La relació entre les variables és lineal.
  2. Els errors són independents.
  3. Els errors tenen variància constant.
  4. Els errors tenen una esperança matemàtica igual a zero.
  5. L'error total és la suma de tots els errors.

Regressió lineal simple

modifica

Parlem de regressió lineal simple quan només es fa servir una variable independent, pel que només cal ajustar amb dos paràmetres. Són de la forma:[8]

(6) 

on   és l'error associat a la mesura del valor   i segueixen els supòsits de manera que   (mitjana zero, variància constant i igual a un   i   amb  ).

Anàlisi

modifica

Donat el model de regressió simple, si es calcula l'esperança (valor esperat) del valor I , s'obté:[9]

(7) 

(8) 

Calculant   i  . Per això es busquen aquests paràmetres que minimitzin  

Derivant respecte a   i   i igualant a zero, s'obté:[9]

(9) 

(10) 

Obtenint dues equacions anomenades equacions normals que generen la següent solució per a tots dos paràmetres:[8]

(11) 

(12) 

La interpretació del paràmetre  , anomenat el pendent de la recta de regressió, és que un increment en   d'una unitat,   s'incrementarà en  unitats.

Rectes de regressió

modifica

Les rectes de regressió són les rectes que millor s'ajusten al núvol de punts (o també anomenat diagrama de dispersió) generat per una distribució bivariant. Matemàticament, són possibles dues rectes de màxim ajust:[10]

  • La recta de regressió de Y sobre X :

(14) 

  • La recta de regressió de X sobre Y:

(15) 

El coeficient de correlació (r) de les rectes determinarà la mesura de la relació lineal. Si r és proper o igual a 1, la relació lineal positiva serà bona, si r és proper o igual a 0, es tractarà d'una absència de relació lineal, si r és proper o igual a -1, la relació lineal és negativa o inversa, és a dir quan un valor x creix, el valor y decreix. Les dues rectes de regressió s'intersequen en un punt anomenat centre de gravetat de la distribució.

Regressió lineal múltiple

modifica

Maneja diverses variables independents. Compta amb diversos paràmetres. S'expressen de la forma:[11]

(13) 

on   és l'error associat a la mesura   del valor   i segueixen els supòsits de manera que   (mitjana zero, variància constant i igual a un   i   amb  ).

Aplicacions de la regressió lineal

modifica

La regressió lineal té molts usos pràctics. La majoria de les aplicacions es troben en el camp de la predicció o per explicar la variació de la variable de resposta.

Si l'objectiu és la predicció, la previsió o la reducció d'errors, es pot utilitzar per ajustar un model predictiu a un conjunt de dades observades de valors de la resposta i variables explicatives. Després de desenvolupar aquest model, si es recullen valors addicionals de les variables explicatives sense un valor de resposta acompanyat, el model ajustat es pot utilitzar per fer una predicció de la resposta.

Si l'objectiu és explicar la variació de la variable de resposta que es pot atribuir a la variació de les variables explicatives, l'anàlisi de regressió lineal es pot aplicar per quantificar la força de la relació entre la resposta i les variables explicatives, i en particular per determinar si algunes És possible que les variables explicatives no tinguin cap relació lineal amb la resposta, o per identificar quins subconjunts de variables explicatives poden contenir informació redundant sobre la resposta.

Línies de tendència

modifica

Una línia de tendència representa una tendència en una sèrie de dades obtingudes a través d'un llarg període. Aquest tipus de línies pot dir-nos si un conjunt de dades en particular (com per exemple, el PIB, el preu del petroli o el valor de les accions) han augmentat o decrementat en un determinat període.[12] Es pot dibuixar una línia de tendència a primera vista fàcilment a partir d'un grup de punts, però la seva posició i pendent es calcula de manera més precisa utilitzant tècniques estadístiques com les regressions lineals. Les línies de tendència són generalment línies rectes, encara que algunes variacions utilitzen polinomis de major grau depenent de la curvatura desitjada en la línia.

Medicina

modifica

En medicina, les primeres proves relacionant la mortalitat amb el fumar tabac[13] van venir d'estudis que utilitzaven la regressió lineal. Els investigadors inclouen una gran quantitat de variables en la seva anàlisi de regressió en un esforç per eliminar factors que puguin produir correlacions espúries.

En el cas del tabaquisme, els investigadors van incloure l'estat socioeconòmic per assegurar que els efectes de mortalitat per tabaquisme no siguin un efecte de la seva educació o posició econòmica. No obstant, és impossible incloure totes les variables possibles en un estudi de regressió.[14][15] En l'exemple del tabaquisme, un hipotètic gen podria augmentar la mortalitat i augmentar la propensió a adquirir malalties relacionades amb el consum de tabac. Per aquesta raó, en l'actualitat les proves controlades aleatòries són considerades molt més fiables que les anàlisis de regressió.

Referències

modifica
  1. Zaiats, Vladimir. Probabilitat i estadística: exercicis I Materials. Univ. Autònoma de Barcelona, 2001, p. 64. ISBN 8449022592. 
  2. AM Legendre. Nouvelles méthodes pour la détermination des orbitas des cometes (1805). "Sur la Méthode des moindre Quarré" apareix com un apèndix.
  3. Carl Friedrich Gauss. Theoria motus corporum Coelestium in Sectionibus Conicis Solem Ambientum (1809)
  4. Yanfei Wang, Anatoly G. Yagola, Changchun Yang. Computational Methods for Applied Inverse Problems (en anglès). Walter de Gruyter, 2012, p. 182. ISBN 3110259052. 
  5. CF Gauss. Theoria combinationis observationum erroribus minimis obnoxiae . (1821/1823)
  6. [http ://www.curvefit.com/linear_regression.htm Introduction to linear regression] Curvefit.com (en anglès)
  7. " Anàlisi de regressió lineal ", Universitat Complutense de Madrid
  8. 8,0 8,1 "Fórmules", Probabilitat i Estadística. Cs. Bàsiques. U.D.B. Matemàtica. Universitat Tecnològica Nacional, Facultat Regional Buenos Aires, Editorial CEIT-FRBA. (Codi BM2BT2)
  9. 9,0 9,1 Model de regressió lineal simple. Arxivat 2009-06-02 a Wayback Machine. EinsteinNet.
  10. Apunt sobre Rectes de regressió. Ministeri d'Educació i Ciència. Govern d'Espanya.
  11. Tècniques de regressió: Regressió Lineal Múltiple. Arxivat 2010-01-27 a Wayback Machine. Pertegas Díaz, S., Pita Fernández, S. Unitat d'Epidemiologia Clínica i Bioestadística. Complex Hospitalari de La Corunya (Espanya)
  12. Utilització de les línies de tendència Arxivat 2008-07-25 a Wayback Machine., Paritech (en anglès)
  13. Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years 'observations on male British doctors. BMJ 1994; 309:901-911 (8 d'octubre]
  14. "Environmental Tobacco Smoke and Adult Asthma " Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine, Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universitat de Califòrnia, San Francisco, Califòrnia, (en anglès)
  15. Efecte del tabaquisme, els símptomes respiratoris i l'asma sobre la espirometria d'adults de la Ciutat de Mèxic, Justí Regalado-Pineda; Alejandro Gómez-Gómez; Javier Ramírez-Acosta, Juan Carlos Vázquez-García

Bibliografia

modifica
  • Devore, Jay L.; Probabilitat i Estadística per Enginyeria i Ciències . International Thomson Editores. Mèxic. ISBN 9706864571.
  • Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilitat i Estadística per a Enginyers . Pretice-Hall Hispanoamericana, S.A. Mèxic. ISBN 9701702646.
  • Canavos, George C.; Probabilitat i Estadística. Aplicacions i Mètodes. McGraw-Hill. Mèxic. ISBN 9684518560.

Vegeu també

modifica

Enllaços externs

modifica