Coeficient de correlació de Spearman

En estadística, el coeficient de correlació de Spearman, ρ (rho), és una mesura de la correlació (l'associació o interdependència) entre dues variables aleatòries contínues. Per calcular ρ, les dades són ordenades i reemplaçades pel seu respectiu ordre.

Una correlació de Spearman d'1 resulta quan les dues variables que es comparen estan relacionades monotònicament, fins i tot si la seva relació no és lineal. Això significa que tots els punts de dades amb valors X majors que els d'un punt de dades determinat també tindran majors valors de Y. En canvi, això no dona una correlació de Pearson perfecta.
Quan les dades són més o menys distribuïdes de forma el·líptica llavors no hi ha punts forts destacats, la correlació de Spearman i la correlació de Pearson donen valors similars.
La correlació de Spearman és menys sensible que la correlació de Pearson amb els valors que separen més de la tendència general i que es troben en les cues d'ambdues mostres. Això és perquè la rho de Spearman limita aquests valors (que se separen més) al valor del seu rang.

L'estadístic ρ ve donat per l'expressió:[1][2]

on D és la diferència entre els corresponents valors de x - i. N és el nombre de parelles.

S'ha de considerar l'existència de dades idèntiques a l'hora d'ordenar, encara que si aquestes són poques, es pot ignorar aquesta circumstància

Per a mostres més grans de 20 observacions, podem utilitzar la següent aproximació a la distribució t de Student


La interpretació del coeficient de Spearman és igual que la del coeficient de correlació de Pearson. Oscil·la entre -1 i+1, indicant-nos associacions negatives o positives respectivament, 0 zero, significa no correlació però no independència.[3] La tau de Kendall és un coeficient de correlació per rangs, inversions entre dues ordenacions d'una distribució normal bivariant.

Exemple modifica

Les dades bruts usats en aquest exemple es veuen sota.

CI Hores de TV a la setmana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17

El primer pas és ordenar les dades de la primera columna. Després, es creen dues columnes més. Ambdues són per ordenar (establir un lloc en la llista) de les dues primeres columnes. Després es crea una columna "d" que mostra les diferències entre les dues columnes d'ordre. Finalment, es crea una altra columna "d 2 ". Aquesta última és només la columna "d" al quadrat.

Després de realitzar tot això amb les dades de l'exemple, s'hauria de posar fi alguna cosa com el següent:

CI (i) Hores de TV a la setmana (t) Ordre (i) Ordre (t) D D 2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4,5 10 5,5 30,25
100 28 4.5 8 3,5 12,25
103 28 6 8 2 4
106 7 7 2,5 4,5 20,25
110 17 8 5 3 9
113 7 9,5 2,5 7 49
113 12 9.5 4 5,5 30,25

Noteu com el número d'ordre dels valors que són idèntics és la mitjana dels números d'ordre que els correspondrien si no ho fossin.

Els valors de la columna d 2 poden ser sumats per esbrinar  . El valor de n és 10. Així que aquests valors poden ser substituïts en la fórmula.

 

Del que resulta  .

Determinant la significació estadística modifica

L'aproximació moderna al problema d'esbrinar si un valor observat de ρ és significativament diferent de zero (sempre tindrem 1 ≥ ρ ≥ -1) és calcular la probabilitat que sigui major o igual que el ρ esperat, donada la hipòtesi nul·la, utilitzant un test de permutació. Aquesta aproximació és gairebé sempre superior als mètodes tradicionals, llevat que el data set sigui tan gran que la potència informàtica no sigui suficient per generar permutacions (poc probable amb la informàtica moderna), o llevat que sigui difícil crear un algorisme per crear permutacions que siguin lògiques sota la hipòtesi nul en el cas particular que es tracti (encara que normalment aquests algorismes no ofereixen dificultat).

Encara que el test de permutació és sovint trivial per a qualsevol amb recursos informàtics i experiència en programació, encara es fan servir àmpliament els mètodes tradicionals per obtenir significació. L'aproximació més bàsica és comparar el ρ observat amb taules publicades per a diversos nivells de significació. És una solució simple si la significació només necessita saber-se dins d'un cert rang, o ser menor d'un determinat valor, mentre hi hagi taules disponibles que especifiquin els rangs adequats. Més avall hi ha una referència a una taula semblant. No obstant això, generar aquestes taules és computacionalment intensiu i al llarg dels anys s'han fet servir complicats trucs matemàtics per a generar taules per mides de mostra cada vegada més grans, de manera que no és pràctic per a la majoria estendre les taules existents.

Una aproximació alternativa per mides de mostra prou grans és una aproximació a la distribució t de Student. Per mides de mostra més grans que uns 20 individus, la variable

 

té una distribució t de Student en el cas nul (correlació zero). En el cas no nul (ex: per esbrinar si un ρ observat és significativament diferent a un valor teòric o si dues ρs observats difereixen significativament, els tests són molt menys potents, però pot utilitzar-se de nou la distribució t .

Una generalització del coeficient de Spearman és útil en la situació en la qual hi ha tres o més condicions, diversos individus són observats en cadascuna d'elles, i predir que les observacions tindran un ordre en particular. Per exemple, un conjunt d'individus poden tenir tres oportunitats per intentar certa tasca, i predir que la seva habilitat millorarà d'intent en intent. Un test de la significació de la tendència entre les condicions en aquesta situació va ser desenvolupat per E. B. Page i normalment sol conèixer com Page's trend test per alternatives ordenades.

Referències modifica

  1. «Rho de Spearman» (en castellà). [Consulta: 25 gener 2022].
  2. «Coeficiente de Correlación por Rangos de Spearman» (en castellà), 12-05-2011. [Consulta: 25 gener 2022].
  3. «Spearman rank correlation coefficient | statistics | Britannica» (en anglès). [Consulta: 1r febrer 2022].

Vegeu també modifica

Enllaços externs modifica