Coeficient de correlació de Spearman

En estadística, el coeficient de correlació de Spearman, ρ (rho), és una mesura de la correlació (l'associació o interdependència) entre dues variables aleatòries contínues. Per calcular ρ, les dades són ordenades i reemplaçades pel seu respectiu ordre.

L'estadístic ρ ve donat per l'expressió:^[1]^[2]

\mathrm {P} =1-{\frac {6\sum D^{2}}{N(N^{2}-1)}}

on D és la diferència entre els corresponents valors de x - i. N és el nombre de parelles.

S'ha de considerar l'existència de dades idèntiques a l'hora d'ordenar, encara que si aquestes són poques, es pot ignorar aquesta circumstància

Per a mostres més grans de 20 observacions, podem utilitzar la següent aproximació a la distribució t de Student

T={\frac {\rho }{\sqrt {(1-\rho ^{2})/(n-2)}}}

La interpretació del coeficient de Spearman és igual que la del coeficient de correlació de Pearson. Oscil·la entre -1 i+1, indicant-nos associacions negatives o positives respectivament, 0 zero, significa no correlació però no independència.^[3] La tau de Kendall és un coeficient de correlació per rangs, inversions entre dues ordenacions d'una distribució normal bivariant.

Exemple modifica

Les dades bruts usats en aquest exemple es veuen sota.

CI	Hores de TV a la setmana
106	7
86	0
100	28
100	50
99	28
103	28
97	20
113	12
113	7
110	17

El primer pas és ordenar les dades de la primera columna. Després, es creen dues columnes més. Ambdues són per ordenar (establir un lloc en la llista) de les dues primeres columnes. Després es crea una columna "d" que mostra les diferències entre les dues columnes d'ordre. Finalment, es crea una altra columna "d ²". Aquesta última és només la columna "d" al quadrat.

Després de realitzar tot això amb les dades de l'exemple, s'hauria de posar fi alguna cosa com el següent:

CI (i)	Hores de TV a la setmana (t)	Ordre (i)	Ordre (t)	D	D ²
86	0	1	1	0	0
97	20	2	6	4	16
99	28	3	8	5	25
100	50	4,5	10	5,5	30,25
100	28	4.5	8	3,5	12,25
103	28	6	8	2	4
106	7	7	2,5	4,5	20,25
110	17	8	5	3	9
113	7	9,5	2,5	7	49
113	12	9.5	4	5,5	30,25

Noteu com el número d'ordre dels valors que són idèntics és la mitjana dels números d'ordre que els correspondrien si no ho fossin.

Els valors de la columna d² poden ser sumats per esbrinar $\sum d_{i}^{2}=196$ . El valor de n és 10. Així que aquests valors poden ser substituïts en la fórmula.

\rho =1-{\frac {6\times 196}{10(10^{2}-1)}}

Del que resulta $\rho =-0.187878787879$ .

Determinant la significació estadística modifica

L'aproximació moderna al problema d'esbrinar si un valor observat de ρ és significativament diferent de zero (sempre tindrem 1 ≥ ρ ≥ -1) és calcular la probabilitat que sigui major o igual que el ρ esperat, donada la hipòtesi nul·la, utilitzant un test de permutació. Aquesta aproximació és gairebé sempre superior als mètodes tradicionals, llevat que el data set sigui tan gran que la potència informàtica no sigui suficient per generar permutacions (poc probable amb la informàtica moderna), o llevat que sigui difícil crear un algorisme per crear permutacions que siguin lògiques sota la hipòtesi nul en el cas particular que es tracti (encara que normalment aquests algorismes no ofereixen dificultat).

Encara que el test de permutació és sovint trivial per a qualsevol amb recursos informàtics i experiència en programació, encara es fan servir àmpliament els mètodes tradicionals per obtenir significació. L'aproximació més bàsica és comparar el ρ observat amb taules publicades per a diversos nivells de significació. És una solució simple si la significació només necessita saber-se dins d'un cert rang, o ser menor d'un determinat valor, mentre hi hagi taules disponibles que especifiquin els rangs adequats. Més avall hi ha una referència a una taula semblant. No obstant això, generar aquestes taules és computacionalment intensiu i al llarg dels anys s'han fet servir complicats trucs matemàtics per a generar taules per mides de mostra cada vegada més grans, de manera que no és pràctic per a la majoria estendre les taules existents.

Una aproximació alternativa per mides de mostra prou grans és una aproximació a la distribució t de Student. Per mides de mostra més grans que uns 20 individus, la variable

T={\frac {\rho }{\sqrt {(1-\rho ^{2})/(n-2)}}}

té una distribució t de Student en el cas nul (correlació zero). En el cas no nul (ex: per esbrinar si un ρ observat és significativament diferent a un valor teòric o si dues ρs observats difereixen significativament, els tests són molt menys potents, però pot utilitzar-se de nou la distribució t .

Una generalització del coeficient de Spearman és útil en la situació en la qual hi ha tres o més condicions, diversos individus són observats en cadascuna d'elles, i predir que les observacions tindran un ordre en particular. Per exemple, un conjunt d'individus poden tenir tres oportunitats per intentar certa tasca, i predir que la seva habilitat millorarà d'intent en intent. Un test de la significació de la tendència entre les condicions en aquesta situació va ser desenvolupat per E. B. Page i normalment sol conèixer com Page's trend test per alternatives ordenades.

Referències modifica

↑ «Rho de Spearman» (en castellà). [Consulta: 25 gener 2022].
↑ «Coeficiente de Correlación por Rangos de Spearman» (en castellà), 12-05-2011. [Consulta: 25 gener 2022].
↑ «Spearman rank correlation coefficient | statistics | Britannica» (en anglès). [Consulta: 1r febrer 2022].

Vegeu també modifica

Enllaços externs modifica

Taula dels valors crítics del coeficient de correlació de Spearman per a mostres petites (anglès)
Calculadora a internet (anglès)
Una altra calculadora a internet Arxivat 2015-09-14 a Wayback Machine. (espanyol)

[1] «Rho de Spearman» (en castellà). [Consulta: 25 gener 2022].

[2] «Coeficiente de Correlación por Rangos de Spearman» (en castellà), 12-05-2011. [Consulta: 25 gener 2022].

[3] «Spearman rank correlation coefficient | statistics | Britannica» (en anglès). [Consulta: 1r febrer 2022].

[1]

[2]

[3]