Mediana: diferència entre les revisions

Contingut suprimit Contingut afegit
m correccions menors
Afegit mediana d'una variable aleatòria, mediana poblacional i mediana mostral
Línia 1:
{{FR|data=abril de 2019}}
{{confusió|Mitjana}}
En [[Estadística descriptiva]], la '''mediana''' d'un conjunt finit de dades és un nombre tal que la meitat de les dades són menors (o iguals) que ell; i l'altra meitat més grans (o iguals) que ell. Anàlogament, en [[Teoria de la probabilitat]] es defineix la mediana d'una variable aleatòria com un nombre tal que les probabilitats del conjunt de nombres menors o iguals que ell, i el conjunt dels nombres majors o iguals que ell, són ambdues més grans o iguals a 0.5. Finalment, en [[Inferència estadística]] s'estudia la mediana poblacional i la mediana mostral. En aquest article es revisen tots aquests conceptes i es relacionen entre ells.
En [[Estadística descriptiva]], la '''mediana''' <ref>{{Ref-llibre|cognom=Lobez Urquia, J., Casa Aruta, E.|nom=|títol=Estadística intermedia|url=|edició=Segunda edición|llengua=|data=1975|editorial=Vicens-Vives|lloc=Barcelona|pàgines=|isbn=}}</ref><ref>{{Ref-llibre|cognom=Calot, Gérard|nom=|títol=Curso de Estadística Descriptiva|url=|edició=|llengua=|data=1970|editorial=Paraninfo|lloc=Madrid|pàgines=|isbn=}}</ref> d'una sèrie de dades <math>x_1,\dots,x_n</math> és un nombre <math>M</math> tal que la meitat de les dades són menors (o iguals) que <math>M</math>; i l'altra meitat més grans (o iguals) que <math>M</math>. Per calcular-la es distingeix segons que el nombre de dades <math>n</math> sigui senar o parell.
 
=== Mediana d'un conjunt finit de nombres ===
'''Nombre de dades senar.''' Per exemple, si tenim els nombres 12, 7, 4, 4 , 3, 9, 8, per calcular la mediana comencem ordenant-los de menor a major: 3, 4, 4, '''<u>7</u>''', 8, 9, 12. La mediana és el nombre que ocupa el lloc central, en aquest exemple <math>M=7</math>. En general, quan el nombre de dades <math> n</math> és senar, la mediana és la dada que ocupa el lloc central en l'ordenació, és a dir, la que ocupa la posició <math>\frac{n+1}{2}</math>.
En [[Estadística descriptiva]], la '''mediana''' <ref name=":1">{{Ref-llibre|cognom=Lobez Urquia, J., Casa Aruta, E.|nom=|títol=Estadística intermedia|url=|edició=Segunda edición|llengua=|data=1975|editorial=Vicens-Vives|lloc=Barcelona|pàgines=p. 43|isbn=}}</ref> <ref>{{Ref-llibre|títol=Estadística aplicada básica|url=https://www.worldcat.org/oclc/50648751|editorial=Antonio Bosch|data=1995|lloc=Barcelona|isbn=8485855809|cognom=Moore, David S.}}</ref> d'una sèrie de dades <math>x_1,\dots,x_n</math> és un nombre <math>M</math> tal que la meitat de les dades són menors (o iguals) que <math>M</math>, i l'altra meitat més grans (o iguals) que <math>M</math>.
 
==== Càlcul de la mediana d'un nombre petit de dades. ====
'''Nombre de dades parell.''' Quan hi ha un nombre parell de dades, aleshores la mediana pot ser qualsevol número que estigui entre el valor que ocupa el lloc <math>n/2</math> i el del lloc<math>n/2+1</math> (en la sèrie ordenada). Per exemple, si tenim 12, 7, 4, 4 , 3, 9, 8, 11,que ordenats queden 3, 4, 4, '''<u>7, 8</u>''', 9, 11, 12, la mediana pot ser qualsevol número entre 7 i 8. Per conveni es pren la semisuma:
Per calcular la mediana es distingeix segons que el nombre de dades <math>n</math> sigui senar o parell.
<center><math>M=\frac{7+8}{2}=7'5</math>.</center>
 
# '''Nombre de dades senar.''' Per exemple, si tenim els nombres 12, 7, 4, 4 , 3, 9, 8, per calcular la mediana comencem ordenant-los de menor a major: 3, 4, 4, '''<u>7</u>''', 8, 9, 12. La mediana és el nombre que ocupa el lloc central, en aquest exemple <math>M=7</math>. En general, quan el nombre de dades <math> n</math> és senar, la mediana és la dada que ocupa el lloc central en l'ordenació, és a dir, la que ocupa la posició <math>\frac{n+1}{2}</math>
== Càlcul de la mediana a partir d'una taula de freqüències (dades no agrupades) ==
# '''Nombre de dades parell.''' Quan hi ha un nombre parell de dades, aleshores la mediana pot ser qualsevol número que estigui entre el valor que ocupa el lloc <math>n/2</math> i el del lloc<math>n/2+1</math> (en la sèrie ordenada). Per exemple, si tenim 12, 7, 4, 4 , 3, 9, 8, 11,que ordenats queden 3, 4, 4, '''<u>7, 8</u>''', 9, 11, 12, la mediana pot ser qualsevol número entre 7 i 8. Per conveni es pren la semisuma:
<center><math>M=\frac{7+8}{2}=7'5</math>.</center>
 
==== Càlcul de la mediana a partir d'una taula de freqüències (dades no agrupades) ====
 
Quan tenim les dades donades per una taula de freqüències, la mediana es busca utilitzant les freqüències acumulades (absolutes o relatives). Per exemple, la següent taula dóna el nombre de fills de 200 parelles d'una ciutat. Utilitzarem les freqüències absolutes.
Linha 31 ⟶ 36:
Com que <math> n=200 </math> és parell, hem de buscar les observacions que, a l'ordenar totes les dades, ocupen les posicions 100 i 101. Per la columna de freqüències acumulades veiem que ambdues són 1; llavors, la mediana és 1 fill.
 
==== Càlcul de la mediana a partir d'una taula de freqüències amb dades agrupades<ref name=":1" />====
 
Si les dades estan agrupades en classes (o intervals) el càlcul de la mediana és aproximat, ja que a partir de la taula no es coneix el valor exacte de les dades; pel mateix motiu, no es distingeix si <math>n</math> és parell o senar.
Linha 39 ⟶ 44:
<math>FA_{i-1}<\dfrac{n}{2}\le FA_{i},</math>
</center>
on <math>FA_i</math> designa la freqüència acumulada de la classe <math>i</math> (amb el conveni <math>FA_0=0</math>). Després s'interpola linealment en aquesta classe per trobar el valor aproximat de la mediana. La fórmula de la interpolació lineal és la següent: Designem per <math> [a_iL_i,a_L_{i+1}[</math> la classe mediana (el conveni que s'adopti sobre els extrems de les classes no té importància), <math>L_ia_i</math> la seva longitud, <math> F_i</math> la seva freqüència absoluta i <math> FA_{i-1}</math> la freqüència absoluta acumulada de la classe anterior a la classe mediana. Aleshores
<center>
<math>MeM=a_iL_i+L_i\, \dfrac{\dfrac{ n}{2}-FA_{i-1}}{F_i}\, a_i.
</math>
</center>
Linha 74 ⟶ 79:
</center>
 
==== Càlcul de la mediana amb el programari estadístic '''R'''====
La instrucció és <code>median(x)</code> on <code>x</code> és un vector de dades. Per exemple:
 
Linha 83 ⟶ 88:
El resultat és 7.
 
==== Comentaris ====
 
1. Tal com hem vist, la mediana és un nombre que ocupa el lloc central en l'ordenació de les dades. Es diu que la mediana, com la mitjana, és una mesura estadística de posició o de tendència central.
 
2. Si les dades tenen una distribució bastantforça simètrica respecte a la seva [[mitjana aritmètica]], llavors la mediana i la mitjana tenen valors molt semblants, que seran iguals si la distribució és perfectament simètrica. En canvi, si la distribució de valors presenta valors molt allunyats de la mitjana en valors grans o en valors petits, llavors la mediana i la mitjana diferiran apreciablement.
 
3. Continuant amb el punt anterior, tot i que no es poden donar receptes concretes, la mediana és una mesura adient quan hi ha valors extrems molt diferents de les altres dades i que tenen molta influència en la mitjana, la qual cosa donaria una imatge distorsionada de les dades. Per exemple, a l'analitzar el temps que els estudiants universitaris tarden en fer una carrera, el fet que hi hagi alguns estudiants que estiguin molts anys per acabar la carrera (perquè es posen a treballar i alenteixen els estudis, o altres motius) fa que la mitjana no reflecteixi bé les dades. Al contrari, la mediana no és sensible als valors extrems.
 
'''Exemple.''' Considerem les dades <math>\left \{ 1,2,3,4,5,6,7,8,9 \right \}</math>, la mediana <math>Me</math> pren el valor 5, ja que al darrere d'aquest valor tenim el mateix nombre de dades que al davant. Simbòlicament: <math>\left \{ \left \{1,2,3,4 \right \}5 \left \{6,7,8,9 \right \}\right \}</math>. La mitjana també val 5, perquè tenim simetria de valors. En efecte, les distàncies entre cada valor i la mitjana són simètrics, i valen <math>\left \{4,3,2,1,0,1,2,3,4\right \}</math>. En la seqüència <math>\left \{0,1,1,2,3,3,4,4,27\right \}</math>, la mediana val 3 i la mitjana continua valent 5; la diferència ve de l'asimetria de la distribució, ja que les distàncies entre cada valor i la mitjana són <math>\left \{5,4,4,3,2,2,1,1,22\right \}</math>.
 
 
4. A vegades s'escolta la frase ''la meitat de les dades són més petites que la mitjana i l'altre meitat més grans''. En general, no és certa, com es comprova, per exemple, amb les dades 0, 1, 1, 1. Però si que és certa amb la mediana.
 
== Mediana d'una variable aleatòria ==
La mediana <ref>{{Ref-llibre|títol=Teoría de la probabilidad|url=https://www.worldcat.org/oclc/432496610|editorial=Tecnos|data=D.L. 1976|lloc=Madrid|isbn=8430906630|cognom=Loeve, Michel.|nom=|edició=|llengua=|pàgines=pàg. 238}}</ref> d'una variable aleatòria <math>X</math> és un nombre <math>M</math> tal que
<center>
<math>
P(X\le M) \ge 1/2 \quad \text{i} \quad P(X\ge M) \ge 1/2. \quad (1)
</math>
</center>
Equivalentment, en termes de la [[funció de distribució]] de <math>X</math>, <math>F(x)=P(X\le x)</math>, la mediana compleix
<center>
<math>
F(M) \ge 1/2 \quad \text{i} \quad F(M^-)\le 1/2, \qquad (2)
</math>
</center>
on <math>F(M^-)</math> designa el límit per l'esquerra en el punt <math>M</math>. Utilitzant que <math>F</math> és creixent, que <math>\lim_{x\to -\infty}F(x)=0</math> i <math>\lim_{x\to \infty}F(x)=1</math> es demostra que, tal com passava amb la mediana d'un conjunt finit de nombres, hi ha dos casos:
 
1. Només hi ha un nombre que compleix la condició (2), és a dir, la mediana és única.
 
2. Hi ha un interval de nombres que compleixen (2). Per tal de donar un sol nombre com a valor de la mediana, molts autors segueixen el conveni de prendre el menor valor que compleix (2) i defineixen la mediana de la següent manera <ref name=":0">{{Ref-llibre|títol=Approximation Theorems Of Mathematical Statistics.|url=http://worldcat.org/oclc/816329189|editorial=John Wiley & Sons|data=2009|isbn=1282307479|cognom=Serfling, Robert J.|nom=|edició=|llengua=|lloc=|pàgines=pp. 74-77|pagines=}}</ref>:
<center>
<math>
M=\inf\{x: F(x)\ge 1/2\}. \qquad (3)
</math>
</center>
 
==== Exemples ====
 
# Sigui <math>X</math> una variable [[Distribució de Poisson|aleatòria de Poisson]] de paràmetre <math>\lambda=3</math>. La taula de probabilitats i de probabilitats acumulades és la següent:
 
{| class="wikitable"
|+
!Valor <math>k</math>
!0
!1
!2
!3
!4
!5
!<math>\cdots</math>
|-
|<math>P(X=k)</math>
|0.05
|0.15
|0.22
|0.22
|0.17
|0.1
|<math>\cdots</math>
|-
|<math>F(k)=P(X\le k)</math>
|0.05
|0.2
|0.42
|0.65
|0.82
|0.92
|<math>\cdots</math>
|}
Per tant, la mediana és 3.
 
2. Per a una variable aleatòria discreta, quan la probabilitat dels nombres no és la mateixa, el fet que el nombre de valors possibles sigui parell o senar no determina la mediana. Per exemple, una variable <math>X</math> que prengui els valors 1, 2, 3 amb probabilitats
<center>
<math>
P(X=1)=P(X=2)=0.2, \quad \text{i}\quad P(X=3)=0.6
</math>
</center>
té mediana <math>M=3</math> , ja que <math>P(X\le 3)=P(1)+P(2)+P(3)=1\ge 0.5</math> i <math>P(X\ge 3)=P(3)=0.6\ge 0.5</math>.
 
 
3. Considerem una variable aleatòria amb [[funció de densitat]] (vegeu la Figura 2):[[Fitxer:Mediana distribucio.pdf|alt=Funció de distribució i càlcul de la mediana|miniatura|Figura 1. Funció de distribució]]<center>
<math>
f(x)=\begin{cases}3x^2, & \text{si } x\in(0,1).\\
0, &\text{altrament.}
\end{cases}
</math>
</center>
 
La funció de distribució <math>F</math> és contínua i aleshores les condicions (2) impliquen que <math>F(M^-)=F(M)</math>, d'on resulta que la mediana <math>M</math> ha de complir <math>F(M)=1/2</math>. La funció de distribució és<center>
<math>
F(x)=\int_{-\infty}^x f(t)\, dt= \begin{cases}x^3, & \text{si } x\in(0,1),\\
0, &\text{altrament.}
\end{cases}
</math>
</center>
Llavors hem de resoldre l'equació <math>F(M)=M^3=0.5</math> i obtenim que la mediana és <math>M=\sqrt[3]{0.5}.</math> Vegeu la Figura 1.<br />
[[Fitxer:Funció de densitat i mediana.pdf|alt=Funció de densitat i mediana|miniatura|Figura 2. Funció de densitat]]
A la Figura 2 hi ha la representació del gràfic de la funció de densitat. L'àrea total sota la corba és 1. La recta vertical per la mediana divideix aquesta àrea en dues parts iguals, cadascuna d'àrea 0.5.<br />
 
==== Una altra manera d'estudiar la mediana d'un nombre finit de nombres ====
El cas de la mediana d'un nombre finit de nombres que hem tractat a la primera secció pot incloure's dintre del context de les variables aleatòries discretes, malgrat que la interpretació estadística i probabilística siguin diferents. Considerem donats uns nombres <math>x_1,\dots,x_n</math> (poden haver-hi repeticions) i definim una variable aleatòria <math>X</math> que prengui els valors <math>x_1,\dots,x_n</math> amb probabilitat uniforme, és a dir, cada valor amb probabilitat <math>1/n </math>; si hi ha repeticions, aleshores s'assigna a cada número (diferent) la probabilitat <math>\text{nombre de repeticions}/n</math>. Llavors, si <math>n</math> és senar, la mediana dels nombres correspon amb la mediana de <math>X</math>.
 
'''Exemple.''' Considerem l'exemple de la primera secció: 3,4,4,7,8,9,12. Definim la variable aleatòria que pren aquests valors amb probabilitats
<center>
<math>
P(X=3)=P(X=7)=P(X=8)=P(X=9)=P(X=12)=1/7, \quad \text{i} \quad P(X=4)=2/7.
</math>
</center>
Aleshores
 
<math>P(X\le 4)=P(X=3)+P(X=4)=\frac{3}{7}<0.5 \quad \text{i}\quad P(X\le 7)=P(X=3)+P(X=4)+P(X=7)=\frac{4}{7}=0.57 </math>
 
Així, 7 és el primer valor tal que <math>P(X\ge k)\ge 0.5</math>, i per tant la mediana de <math>X</math> és 7.
 
Si el nombre de dades és parell, aleshores la mediana segons la definició (3) és el valor que, amb les dades ordenades, ocupa el lloc <math>n/2</math>, mentre que a la primera secció hem adoptat el conveni de prendre com a mediana la semisuma dels valors que ocupen, amb les dades ordenades, els llocs <math>n/2</math> i <math>n/2+1</math>.
 
'''Exemple.''' Considerem també l'exemple de la primera secció amb un nombre de dades parell: 3,4,4,7,8,9,11,12. Ara la variable aleatòria tindrà probabilitats:
 
<math>
P(X=3)=P(X=7)=P(X=8)=P(X=9)=P(X=11)=P(X=12)=1/8, \quad \text{i} \quad P(X=4)=1/4.
</math>
 
Llavors,
 
<math>P(X\le 4)=P(X=3)+P(X=4)=\frac{3}{8}\, < 0.5,</math>
 
<math>P(X\le 7)=P(X=3)+P(X=4)+P(X=7)=\frac{4}{8}=0.5 \ge 0.5,</math>
 
També 7 és el primer valor tal que <math>P(X\ge k)\ge 0.5.</math>D'acord amb el conveni (3), la mediana és 7. A la secció primera, amb el conveni de la semisuma havíem obtingut 7.5. Per tant ambdós convenis en el cas d'un nombre parell de dades són diferents.
 
'''Important.''' Noteu que tant en el cas parell com en el senar, la mediana segons (3) és el valor ocupa el lloc <math>[(n+1)/2]</math> , és a dir, la [[part entera]] de <math>(n+1)/2</math>, en les dades ordenades.
 
==== Mediana poblacional i mediana mostral ====
En [[Inferència estadística]] un model estadístic d'una població s'acostuma a donar per una variable aleatòria <math>X</math> amb diverses característiques desconegudes. Una mostra de mida <math>n</math> és una família <math>X_1,\dots,X_n</math> de variables aleatòries independents, totes amb la mateixa distribució que <math>X</math>. La mediana de <math>X</math> s'anomena '''mediana poblacional''' (normalment és desconeguda), mentre que s'anomena '''mediana mostral''' a la mediana dels nombres <math>X_1,\dots,X_n</math>, que és el valor que en la mostra ordenada ocupa el lloc <math>[(n+1)/2]</math> . Designem per <math>M</math> la mediana poblacional i per <math>\widehat M_n</math>la mediana mostral.
 
La mediana mostral és un bon estimador de la mediana poblacional. Concretament <ref name=":0" />,
 
# Si les inequacions (2) tenen una solució única, aleshores <math>\widehat M_n</math>és un estimador fortament consistent de <math>M</math>, concretament,<math>\lim_{n\to \infty} \widehat M_n=M</math>, [[Convergència quasi segura|quasi segurament]].
# Si <math>X</math> és absolutament contínua amb funció de densitat <math>f(x)</math> contínua i estrictament positiva en <math>M</math>, aleshores <math>\widehat M_n</math>és asimptòticament normal <math>\mathcal{AN}\big(M,1/(4 f(M)^2n\big)</math>, és a dir, <math>\lim_{n\to\infty} 2 f(M)\sqrt{n}(\widehat M_n-M)=Z</math>, [[Convergència en distribució|en distribució]], on <math>Z</math> és una [[Distribució normal|variable aleatòria normal]] estàndard <math>\mathcal{N}(0,1)</math>.
 
Per a la construcció d'intervals de confiança i tests d'hipòtesis per a la mediana, vegeu <ref>{{Ref-llibre|edició=2a. ed|títol=Probabilidad y estadística|url=https://www.worldcat.org/oclc/40408359|editorial=Addison-Wesley Iberoamericaca|data=1988|lloc=Wilmington, Delawere, E.U.A.|isbn=0201644053|cognom=DeGroot, Morris H., 1931-|nom=|llengua=|pàgines=p. 534}}</ref> . L'estudi d'aquestes propietats s'inclou dintre de l'[[Estadística no paramètrica]].
 
<br />
 
<references />