Inferència estadística: diferència entre les revisions

Contingut suprimit Contingut afegit
m Robot treu ":" dels títols segons recomana VP:CHVP
m tipos
Línia 6:
* Estimació de paràmetres
 
* Test d´'hipòtesi
 
La primera d'elles consisteix en l´'estudi d´'un paràmetre estadístic, com per exemple la [[mitjana]]. Tenint això en compte, veurem diferents tipus d'inferència mitjançant l´'estimació de paràmetres:
 
a)Distribució mostral de les mitjanes
Línia 17:
 
d)Intervals de confiança
 
 
 
== Distribució mostral de les mitjanes ==
En aquest cas, com el seu propi nom indica, el paràmetre que s´'utilitza de referència és la mitjana.
 
Suposem una població en la qual estem estudiant un paràmetre caracteritzat per una mitjana ('''μ''') i una desviació típica ('''σ'''). Podria ser, per exemple, l´'estudi de les alçades d'un grup de persones. Doncs bé, en aquest cas, si agafem mostres de mida ('''n'''), essent n≥30, es pot considerar que la distribució de mostres segueix una [[distribució normal]] caracteritzada per una mitjana igual a la de la població, i una [[desviació típica]] igual a la de la població dividida per l'[[arrel quadrada]] de n. És a dir:
 
:::::::::::<math>N(\mu,{\frac{\sigma}{\sqrt{n}}})</math>
 
D´'aquesta manera, qualsevol càlcul de [[probabilitat]] que s´'hagi de fer per a la distribució de les mostres, es pot fer dins el marc d´'una distribució normal.
 
== Distribució mostral de les proporcions ==
En aquest cas consideram una població que es pot representar mitjançant una distribució binomial B(n,p). El paràmetre en aquest cas és una proporció (tant per cent). Un exemple podria ser una màquina que fabrica peces de precisió, amb un percentatge determinat de peces defectuoses. Si com en el cas anterior agafem mostres de grandària ('''n'''), podem considerar que la distribució mostral segueix una normal, caracteritzada per una mitjana ('''p''') i una desviació típica l´'arrel quadrada de '''pq''' dividit per '''n'''. És a dir:
 
::::::::::::<math>N(p,\sqrt{\frac{pq}{n}})</math>
 
Com en el cas anterior, tenim l´'avantatge que els càlculs de probabilitat per a la distribució de les mostres, els podem fer per a una distribució normal.
 
== Distribució mostral de la diferència de mitjanes ==
Suposem que estem fent un estudi comparatiu entre dues poblacions utilitzant la mitjana com a paràmetre. Si agafem mostres de cada població per fer aquest estudi, representarem amb subíndex 1 una de les dues poblacions i amb 2 l´'altra. Si <math>\mu_1</math> representa la mitjana de les mostres de la primera població, amb mida de mostra n<sub>1</sub>, i <math>\mu_2</math> la mitjana de les mostres de la segona població, amb mida n<sub>2</sub>, podem considerar que la distribució de les mostres segueix una normal caracteritzada per:
 
::::::::::::<math>N(\mu_1-\mu_2,\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}})</math>
Linha 43 ⟶ 41:
de tal manera que, com en els casos anteriors, podem fer tots els càlculs de probabilitat utilitzant una distribució normal.
 
Continuant amb el tema de la inferència estadística des de diferents punts de vista, tractarem ara el cas en el qual volem inferir resultats sobre el conjunt d´'una població a partir dels resultats obtinguts de mostres preses d´'aquesta població. Dins aquest marc hem de dir, que les mostres sempre han de ser el suficientment significatives perquè l´'estudi tengui sentit. És a dir, si agafem mostres d´'una població de persones per conèixer la intenció de vot a unes eleccions generals, hauríem de fer enquestes a totes les comunitats autònomes, i a més a més amb un rang d´'edats ample, quantes més persones d´'edats i comunitats diferents millor. Si no és així, els resultats inferits posteriorment sobre la població no tenen molt sentit.
 
 
Continuant amb el tema de la inferència estadística des de diferents punts de vista, tractarem ara el cas en el qual volem inferir resultats sobre el conjunt d´una població a partir dels resultats obtinguts de mostres preses d´aquesta població. Dins aquest marc hem de dir, que les mostres sempre han de ser el suficientment significatives perquè l´estudi tengui sentit. És a dir, si agafem mostres d´una població de persones per conèixer la intenció de vot a unes eleccions generals, hauríem de fer enquestes a totes les comunitats autònomes, i a més a més amb un rang d´edats ample, quantes més persones d´edats i comunitats diferents millor.Si no és així, els resultats inferits posteriorment sobre la població no tenen molt sentit.
 
Doncs bé, dins el marc de la inferència estadística mitjançant la estimació de paràmetres, veurem ara els intervals de confiança. Un [[interval de confiança]] és un interval de valors dins el qual estimam que es troba el paràmetre de la població sotmesa a estudi, amb una certa probabilitat fixada prèviament que anomenam N<sub>c</sub> (nivell de confiança). Segons el paràmetre estudiat podem considerar els següents intervals:
Linha 57 ⟶ 53:
::::::::::<math>(\mu-z_c\frac{\sigma}{\sqrt{n}}; \mu+z_c\frac{\sigma}{\sqrt{n}})</math>
 
on '''μ''' és la mitjana d´'una mostra de mida '''n''' i '''z'''<sub>'''c'''</sub> un coeficient que té un valor associat al nivell de confiança considerat (veure taula més abaix).
 
on '''μ''' és la mitjana d´una mostra de mida '''n''' i '''z'''<sub>'''c'''</sub> un coeficient que té un valor associat al nivell de confiança considerat (veure taula més abaix).
 
 
 
== Interval de confiança per a la proporció ==
 
 
És el següent interval per a la proporció de la població:
 
 
 
Linha 73 ⟶ 65:
 
on '''p''' representa el valor de la proporció en una mostra de mida '''n''' , i q=1 - p
 
 
 
== Interval de confiança de la diferència de mitjanes ==
 
És el cas de l´'estudi comparatiu de dues poblacions (població 1 i població 2), en les quals agafem mostres de mitjanes μ<sub>1</sub>, μ<sub>2</sub> i mides n<sub>1</sub>, n<sub>2</sub>. L´'interval de confiança per a l´'estudi comparatiu de les dues poblacions és:
 
És el cas de l´estudi comparatiu de dues poblacions (població 1 i població 2), en les quals agafem mostres de mitjanes μ<sub>1</sub>, μ<sub>2</sub> i mides n<sub>1</sub>, n<sub>2</sub>. L´interval de confiança per a l´estudi comparatiu de les dues poblacions és:
 
 
Linha 85 ⟶ 75:
 
 
que representa l´'interval a on es trobarà la diferència de mitjanes poblacionals per a un nivell de confiança donat.
 
En els tres casos, com hem comentat abans, l´'interval està referit a un cert nivell de confiança (probabilitat) que té associat un valor del coeficient z<sub>c</sub>. Els més usuals es poden veure a la següent taula:
 
 
En els tres casos, com hem comentat abans, l´interval està referit a un cert nivell de confiança (probabilitat) que té associat un valor del coeficient z<sub>c</sub>. Els més usuals es poden veure a la següent taula:
 
 
==Valors de z<sub>c</sub> corresponents a diferents valors de N<sub>c</sub> ==
 
 
 
{| border="6" align="center"
Linha 117 ⟶ 103:
|}
 
Relacionat amb els intervals de confiança, fixem-nos com hi ha un error associat en cada cas, que està representat per l´'amplada de l´'interval. Una pregunta que ens podem plantejar és: quin ha de ser la mida mínima d'una mostra, perquè l´'error sigui inferior a un cert valor?
 
 
 
Relacionat amb els intervals de confiança, fixem-nos com hi ha un error associat en cada cas, que està representat per l´amplada de l´interval. Una pregunta que ens podem plantejar és: quin ha de ser la mida mínima d'una mostra, perquè l´error sigui inferior a un cert valor?
 
 
=='''Mida de mostra (mida mostral''')==
 
Podem deduir fàcilment una fórmula, per exemple en el cas de l´'interval per a la mitjana, igualant a '''E''' (error) el valor de l´'amplada de l´'interval, i aïllant posteriorment el valor de '''n''', amb la qual cosa obtindrem:
 
Podem deduir fàcilment una fórmula, per exemple en el cas de l´interval per a la mitjana, igualant a '''E''' (error) el valor de l´amplada de l´interval, i aïllant posteriorment el valor de '''n''', amb la qual cosa obtindrem:
 
 
Linha 134 ⟶ 116:
que hauria de ser la mida mínima de la mostra, perquè l'error no superi un valor fixat E.
 
De la mateixa manera, en el cas de l´'interval per a la proporció obtindrem:
 
 
::::::::::<math>n=\frac{z_c^2pq}{E^2}</math>
 
 
 
 
[[Fitxer:Poisson distribution PMF.png|thumb|center|Distribució de Poisson]]
 
== Test d´'hipòtesi ==
 
Una altra manera de tractar el tema de la inferència estadística són els test d´'hipòtesi. La idea és formular una suposició (hipòtesi) sobre el valor d´'un paràmetre poblacional, per a posteriorment comprovar amb un marge d´'error fixat, i amb dades preses d´'una mostra, si la hipòtesi formulada la acceptem o la rebutjam. Estudiarem el contrast d´'hipòtesi per a la mitjana poblacional i també per a la proporció.
 
Una altra manera de tractar el tema de la inferència estadística són els test d´hipòtesi. La idea és formular una suposició (hipòtesi) sobre el valor d´un paràmetre poblacional, per a posteriorment comprovar amb un marge d´error fixat, i amb dades preses d´una mostra, si la hipòtesi formulada la acceptem o la rebutjam. Estudiarem el contrast d´hipòtesi per a la mitjana poblacional i també per a la proporció.
 
a) '''Contrast d´'hipòtesi per a la mitjana'''.
 
Suposem que tenim una població en la qual estem estudiant com a paràmetre la mitjana '''μ'''. Formulam la hipòtesi que la mitjana de la població té el valor μ<sub>0</sub>. Ara agafem una mostra de mida n≥30 (per garantir que la distribució mostral segueix una normal), i obtenim com a valor de la mitjana d´'aquesta mostra '''x'''. Amb un nivell de confiança fixat N<sub>c</sub>, calcularem els valors extrems de l´'interval de confiança, de tal manera que si el valor de la mitjana de la mostra es troba dins aquest interval, afirmarem que la hipòtesi és certa. En cas contrari la rebutjarem. En això consisteix essencialment aquest mètode. Ara sistematitzarem el procediment per fer-ho en els diferents casos de la mitjana, i després per a la proporció.
a) '''Contrast d´hipòtesi per a la mitjana'''.
 
La hipòtesi inicial s´'anomena hipòtesi nul.la ('''H'''<sub>0</sub>), i la hipòtesi contrària ('''H'''<sub>1</sub>) hipòtesi alternativa. Es poden presentar els casos següents:
Suposem que tenim una població en la qual estem estudiant com a paràmetre la mitjana '''μ'''. Formulam la hipòtesi que la mitjana de la població té el valor μ<sub>0</sub>. Ara agafem una mostra de mida n≥30 (per garantir que la distribució mostral segueix una normal), i obtenim com a valor de la mitjana d´aquesta mostra '''x'''. Amb un nivell de confiança fixat N<sub>c</sub>, calcularem els valors extrems de l´interval de confiança, de tal manera que si el valor de la mitjana de la mostra es troba dins aquest interval, afirmarem que la hipòtesi és certa. En cas contrari la rebutjarem. En això consisteix essencialment aquest mètode. Ara sistematitzarem el procediment per fer-ho en els diferents casos de la mitjana, i després per a la proporció.
 
La hipòtesi inicial s´anomena hipòtesi nul.la ('''H'''<sub>0</sub>), i la hipòtesi contrària ('''H'''<sub>1</sub>) hipòtesi alternativa. Es poden presentar els casos següents:
 
 
Linha 161 ⟶ 139:
En aquest cas la hipòtesi nul.la i la alternativa són: H<sub>0</sub>: μ=μ<sub>0</sub>; H<sub>1</sub>: μ≠μ<sub>0</sub>
 
El pas següent seria calcular l´'interval de confiança per a la mitjana poblacional per al valor considerat del N<sub>c</sub>, és a dir:
 
 
::::::::::<math>(\mu-z_c\frac{\sigma}{\sqrt{n}}; \mu+z_c\frac{\sigma}{\sqrt{n}})</math>
 
 
 
i per acabar, comprovar si el valor de la mitjana d'una mostra de mida '''n''' es troba dins aquest interval. Si és així acceptarem la hipòtesi H<sub>0</sub>. En cas contrari la rebutjarem i acceptarem la H<sub>1</sub>.
 
 
 
Linha 183 ⟶ 159:
 
 
En ambdós casos tornariem agafar una mostra per fer la comprovació corresponent. Emperò l´'interval no és pas ara el mateix d´'abans, sinó:
 
En ambdós casos tornariem agafar una mostra per fer la comprovació corresponent. Emperò l´interval no és pas ara el mateix d´abans, sinó:
 
 
Linha 191 ⟶ 166:
 
:::::::::<math>(\mu_0-z_c\frac{\sigma}{\sqrt{n}};\,\, +\propto)</math>
 
 
 
<blockquote>a<sub>22</sub>)</blockquote>
 
 
 
Linha 201 ⟶ 174:
 
 
aquests intervals al igual que en el cas bilateral representen la zona dins la qual és vàlida la H<sub>0</sub> amb el nivell de confiança considerat. S´'anomenan "zona o regió d´'acceptació".
 
Tant en el cas bilateral com en els unilaterals, si la mitjana de la mostra analitzada es troba dins la zona d´'acceptació, es considera vàlida la hipòtesi nul.la. En cas contrari es pren com a vàlida la hipòtesi alternativa.
 
Podem fer un estudi alternatiu completament equivalent per a la proporció. És a dir, en el cas que el paràmetre poblacional considerat sigui una proporció en lloc d´'una mitjana, l´'anàlisi seria el següent:
 
 
b)'''Contrast d´'hipòtesi per a la proporció'''.
 
 
Linha 215 ⟶ 188:
Anàlogament al cas de la mitjana: H<sub>0</sub>: p=p<sub>0</sub>; H<sub>1</sub>: p≠p<sub>0</sub>
 
i la zona d´'acceptació és:
 
 
:::::::::::<math>(p_0-z_c\sqrt{\frac{p_0q_0}{n}};p_0+z_c\sqrt{\frac{p_0q_0}{n}})</math>
 
 
 
Linha 231 ⟶ 203:
 
 
i la zona d´'acceptació és:
 
 
 
:::::::::::<math>(p_0-z_c\sqrt{\frac{p_0q_0}{n}};\,\,+ \propto)</math>
 
 
 
Linha 242 ⟶ 212:
 
 
en aquest subcas la zona d´'acceptació és:
 
 
 
Linha 249 ⟶ 218:
 
 
En tots els casos, si el valor de la proporció de la mostra considerada es troba dins la zona d´'acceptació, llavors considerarem que la hipòtesi nul.la és vàlida (amb el marge d´'error fixat prèviament). Si no és així, s´'accepta la hipòtesi alternativa.
 
En tots els casos, si el valor de la proporció de la mostra considerada es troba dins la zona d´acceptació, llavors considerarem que la hipòtesi nul.la és vàlida (amb el marge d´error fixat prèviament). Si no és així, s´accepta la hipòtesi alternativa.
 
'''Nota''': els valors de z<sub>c</sub> corresponents als casos unilaterals, no són pas els mateixos utilitzats a la taula de més amunt per als intervals de confiança, sinó els que hi figuren a continuació:
 
 
 
 
{| border="5" align="center"
Linha 265 ⟶ 230:
|}
 
éssent N<sub>s</sub> el nivell de significació (marge d´'error considerat). Recordem que la relació entre el nivell de confiança N<sub>c</sub> i el de significació és:
 
éssent N<sub>s</sub> el nivell de significació (marge d´error considerat). Recordem que la relació entre el nivell de confiança N<sub>c</sub> i el de significació és:
 
 
<p align="center">N<sub>c</sub> + N<sub>s</sub> = 1</p>
 
 
 
 
 
 
 
 
[[Categoria:Estadística]]