Interval de confiança: diferència entre les revisions

Contingut suprimit Contingut afegit
m neteja i estandardització de codi
Final demostració interval de confiança mitjana amb desviació típica desconeguda
Línia 10:
 
== Exemple introductori. Estimació puntual i per interval de l'alçada de les dones d'un poble ==
Les alçades de 10 dónes de 18 anys d'un poble són les següents<ref>{Dades simulades a partir de la informació de l'article {Ref-web|url=https://www.academia.cat/files/204-6146-FITXER/millennialsgrowth2017CAT.pdf|títol=millennialsgrowth2017CAT.pdf|consulta=30 de juny de 2020|llengua=|editor=|data=}}</ref> (en cm):<math display="block">166,\,171'2,169'1,\,163'4,\,165,\,163'6,\,158'2,\,163'9,\,169'5,\,168'9</math>(Per claredat tipogràfica, en tot l'article escriurem els decimals de la forma 171'2 en lloc de 171,2). L'alçada mitjana és<math display="block">\overline X=\frac{166+171'2+\cdots+169'8}{10}=165'988.</math>Però el que volem és estimar l'alçada mitjana de totes les dones de 18 anys, que designarem per <math>m</math>, i no només la de les dones de la mostra. El nombre 165'9 és un '''estimador puntual''' d'aquesta mitjana <math>m</math>, i normalment s'escriu <math display="block">\widehat m=\overline X=165'988 \ {\rm cm}.</math> Però, ¿estem segurs que <math>m=165'9</math> ? ¿No podria ser que <math>m=168</math> o que <math>m=162</math>? Aquests dubtes provenen del fet que hem preguntat a 10 dones, i per estar segurs de la mitjana de tota la població hauríem de preguntar a totes les dones! Però podem afinar més aquest resultat i quantificar la incertesa associada a aquesta estimació. Per fer això, necessitem un model estadístic adient: suposarem que l'alçada de les dones de 18 anys d'aquell poble segueix una distribució normal de mitjana <math>m</math> i desviació típica <math>d</math>; en altres paraules, l'alçada genèrica d'una dona de 18 anys es modelitza per una variable aleatòria <math display="inline">X\sim {\mathcal N}(m,d^2) </math>. En mesurar les alçades de 10 dones tenim 10 variables aleatòries, que s'anomenen una '''mostra''',<math display="block">X_1,\dots, X_{10},. </math> Aquestes variables aleatòries són independents (suposem que la mostra s'ha triat a l'atzar) i cadascuna d'aquestes variables segueix la mateixa distribució que la genèrica: <math display="block">X_i\sim {\mathcal N}(m,d^2),\, i=1,\dots, 10.</math>Els nombres concrets obtinguts, 166, 171'2, etc. s'anomenen una '''realització de la mostra'''.
 
En aquesta primera part suposarem que a partir d'estudis anteriors o per comparació amb dades similars, que la desviació típica és coneguda: <math>d=4</math>.
 
=== Interval de confiança per a <math>m</math> ===
Volem calcular un interval de confiança per a <math>m</math>; per concretar, començarem calculant un interval amb una confiança del 95% (equivalentment, en tant per u, una confiança de 0.'95). Per tal d'escriure fórmules generals designarem la mida de la mostra per <math>n</math>, i la mitjana mostral per <math>\overline X</math>
<math display="block">\overline X=\frac{\sum_{i=1}^n X_i}{n}.</math>
Argumentarem més endavant que un interval amb confiança del 95% per <math>m</math> s'obté per la fórmula
Línia 21:
En aquest exemple, tenim que l'interval és
<math display="block">
\Big[165'988-1'96\frac{4}{\sqrt{10}}, \, 165'988+1'96\frac{4}{\sqrt{10}}\Big]
=[163'4,\, 168'436].</math>Es diu que <math display="block">m\in [163'4\, , 168'436]\quad \text{amb confiança de 0.'95}.</math>(o confiança del 95%). Atès que <math>1'96\,\cdot 4/\sqrt{10}=2'48</math>, també s'escriu <math display="block">m=165'988\pm 2'48,\ \text{amb confiança 0'95}.</math> Cal entendre que la confiança la tenim en la fórmula (1), no en l'interval <math>[163'4,\, 168'436]</math>, això és, tenim la probabilitat<math display="block">P\bigg(m\in\Big[\overline X-1'96 \frac{d}{\sqrt n},\, \overline X+1'96 \frac{d}{\sqrt n}\Big] \bigg)=0'95,</math>és a dir, quan utilitzem la fórmula (1), el 95% de les vegades l'interval resultant contindrà l'autèntic valor de <math>m</math>. Si, per exemple utilitzem la fórmula 20 vegades (en pobles de similars característiques), aleshores 19 intervals contindran l'autèntic valor de <math>m</math> i 1 no el contindrà. (Per aquest motiu es diu que la feina d'estadístic és l'única en què ets pots equivocar el 5% de les vegades sense que et despatxin).
 
=== I si volem més confiança? ===
[[Fitxer:Interval95 99.svg|miniatura|Figura 1. Intervals de confiança del 95% (línia blava) i del 99% (línia vermella discontínua) de la mitjana de les alçades de dones de 18 anys d'un poble.]]
Raonarem més endavant que si volem una confiança del 99%, aleshores a la fórmula (1) cal canviar 1'96 per 2'58, i per tant, la fórmula a utilitzar és <math display="block"> \Big[\overline X-2'58 \frac{d}{\sqrt n},\, \overline X+2'58 \frac{d}{\sqrt n}\Big]. \qquad (2)</math>A l'exemple, l'interval de confiança del 99% és <math display="block">
\Big[165'988-2'58\frac{4}{\sqrt{10}}, \, 165'988+2'58\frac{4}{\sqrt{10}}\Big]
=[162'662,\, 169'114].</math>
Noteu que en augmentar la confiança també augmenta la llargada de l'interval, vegeu la figura 1. Per tant, com més confiança volem tenir, és a dir, com més segurs vulguem estar que l'interval que calculem conté l'autèntic valor del paràmetre desconegut, més llarg ens donarà l'interval. ''Pregunta al lector'': ¿quin seria l'interval per tenir una confiança del 100%?
 
Línia 36:
on <math>z_\gamma</math> és el nombre tal que
<math display="block">P(-z_\gamma\le Z\le z_\gamma)=\gamma,</math>
on <math>Z\sim\mathcal{N}(0,1)</math> és una [[Distribució normal|variable aleatòria normal estàndard]]. Aquests valor <math>z_\gamma</math> Aquest valor es troba en unes taules estadístiques o bé amb el [[full de càlcul]] (per exemple, l'excel) o programari estadístic (per exemple, l'[[R (llenguatge de programació)|R]]). Pels casos més habituals tenim:
{| class="wikitable" style="text-align:left;margin-left:100pt;border:none;background:none;"
!<math>\gamma</math>!!<math>z_\gamma</math>
Línia 58:
* La '''mida de la mostra''' <math>n</math>. Com més gran sigui, més precisió tindrem (més curt serà l'interval), però prendre una mostra és car, en temps o en diners.
 
L'ideal seria tenir la màxima confiança, la mínima llargada de l'interval i la mida de mostra petita, però tot alhora no pot ser: aquests tres ingredients és com si fossin els angles d'un triangle (vegeu la Figura 2): dos angles determinen el tercer: si volem molta confiança i molta precisió caldrà prendre una mida de mostra molt gran, que serà molt car!, etc. <<''Res és perfecte''>>, sospirà la guineu...
[[Fitxer:Triangle confiança.svg|miniatura|Figura 2. Els tres factors d'un interval de confiança]]
=== Demostració de la fórmula de l'interval de confiança ===
Línia 75:
 
== Interval de confiança per a la mitjana d'una població normal amb desviació típica desconeguda ==
Quan la desviació típica de la població és desconeguda, aleshores es fa una estimació a partir de la mostra utilitzant la [[Desviació tipus|desviació típica mostral modificada]] <math display="block"> S=\sqrt{\frac{\sum_{i=1}^n(X_i-\overline X)^2}{n-1}}.</math>Llavors, l'interval amb nivell de confiança <math>\gamma\in (0,1)</math> és <math display="block">\Big[\overline X-t_\gamma\, \frac{S}{\sqrt n},\, \overline X+t_\gamma\, \frac{S}{\sqrt n}\Big],\qquad\qquad (4)</math>
 
on <math>t_\gamma</math> és el nombre tal que<math display="block">P(-t_\gamma\le TT_{n-1}\le t_\gamma)=\gamma,</math>on <math>TT_{n-1}</math> és una variable aleatòria amb [[Distribució t de Student|distribució <math>t</math> de Student]] amb <math>n-1</math> graus de llibertat.
 
En resum, si la desviació típica <math>d</math> és desconeguda, aleshores per calcular l'interval de confiança per a <math>m</math> fem dos canvis:
 
# Canviem la quantitat desconeguda <math>d</math> per l'estimació <math>S</math>.
# Canviem el valor <math>z_\gamma</math> de la fórmula (3) obtingut amb una llei normal estàndard pel valor <math>t_\gamma</math> calculat a partir d'una variable <math>t</math> de Student amb <math>n-1</math> graus de llibertat.
 
===== Tornem a l'exemple de les alçades =====
Si a l'exemple de les alçades de les dones de 18 anys no suposem la desviació típica coneguda, aleshores l'estimem per <math>S</math>, que dóna <math display="block">S=\frac{(166-165'88)^2+\cdots+(168'9-165'88)^2}{9}=3'89.</math>Per calcular l'interval de confiança del 95% necessitem el valor <math>t_{0'95}</math> corresponent a una <math>t</math> de Student amb 9 graus de llibertat. AquestIgual que el cas de la llei normal, aquest valor es troba en unes taules estadístiques o bé amb el [[full de càlcul]] (per exemple, l'excel) o programari estadístic (per exemple, l'[[R (llenguatge de programació)|R]]). S'obté <math display="block">t_{0'95}=2'26.</math>Llavors, l'interval és <math display="block">
\Big[165'88-2'26\,\frac{3'89}{\sqrt{10}}, \, 165'88+2'26\,\frac{3'89}{\sqrt{10}}\Big]
=[163'1,\, 168'66].</math>Cal notar que l'interval que hem calculat suposant la desviació típica coneguda tenia una longitud de 4'96 cm, mentre que aquest últim mesura 5'56 cm, i per tant és més llarg. Això és degut al fet que en estimar la desviació típica introduïm més incertesa en els càlculs.
 
===== Demostració de la fórmula de l'interval de confiança amb desviació típica desconeguda =====
El genial estadístic anglès [[Ronald Aylmer Fisher|R. A. Fisher]] va demostrar el 1923, que, sota les hipòtesis de normalitat que estem suposant, la variable aleatòria <math display="block">T=\frac{\overline X-m}{S/\sqrt{n}}</math>segueix una distribució <math>t</math> de Student amb <math>n-1</math> graus de llibertat <ref>Degroot, M. H. (1988) ''Probabilidad y estadística''. Addison-Wesley Iberoamericana, México, cap. 7.</ref>. Aleshores, donat un nivell de confiança <math>\gamma</math>, utilitzant unes taules estadístiques o un full de càlcul o un programa estadístic calculem el nombre <math>t_\gamma</math> tal que<math display="block">P(-t_\gamma\le T_{n-1}\le t_\gamma)=\gamma,</math> on <math>T_{n-1}</math> és una variable aleatòria amb [[Distribució t de Student|distribució <math>t</math> de Student]] amb <math>n-1</math> graus de llibertat. Llavors, tindrem
<math display="block">P\bigg(-t_\gamma\le \frac{\overline X-m}{S/\sqrt{n}}\le t_\gamma \bigg)=\gamma.</math>
Ara es procedeix exactament igual que en la demostració de l'interval de confiança amb desviació típica coneguda que hem vist abans i es dedueix la fórmula (4).
 
== Referències ==