Mostratge (estadística)

selecció de punts d'un conjunt de dades en estadística

En estadística es coneix com a mostratge[1] la tècnica per la selecció d'una mostra a partir d'una població.[2]

En elegir una mostra s'espera aconseguir que les seves propietats siguin extrapolables a la població. Aquest procés permet estalviar recursos, i alhora obtenir resultats semblants als que s'assolirien si es realitzés un estudi de tota la població.

Cal mencionar que perquè el mostratge sigui vàlid i es pugui dur a terme un estudi adequat (que consenti no només fer estimacions de la població sinó estimar també els marges d'error corresponents a aquestes estimacions), ha de complir certs requisits. Mai no podrem estar totalment segurs que el resultat sigui una mostra representativa, però sí que podem actuar de manera que aquesta condició s'assoleixi amb una probabilitat alta.

En el mostratge, si la mida de la mostra és més petita que la mida de la població, es poden extreure dues o més mostres de la mateixa població. El conjunt de mostres que es poden obtenir de la població es denomina espai mostral. La variable que associa a cada mostra la seva probabilitat d'extracció, segueix l'anomenada distribució mostral.

Tècniques de mostratge

modifica

Existeixen dos mètodes per seleccionar mostres de poblacions: el mostratge no aleatori o subjectiu i el mostratge aleatori (que incorpora l'atzar com recurs en el procés de selecció). Quan aquest últim compleix amb la condició que tots els elements de la població tenen alguna oportunitat de ser escollits en la mostra, si la probabilitat corresponent a cada subjecte de la població és coneguda per avançat, rep el nom de mostratge probabilístic. Una mostra seleccionada per mostratge subjectiu pot basar-se en l'experiència d'algú amb la població. Algunes vegades una mostra subjectiva s'utilitza com guia o mostra temptativa per decidir com prendre una mostra aleatòria més endavant.

Mostratge probabilístic

modifica

Formen part d'aquest tipus de mostratge tots aquells mètodes pels que es pot calcular la probabilitat d'extracció de qualsevol de les mostres possibles. Aquest conjunt de tècniques de mostratge és el més aconsellable, tot i que a vegades no és possible optar per ell. En aquest cas es parla de mostres probabilístiques, car no és estrictament correcte parlar de mostres representatives atès que, en no conèixer les característiques de la població, no és possible tenir certesa que tal característica s'ha assolit.

Sense reposició dels elements: cada element extret es descarta per la subsegüent extracció. Per exemple, si s'extreu una mostra d'una "població" de bombetes per estimar la vida mitjana de les bombetes que l'integren, no serà possible mesurar més d'una vegada la bombeta seleccionada.

Amb reposició dels elements: Les observacions es realitzen amb substitució dels individus, de manera que la població és idèntica en totes les extraccions. En poblacions molt grans, la probabilitat de repetir una extracció és tan petita que el mostratge pot considerar-se sense reposició encara que, realment, no ho sigui.

Amb reposició múltiple: En poblacions molt grans, la probabilitat de repetir una extracció és tan petita que el mostratge pot considerar-se sense reposició encara que, realment, no ho sigui. Cada element extret es descarta per la subsegüent extracció.

Per realitzar aquest tipus de mostratge, i en determinades situacions, és molt útil l'extracció de nombres aleatoris mitjançant ordinadors, calculadores o taules construïdes amb aquest fi.

Mostratge estratificat

modifica

Consisteix en la divisió prèvia de la població d'estudi en grups o classes que se suposen homogenis amb respecte a alguna característica de les que es van a estudiar. A cadascun d'aquests estrats se li assignaria una quota que determinaria el nombre de membres del mateix que compondran la mostra. Dins de cada estrat se sol utilitzar la tècnica de mostratge sistemàtic, una de les tècniques de selecció més utilitzades a la pràctica.

Segons la quantitat d'elements de la mostra que s'han d'elegir de cadascun dels estrats, existeixen dues tècniques de mostratge estratificat:

  • Assignació proporcional: la mida de la mostra dins de cada estrat és proporcional a la mida de l'estrat dins de la població.
  • Assignació òptima: la mostra recollirà més individus d'aquells estrats que tinguin més variabilitat. Per fer-ho és necessari un coneixement previ de la població.

Per exemple, per un estudi d'opinió, pot resultar interessant estudiar per separat les opinions d'homes i dones car s'estima que, dins de cadascun d'aquests grups, pot haver-hi certa homogeneïtat. Així, si la població està composta d'un 55% de dones i un 45% d'homes, es prendria una mostra que contenga també aquests mateixos percentatges d'homes i dones.

Per una descripció general del mostratge estratificat i els mètodes d'inferència associats amb aquest procediment, suposem que la població està dividida en h subpoblacions o estrats de mides conegudes N1, N₂,..., Nh tal que les unitats en cada estrat siguin homogènies respecte a la característica en qüestió. La mitjana i la variància desconegudes pel i-èsim estrat són denotades per mi i si², respectivament.

Mostratge sistemàtic

modifica

S'utilitza quan l'univers o població és de gran mida, o ha d'estendre's en el temps. Primer cal identificar les unitats i relacionar-les amb el calendari (quan sigui necessari). Després cal calcular una constant, que es denomina coeficient d'elevació K= N/n; on N és la mida de l'univers i n la mida de la mostra. Determinar en quina data es produirà la primera extracció, per fer-ho cal elegir a l'atzar un nombre entre 1 i K; d'aleshores en endavant prendre un de cada K a intervals regulars. A vegades, és convenient tenir en compte la periodicitat del fenomen.

Això vol dir que si tenim un determinat nombre de persones que és la població (N) i volem escollir d'aquesta població un nombre més petit el qual és la mostra (n), dividim el nombre de la població pel nombre de la mostra que volem prendre i el resultat d'aquesta operació serà l'interval, aleshores escollim un nombre a l'atzar des d'un fins al nombre de l'interval, i a partir d'aquest nombre escollim els altres seguint l'ordre de l'interval.

Mostratge per estadis múltiples

modifica

Aquesta tècnica és l'única opció quan no es disposa de llista completa de la població de referència o bé quan per mitjà de la tècnica de mostratge simple o estratificat s'obté una mostra amb unitats distribuïdes de manera que resulten de difícil accés. En el mostratge a estadis múltiples se subdivideix la població en diversos nivells ordenats que s'extreuen successivament per mitjà d'un procediment d'embut. El mostratge es desenvolupa en diverses fases o extraccions successives per cada nivell.

Per exemple, si hem de construir una mostra de professors de primària en un país determinat, aquests poden subdividir-se en unitats primàries representades per circumscripcions didàctiques i unitats secundàries que serien els mateixos professors. En primer lloc extreiem una mostra de les unitats primàries (per la qual cosa hem de tenir la llista completa d'aquestes unitats) i en segon lloc extreiem aleatòriament una mostra d'unitats secundàries de cadascuna de les primàries seleccionades en la primera extracció.

Mostratge per clústers

modifica

Tècnica similar al mostratge per estadis múltiples, s'utilitza quan la població està dividida, de manera natural, en grups que se suposa que contenen tota la variabilitat de la població, és a dir, la representen fidelment respecte a la característica a elegir, poden seleccionar-se només alguns d'aquests grups o clústers per la realització de l'estudi.

Dins dels grups seleccionats s'ubicaran les unitats elementals, per exemple, les persones a enquestar, i podria aplicar-se-li l'instrument de mesurament a totes les unitats, és a dir, els membres del grup, o només se li podria aplicar a alguns d'ells, seleccionats a l'atzar. Aquest mètode té l'avantatge de simplificar la recollida d'informació mostral.

Quan, dins de cada conglomerat seleccionat, s'extreuen alguns individus per integrar la mostra, el disseny es diu mostratge en dues etapes.

Les idees d'estrats i conglomerats són, en cert sentit, oposades. El primer mètode funciona millor com més homogènia és la població respecte de l'estrat, tot i que més diferents són aquests entre si. En el segon, passa el contrari. Els conglomerats han de presentar tota la variabilitat, tot i que han de ser molt semblants entre si.

Homogeneïtat de les poblacions o els seus subgrups

modifica

Homogeni significa, en el context de l'estratificació, que no hi ha gaire variabilitat. Els estrats funcionen millor com més homogenis són cadascun d'ells respecte a la característica per mesurar. Per exemple, si s'estudia l'alçada d'una població, és bo distingir entre els estrats dones i homes perquè s'espera que, dins d'ells, hi hagi menys variabilitat, és a dir, siguin menys heterogenis. Dit d'una altra manera, no hi ha tantes diferències entre unes alçades i les altres dins de l'estrat que en la població total.

En canvi, l'heterogeneïtat fa inútil la divisió en estrats. Si es donen les mateixes diferències dins de l'estrat que a tota la població, no hi ha motius per utilitzar aquest mètode de mostratge. En els casos en els quals existeixin grups que continguin tota la variabilitat de la població, el que es construeix són conglomerats, que estalvien part del treball que suposaria analitzar tota la població. En resum, els estrats i els conglomerats funcionen sota principis oposats: els primers són millors com més homogeni és el grup respecte a la característica per estudiar i els conglomerats, si representen fidelment la població, això és, contenen tota la seva variabilitat, és a dir, són homogenis.

Mostratge subjectiu

modifica

Aquell pel que no pot calcular-se la probabilitat d'extracció d'una determinada mostra. Es busca seleccionar individus que es jutja per avançat tenen un coneixement profund del tema estudiat, per tant, es considera que la informació aportada per aquesta persones és vital per la presa de decisions.

Mostratge per quotes

modifica

És la tècnica més difosa sobretot en estudis de mercat i sondejos d'opinió. En primer lloc és necessari dividir la població de referència en diversos estrats definits per algunes variables de distribució coneguda (com el gènere o l'edat). Posteriorment es calcula el pes proporcional de cada estrat, és a dir, la part proporcional de població que representen. Finalment es multiplica cada pes per la mida de n de la mostra per determinar la quota precisa en cada estrat. Es diferencia del mostratge estratificat perquè una vegada determinada la quota, l'investigador és lliure d'elegir als subjectes de la mostra dins de cada estrat.

Mostratge de bola de neu

modifica

Indicat per estudis de poblacions clandestines, minoritàries o molt disperses però en contacte entre si. Consisteix a identificar subjectes que s'inclouran en la mostra a partir dels propis entrevistats. Partint d'una petita quantitat d'individus que compleixen els requisits necessaris aquests serveixen com localitzadors d'altres amb característiques anàlogues.

Mostratge subjectiu per decisió raonada

modifica

En aquest cas les unitats de la mostra s'elegeixen en funció d'alguna de les seves característiques de manera racional i no casual. Una variant d'aquesta tècnica és el mostratge compensat o equilibrat, en el qual se seleccionen les unitats de tal forma que la mitjana de la mostra per determinades variables s'acosti a la mitjana de la població.

Mètodes de producció de mostres aleatòries

modifica

Història

modifica

El mostratge aleatori mitjançant l'ús de lots és una idea antiga, esmentada diverses vegades a la Bíblia. El 1786 Pierre Simon Laplace va estimar la població de França utilitzant una mostra, juntament amb l'estimador de proporció. També va calcular estimacions probabilístiques de l'error. Aquests no es van expressar com a interval de confiança moderns, sinó com la mida de la mostra que es necessitaria per aconseguir un límit superior particular de l'error de mostreig amb una probabilitat de 1000/1001. Les seves estimacions van utilitzar el teorema de Bayes amb una probabilitat prèvia uniforme i van suposar que la seva mostra era aleatòria. Alexander Ivanovich Chuprov va introduir enquestes de mostra a la Rússia imperial a la dècada de 1870.[cal citació]

Als EUA la predicció de 1936 Literary Digest d'una victòria republicana a les eleccions presidencials van sortir molt malament, a causa d'un sever biaix.[3] Més de dos milions de persones van respondre a l'estudi amb els seus noms obtinguts a través de llistes de subscripcions a revistes i directoris telefònics. No es va apreciar que aquestes llistes estiguessin molt esbiaixades cap als republicans i la mostra resultant, tot i que molt gran, era profundament defectuosa.[4][5]

Aplicacions del mostratge

modifica

El mostratge permet seleccionar els punts de dades adequats dins del conjunt de dades més gran per estimar les característiques de tota la població. Per exemple, hi ha uns 600 milions de tuits produïts cada dia. No cal mirar-los tots per determinar els temes que es tracten durant la jornada, ni tampoc cal mirar tots els tuits per determinar el sentiment sobre cadascun dels temes. S'ha desenvolupat una formulació teòrica per al mostreig de dades de Twitter.[6]

En fabricació, hi ha diferents tipus de dades sensorials, com ara l'acústica, la vibració, la pressió, el corrent, la tensió i les dades del controlador estan disponibles a intervals de temps curts. Per predir el temps d'inactivitat pot ser que no sigui necessari mirar totes les dades, però una mostra pot ser suficient.

Referències

modifica
  1. «muestreo (Cerca castellà-català)». Optimot. Generalitat Catalana. [Consulta: 7 novembre 2017].
  2. «mostreig». diccionari.cat. Grup Enciclopèdia Catalana. [Consulta: 7 novembre 2017].
  3. «Fiasco in 1936 Survey Brought 'Science' To Election Polling» (en anglès). The Wall Street Journal, 02-10-2006. [Consulta: 4 abril 2023].
  4. David S. Moore i George P. McCabe. "Introducció a la pràctica de l'estadística".
  5. Freedman, David; Pisani; Purves, Roger. Estadístiques. 
  6. Deepan Palguna (2015). "Analysis of Sampling Algorithms for Twitter".  

Bibliografia

modifica
  • Aguilar-Barojas, Saraí «Fórmulas para el cálculo de la muestra en investigaciones de salud». Salud en Tabasco, 11, 1-2, 2005, pàg. 333-338.
  • Casas Anguita, J.; Repullo Labrador, J.R.; Donado Campos, J. «La encuesta como técnica de investigación. Elaboración de cuestionarios y tratamiento estadístico de los datos (I)». Atención Primaria, 31, 8, 2003, pàg. 527–538. DOI: 10.1016/S0212-6567(03)70728-8.
  • García-García, José Antonio; Reding-Bernal, Arturo; López-Alvarenga, Juan Carlos «Cálculo del tamaño de la muestra en investigación en educación médica». Investigación en educación médica, 2, 8, 2013, pàg. 217-224. DOI: 10.1016/S2007-5057(13)72715-7.

Vegeu també

modifica