Bootstrapping (estadística)

El bootstrapping és qualsevol prova o mètrica que utilitza mostreig aleatori amb reemplaçament (per exemple, imitant el procés de mostreig) i s'inclou dins la classe més àmplia de mètodes de remostreig. Bootstrapping assigna mesures de precisió (biaix, variància, intervals de confiança, error de predicció, etc.) a les estimacions de la mostra. Aquesta tècnica permet estimar la distribució del mostreig de gairebé qualsevol estadística mitjançant mètodes de mostreig aleatori.^[1]

Bootstrapping estima les propietats d'un estimand (com ara la seva variància) mesurant aquestes propietats quan es mostren a partir d'una distribució aproximada. Una opció estàndard per a una distribució aproximada és la funció de distribució empírica de les dades observades. En el cas en què es pot suposar que un conjunt d'observacions prové d'una població independent i distribuïda de manera idèntica, això es pot implementar mitjançant la construcció d'una sèrie de mostrejos amb substitució, del conjunt de dades observat (i de la mateixa mida que el conjunt de dades observat).

També es pot utilitzar per construir proves d'hipòtesis. Sovint s'utilitza com a alternativa a la inferència estadística basada en l'assumpció d'un model paramètric quan aquesta hipòtesi està en dubte, o quan la inferència paramètrica és impossible o requereix fórmules complicades per al càlcul d'errors estàndard.^[2]

Història

El bootstrap va ser publicat per Bradley Efron a "Bootstrap methods: another look at the jackknife" (1979),^[3] inspirat en treballs anteriors sobre el jackknife. Més tard es van desenvolupar estimacions millorades de la variància. Una extensió bayesiana es va desenvolupar el 1981. El bootstrap corregit i accelerat per biaix (BCa) va ser desenvolupat per Efron el 1987,^[4] i el procediment ABC el 1992.

Aproximació

La idea bàsica de l'arrencada és que la inferència sobre una població a partir de dades de mostra (mostra → població) es pot modelar tornant a mostrejar les dades de la mostra i realitzant inferències sobre una mostra a partir de dades de mostreig (mostreja → mostra). Com que es desconeix la població, es desconeix l'error real d'una estadística mostra en comparació amb el seu valor poblacional. En bootstrap-resamples, la "població" és de fet la mostra, i això és conegut; per tant, la qualitat de la inferència de la mostra "vertadera" a partir de dades remostrejades (mostrejada → mostra) és mesurable.

De manera més formal, el bootstrap funciona tractant la inferència de la distribució de probabilitat real J, donades les dades originals, com a anàloga a una inferència de la distribució empírica Ĵ, donades les dades re-mostrejades. L'exactitud de les inferències sobre Ĵ utilitzant les dades re-mostrejades es pot avaluar perquè coneixem Ĵ . Si Ĵ és una aproximació raonable a J, aleshores es pot inferir la qualitat de la inferència sobre J.

Com a exemple, suposem que estem interessats en l'alçada mitjana (o mitjana) de les persones a tot el món. No podem mesurar totes les persones de la població mundial, de manera que només en mostrem una petita part i ho mesurem. Suposem que la mostra és de mida N ; és a dir, mesurem les altures de N individus. A partir d'aquesta mostra única, només es pot obtenir una estimació de la mitjana. Per raonar sobre la població, necessitem una certa noció de la variabilitat de la mitjana que hem calculat. El mètode d'arrencada més senzill consisteix a prendre el conjunt de dades original d'altures i, utilitzant un ordinador, fer-ne un mostreig per formar una nova mostra (anomenada "remostreig" o mostra d'arrencada) que també és de mida. N . La mostra d'arrencada s'obté de l'original utilitzant el mostreig amb substitució (p. ex., podríem "tornar a mostrejar" 5 vegades de [1,2,3,4,5] i obtenir [2,5,4,4,1]), així que, suposant que N és prou gran, per a tots els propòsits pràctics hi ha pràcticament zero probabilitat que sigui idèntica a la mostra "real" original. Aquest procés es repeteix un gran nombre de vegades (normalment 1.000 o 10.000 vegades), i per a cadascuna d'aquestes mostres d'arrencada, calculem la seva mitjana (cada una d'elles s'anomena "estimació de bootstrap"). Ara podem crear un histograma de mitjans bootstrap. Aquest histograma proporciona una estimació de la forma de la distribució de la mitjana mostral a partir de la qual podem respondre preguntes sobre quant varia la mitjana entre les mostres. (El mètode aquí, descrit per a la mitjana, es pot aplicar a gairebé qualsevol altra estadística o estimador).

Referències

↑ Joseph, Trist'n. «Bootstrapping Statistics. What it is and why it’s used.» (en anglès), 22-06-2020. [Consulta: 10 octubre 2023].
↑ «What Is the Bootstrapping Technique in Statistics?» (en anglès). [Consulta: 10 octubre 2023].
↑ Efron, B. The Annals of Statistics, 7, 1, 1979, pàg. 1–26. DOI: 10.1214/aos/1176344552 [Consulta: lliure].
↑ Efron, B. Journal of the American Statistical Association, 82, 397, 1987, pàg. 171–185. DOI: 10.2307/2289144. JSTOR: 2289144.

[1] Joseph, Trist'n. «Bootstrapping Statistics. What it is and why it’s used.» (en anglès), 22-06-2020. [Consulta: 10 octubre 2023].

[2] «What Is the Bootstrapping Technique in Statistics?» (en anglès). [Consulta: 10 octubre 2023].

[3] Efron, B. The Annals of Statistics, 7, 1, 1979, pàg. 1–26. DOI: 10.1214/aos/1176344552 [Consulta: lliure].

[BCa2-4] Efron, B. Journal of the American Statistical Association, 82, 397, 1987, pàg. 171–185. DOI: 10.2307/2289144. JSTOR: 2289144.

[1]

[2]

[3]

[4]