Remostreig (estadística)

família de mètodes estadístics basats en la mostra estadística

En estadístiques, el remostreig és la creació de noves mostres a partir d'una mostra observada.

El resampling (anglès) o repetició de mostreig fa referència a la determinació de les propietats estadístiques de les funcions mostrals , com ara estimadors o variables de prova, a partir d'un dibuix repetit de mostres, les anomenades submostres, a partir d'una mostra inicial. La funció de mostreig es calcula repetidament a partir de les submostres extretes i va examinar les seves propietats de distribució a partir dels resultats. L'avantatge aquí és que cap distribució no s'ha d'assumir durant el mostreig, la qual cosa significa que els mètodes es poden utilitzar de manera molt àmplia i (a diferència dels mètodes d' estadística paramètrica) s'han de fer comparativament poques hipòtesis.[1]

Els mètodes de remostreig són: [2]

  1. Proves de permutació (també proves de re-aleatorització)
  2. Bootstrapping
  3. Validació creuada

Proves de permutació

modifica

Les proves de permutació es basen en tornar a mostrejar les dades originals assumint la hipòtesi nul·la. A partir de les dades re-mostrejades, es pot concloure la probabilitat que es produeixin les dades originals sota la hipòtesi nul·la.[3]

Bootstrap

modifica
 
El millor exemple del principi del connector, el mètode d'arrencada.

El bootstrapping és un mètode estadístic per estimar la distribució del mostreig d'un estimador mitjançant el mostreig amb substitució de la mostra original, sovint amb la finalitat d'obtenir estimacions sòlides d'errors estàndard i intervals de confiança d'un paràmetre de població com la mitjana, la mitjana, la proporció i les probabilitats. ràtio, coeficient de correlació o coeficient de regressió. S'ha anomenat principi de plug-in, ja que és el mètode d'estimació de funcionals d'una distribució poblacional mitjançant l'avaluació dels mateixos funcionals a la distribució empírica a partir d'una mostra.

Per exemple, quan s'estima la mitjana de la població, aquest mètode utilitza la mitjana mostral; per estimar la mediana de la població, utilitza la mediana mostral; per estimar la recta de regressió de la població, utilitza la línia de regressió mostral.

Validació creuada

modifica

La validació creuada és un mètode estadístic per validar un model predictiu. Els subconjunts de les dades es reparteixen per utilitzar-los com a conjunts de validació; un model s'ajusta a les dades restants (un conjunt d'entrenament) i s'utilitza per predir el conjunt de validació. Mitjançant la qualitat de les prediccions entre els conjunts de validació, s'obté una mesura global de la precisió de les prediccions. La validació creuada s'utilitza repetidament en els arbres de decisió de la construcció.

Una forma de validació creuada deixa de banda una sola observació alhora; això és similar a la navalla. Una altra, la validació creuada de K -fold, divideix les dades en K subconjunts; cadascun es presenta al seu torn com el conjunt de validació.

Això evita "l'autoinfluència". Per comparació, en mètodes d'anàlisi de regressió com ara la regressió lineal, cada valor y dibuixa la línia de regressió cap a si mateix, fent que la predicció d'aquest valor sembli més precisa del que realment és. La validació creuada aplicada a la regressió lineal prediu el valor y per a cada observació sense utilitzar aquesta observació.[4]

Referències

modifica
  1. «Resampling Techniques» (en anglès). [Consulta: 6 febrer 2024].
  2. «A Gentle Introduction to Statistical Sampling and Resamplin» (en anglès). [Consulta: 6 febrer 2024].
  3. «Resampling» (en anglès americà). [Consulta: 6 març 2024].
  4. «[http://wise.cgu.edu/wp-content/uploads/2015/04/Introduction-to-Resampling-Techniques-110901.pdf Resampling 1 A Gentle Introduction to Resampling Techniques]» (en anglès). [Consulta: 6 febrer 2024].