Estimació de la densitat del nucli

és l'aplicació de suavització del nucli per a l'estimació de la densitat de probabilitat.

En estadística, l'estimació de la densitat del nucli (amb acrònim anglès KDE) és l'aplicació de suavització del nucli per a l'estimació de la densitat de probabilitat, és a dir, un mètode no paramètric per estimar la funció de densitat de probabilitat d'una variable aleatòria basada en nuclis com a pesos. KDE respon a un problema fonamental de suavització de dades on es fan inferències sobre la població, a partir d'una mostra de dades finita. En alguns camps com el processament del senyal i l'econometria també s'anomena mètode de la finestra Parzen–Rosenblatt, després d'Emanuel Parzen i Murray Rosenblatt, als quals se'ls atribueix normalment la creació independent en la seva forma actual.[1][2] Una de les famoses aplicacions de l'estimació de la densitat del nucli és en estimar les densitats marginals condicionals de classe de dades quan s'utilitza un classificador Bayes primari,[3][4] que pot millorar la seva precisió de predicció.[3]

Estimació de la densitat del nucli de 100 números aleatoris distribuïts normalment utilitzant diferents amplades de banda de suavització.

Definició modifica

Siguin (x 1, x ₂, ..., x n) mostres independents i distribuïdes de manera idèntica extretes d'alguna distribució univariada amb una densitat desconeguda ƒ en qualsevol punt x donat. Ens interessa estimar la forma d'aquesta funció ƒ. El seu estimador de densitat de nucli és

 

on K és el nucli —una funció no negativa— i h > 0 és un paràmetre de suavització anomenat ample de banda. Un nucli amb subíndex h s'anomena nucli escalat i es defineix com Kh(x) = 1/h K(x/h). Intuïtivament, es vol triar h tan petit com ho permetin les dades; tanmateix, sempre hi ha una compensació entre el biaix de l'estimador i la seva variància. L'elecció de l'ample de banda es discuteix amb més detall a continuació.

S'utilitzen habitualment una sèrie de funcions del nucli: uniforme, triangular, bipes, tripes, Epanechnikov, normal i altres. El nucli d'Epanechnikov és òptim en un sentit d'error quadrat mitjà,[5] encara que la pèrdua d'eficiència és petita per als nuclis enumerats anteriorment.[6] A causa de les seves propietats matemàtiques convenients, s'utilitza sovint el nucli normal, que significa K(x) = ϕ(x), on ϕ és la funció de densitat normal estàndard.

La construcció d'una estimació de la densitat del nucli troba interpretacions en camps fora de l'estimació de la densitat.[7] Per exemple, en termodinàmica, això és equivalent a la quantitat de calor generada quan els nuclis de calor (la solució fonamental de l'equació de calor) es col·loquen a cada punt de dades xi. S'utilitzen mètodes similars per construir operadors de Laplace discrets sobre núvols de punts per a l'aprenentatge múltiple (per exemple, mapa de difusió).

Referències modifica

  1. Rosenblatt, M. The Annals of Mathematical Statistics, 27, 3, 1956, pàg. 832–837. DOI: 10.1214/aoms/1177728190 [Consulta: free].
  2. Parzen, E. The Annals of Mathematical Statistics, 33, 3, 1962, pàg. 1065–1076. DOI: 10.1214/aoms/1177704472. JSTOR: 2237880 [Consulta: free].
  3. 3,0 3,1 Piryonesi S. Madeh; El-Diraby Tamer E. Journal of Transportation Engineering, Part B: Pavements, 146, 2, 01-06-2020, pàg. 04020022. DOI: 10.1061/JPEODX.0000175.
  4. Hastie, Trevor. The Elements of Statistical Learning : Data Mining, Inference, and Prediction : with 200 full-color illustrations (en anglès). Nova York: Springer, 2001. ISBN 0-387-95284-5. OCLC 46809224. 
  5. Epanechnikov, V.A. Theory of Probability and Its Applications, 14, 1969, pàg. 153–158. DOI: 10.1137/1114019.
  6. Wand, M.P. Kernel Smoothing (en anglès). Londres: Chapman & Hall/CRC, 1995. ISBN 978-0-412-55270-0. 
  7. «UQ eSpace» (en anglès). https://espace.library.uq.edu.au.+[Consulta: 27 febrer 2023].