Informació de Fisher

En estadística matemàtica, la informació de Fisher (de vegades anomenada simplement informació) és una manera de mesurar la quantitat d' informació que porta una variable aleatòria observable X sobre un paràmetre θ desconegut d'una distribució que modela X. Formalment, és la variància de la puntuació, o el valor esperat de la informació observada.

El paper de la informació de Fisher en la teoria asimptòtica de l'estimació de màxima versemblança va ser emfatitzat i explorat per l'estadístic Sir Ronald Fisher (després d'alguns resultats inicials de Francis Ysidro Edgeworth). La matriu d'informació de Fisher s'utilitza per calcular les matrius de covariància associades a les estimacions de màxima probabilitat. També es pot utilitzar en la formulació d'estadístiques de prova, com ara la prova de Wald.

En l'estadística bayesiana, la informació de Fisher juga un paper en la derivació de distribucions prèvies no informatives segons la regla de Jeffreys. ^[1] També apareix com la covariància de mostra gran de la distribució posterior, sempre que l'a priori sigui prou suau (resultat conegut com a teorema de Bernstein-von Mises, que Laplace va anticipar per a famílies exponencials). ^[2] El mateix resultat s'utilitza quan s'aproxima el posterior amb l'aproximació de Laplace, on la informació de Fisher apareix com la covariància del gaussià ajustat. ^[3]

S'ha demostrat que els sistemes estadístics de caràcter científic (físic, biològic, etc.) les funcions de versemblança dels quals obeeixen a la invariància de canvi obeeixen a la màxima informació de Fisher. El nivell del màxim depèn de la naturalesa de les restriccions del sistema.

Definició

La informació de Fisher és una manera de mesurar la quantitat d'informació que una variable aleatòria observable $X$ comporta un paràmetre desconegut $\theta$ sobre la qual la probabilitat de $X$ depèn. Deixar $f(X;\theta )$ sigui la funció de densitat de probabilitat (o funció de massa de probabilitat) per a $X$ condicionat al valor de $\theta$ . Descriu la probabilitat que observem un resultat determinat $X$ , donat un valor conegut de $\theta$ . Si $f$ està marcadament màxim respecte als canvis en $\theta$ , és fàcil indicar el valor "correcte" de $\theta$ a partir de les dades, o equivalent, que les dades $X$ proporciona molta informació sobre el paràmetre $\theta$ . Si $f$ és pla i estesa, llavors es necessitarien moltes mostres $X$ per estimar el valor "vertader" real de $\theta$ que s'obtindrien utilitzant tota la població que es mostra. Això suggereix estudiar algun tipus de variància respecte a $\theta$ .

Formalment, la derivada parcial respecte a $\theta$ del logaritme natural de la funció de versemblança s'anomena puntuació. En determinades condicions de regularitat, si $\theta$ és el paràmetre real (és a dir $X$ en realitat es distribueix com $f(X;\theta )$ ), es pot demostrar que el valor esperat (el primer moment) de la puntuació, avaluat al valor del paràmetre real $\theta$ , és 0: ^[4]

${\begin{aligned}\operatorname {E} \left[\left.{\frac {\partial }{\partial \theta }}\log f(X;\theta )\,\,\right|\,\,\theta \right]={}&\int _{\mathbb {R} }{\frac {{\frac {\partial }{\partial \theta }}f(x;\theta )}{f(x;\theta )}}f(x;\theta )\,dx\\[6pt]={}&{\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx\\[6pt]={}&{\frac {\partial }{\partial \theta }}1\\[6pt]={}&0.\end{aligned}}$

La informació de Fisher es defineix com la variància de la puntuació:

${\mathcal {I}}(\theta )=\operatorname {E} \left[\left.\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}\,\,\right|\,\,\theta \right]=\int _{\mathbb {R} }\left({\frac {\partial }{\partial \theta }}\log f(x;\theta )\right)^{2}f(x;\theta )\,dx,$

Tingues en compte que ${\mathcal {I}}(\theta )\geq 0$ . Una variable aleatòria que porta informació de Fisher alta implica que el valor absolut de la puntuació sovint és alt. La informació de Fisher no és una funció d'una observació particular, ja que s'ha promediat la variable aleatòria X.

Si log f(x; θ) és dues vegades diferenciable respecte a θ, i sota determinades condicions de regularitat, llavors la informació de Fisher també es pot escriure com

${\mathcal {I}}(\theta )=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )\,\,\right|\,\,\theta \right],$

des que

${\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {{\frac {\partial }{\partial \theta }}f(X;\theta )}{f(X;\theta )}}\right)^{2}={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}$

i

$\operatorname {E} \left[\left.{\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}\,\,\right|\,\,\theta \right]={\frac {\partial ^{2}}{\partial \theta ^{2}}}\int _{\mathbb {R} }f(x;\theta )\,dx=0.$

Així, la informació de Fisher es pot veure com la curvatura de la corba de suport (el gràfic de la probabilitat logarítmica). A prop de l'estimació de la màxima probabilitat, la informació de Fisher baixa indica, per tant, que el màxim sembla "semblant", és a dir, el màxim és poc profund i hi ha molts valors propers amb una probabilitat logarítmica similar. Per contra, la informació de Fisher alta indica que el màxim és nítid.

Referències

↑ Robert, Christian. «Noninformative prior distributions». A: The Bayesian Choice (en anglès). 2nd. Springer, 2007, p. 127–141. ISBN 978-0-387-71598-8.
↑ Le Cam, Lucien. Asymptotic Methods in Statistical Decision Theory (en anglès). New York: Springer, 1986, p. 618–621. ISBN 0-387-96307-3.
↑ Kass, Robert E. «The Validity of Posterior Expansions Based on Laplace's Method». A: Geisser. Bayesian and Likelihood Methods in Statistics and Econometrics (en anglès). Elsevier, 1990, p. 473–488. ISBN 0-444-88376-2.
↑ Suba Rao. «Lectures on statistical inference» (en anglès). Arxivat de l'original el 2020-09-26. [Consulta: 12 abril 2013].

[1] Robert, Christian. «Noninformative prior distributions». A: The Bayesian Choice (en anglès). 2nd. Springer, 2007, p. 127–141. ISBN 978-0-387-71598-8.

[2] Le Cam, Lucien. Asymptotic Methods in Statistical Decision Theory (en anglès). New York: Springer, 1986, p. 618–621. ISBN 0-387-96307-3.

[3] Kass, Robert E. «The Validity of Posterior Expansions Based on Laplace's Method». A: Geisser. Bayesian and Likelihood Methods in Statistics and Econometrics (en anglès). Elsevier, 1990, p. 473–488. ISBN 0-444-88376-2.

[SubaRao-4] Suba Rao. «Lectures on statistical inference» (en anglès). Arxivat de l'original el 2020-09-26. [Consulta: 12 abril 2013].

[1]

[2]

[3]

[4]