Divergència Kullback-Leibler

En estadístiques matemàtiques, la divergència de Kullback-Leibler (KL) (també anomenada entropia relativa i divergència I ^[1]), denotada $D_{\text{KL}}(P\parallel Q)$ , és un tipus de distància estadística: una mesura de com una distribució de probabilitat $P$ és diferent d'una segona distribució de probabilitat de referència $Q$ .^[2] Una interpretació senzilla de la divergència KL de $P$ de $Q$ és l'excés de sorpresa esperat per utilitzar $Q$ com a model quan la distribució real és $P$ . Tot i que és una mesura de com de diferents són dues distribucions, i en cert sentit és, per tant, una "distància", en realitat no és una mètrica, que és el tipus de distància més familiar i formal. En particular, no és simètric en les dues distribucions (a diferència de la variació de la informació), i no satisfà la desigualtat del triangle. En canvi, pel que fa a la geometria de la informació, és un tipus de divergència, una generalització de la distància al quadrat, i per a determinades classes de distribucions (sobretot una família exponencial), satisfà un teorema de Pitàgores generalitzat (que s'aplica a distàncies quadrades).

Il·lustració de l'entropia relativa per a dues distribucions normals. La típica asimetria és clarament visible.

En el cas simple, una entropia relativa de 0 indica que les dues distribucions en qüestió tenen quantitats d'informació idèntiques. L'entropia relativa és una funció no negativa de dues distribucions o mesures. Té diverses aplicacions, tant teòriques, com ara caracteritzar l'entropia relativa (Shannon) en sistemes d'informació, aleatorietat en sèries temporals contínues i guany d'informació en comparar models estadístics d'inferència; i pràctics, com l'estadística aplicada, la mecànica de fluids, la neurociència i la bioinformàtica.

Introducció i context

Considereu dues distribucions de probabilitat $P$ i $Q$ . Normalment, $P$ representa les dades, les observacions o una distribució de probabilitat mesurada. La distribució $Q$ representa en canvi una teoria, un model, una descripció o una aproximació de $P$ . La divergència Kullback-Leibler $D_{\text{KL}}(P\parallel Q)$ Aleshores s'interpreta com la diferència mitjana del nombre de bits necessaris per codificar mostres de $P$ utilitzant un codi optimitzat per $Q$ en lloc d'un optimitzat per $P$ Tingueu en compte que els rols de $P$ i $Q$ es poden invertir en algunes situacions en què això és més fàcil de calcular, com ara amb l'algorisme d'expectativa-maximització (EM) i els càlculs de límit inferior de l'evidència (ELBO).

Etimologia

L'entropia relativa va ser introduïda per Solomon Kullback i Richard Leibler a Kullback & Leibler (1951) com "la informació mitjana per a la discriminació entre $H_{1}$ i $H_{2}$ per observació de $\mu _{1}$ ", on s'està comparant dues mesures de probabilitat $\mu _{1},\mu _{2}$ , i $H_{1},H_{2}$ són les hipòtesis que s'està seleccionant a partir de la mesura $\mu _{1},\mu _{2}$ (respectivament). Ho van indicar per $I(1:2)$ , i va definir la "'divergència' entre $\mu _{1}$ i $\mu _{2}$ " com la quantitat simetritzada $J(1,2)=I(1:2)+I(2:1)$ , que ja havia estat definit i utilitzat per Harold Jeffreys el 1948.^[3] A Kullback (1959), la forma simètrica torna a ser referida com a "divergència", i les entropies relatives en cada direcció es refereixen com a "divergències dirigides" entre dues distribucions; Kullback va preferir el terme informació de discriminació.^[4] El terme "divergència" contrasta amb una distància (mètrica), ja que la divergència simètrica no satisfà la desigualtat del triangle.^[5] Kullback (1959). La "divergència dirigida" asimètrica s'ha conegut com la divergència Kullback-Leibler, mentre que la "divergència" simètrica es coneix ara com la divergència de Jeffreys.

Definició

Per a distribucions de probabilitat discretes $P$ i $Q$ definides en el mateix espai mostral, $\ {\mathcal {X}}\ ,$ l'entropia relativa de $Q$ a $P$ es defineix ^[6] com a

$D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ P(x)\ }{Q(x)}}\right)\ ,$

que equival a

$D_{\text{KL}}(P\parallel Q)=-\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ Q(x)\ }{P(x)}}\right)~.$

En altres paraules, és l'expectativa de la diferència logarítmica entre les probabilitats $P$ i $Q$ , on l'expectativa es pren utilitzant les probabilitats $P$ .

Referències

↑ Csiszar, I Ann. Probab., 3, 1, 2-1975, pàg. 146–158. DOI: 10.1214/aop/1176996454 [Consulta: lliure].
↑ Kullback, S.; Leibler, R.A. Annals of Mathematical Statistics, 22, 1, 1951, pàg. 79–86. DOI: 10.1214/aoms/1177729694. JSTOR: 2236703 [Consulta: lliure].
↑ Jeffreys, 1948, p. 158.
↑ Kullback, S. The American Statistician, 41, 4, 1987, pàg. 340–341. DOI: 10.1080/00031305.1987.10475510. JSTOR: 2684769.
↑ Kullback, 1959, p. 6.
↑ MacKay, David J.C.. [Divergència Kullback-Leibler a Google Books Information Theory, Inference, and Learning Algorithms] (en anglès). 1st. Cambridge University Press, 2003, p. 34. ISBN 9780521642989.

[Csiszar-1] Csiszar, I Ann. Probab., 3, 1, 2-1975, pàg. 146–158. DOI: 10.1214/aop/1176996454 [Consulta: lliure].

[KullbackLeibler1951-2] Kullback, S.; Leibler, R.A. Annals of Mathematical Statistics, 22, 1, 1951, pàg. 79–86. DOI: 10.1214/aoms/1177729694. JSTOR: 2236703 [Consulta: lliure].

[FOOTNOTEJeffreys1948158-3] Jeffreys, 1948, p. 158.

[Kullback1987-4] Kullback, S. The American Statistician, 41, 4, 1987, pàg. 340–341. DOI: 10.1080/00031305.1987.10475510. JSTOR: 2684769.

[FOOTNOTEKullback19596-5] Kullback, 1959, p. 6.

[MacKey2003-6] MacKay, David J.C.. [Divergència Kullback-Leibler a Google Books Information Theory, Inference, and Learning Algorithms] (en anglès). 1st. Cambridge University Press, 2003, p. 34. ISBN 9780521642989.

[1]

[2]

[3]

[4]

[5]

[6]