Divergència Jensen-Shannon

En teoria i estadística de probabilitats, la divergència Jensen-Shannon és un mètode per mesurar la similitud entre dues distribucions de probabilitat. També es coneix com a radi d'informació (IRad) ^[1]^[2] o divergència total a la mitjana.^[3] Es basa en la divergència Kullback-Leibler, amb algunes diferències notables (i útils), inclòs que és simètrica i sempre té un valor finit. L'arrel quadrada de la divergència Jensen-Shannon és una mètrica que sovint es coneix com a distància Jensen-Shannon.^[4]^[5]^[6]

Definició

Considereu el conjunt $M_{+}^{1}(A)$ de distribucions de probabilitat on $A$ és un conjunt proveït d'alguna σ-àlgebra de subconjunts mesurables. En particular podem prendre $A$ per ser un conjunt finit o comptable amb tots els subconjunts mesurables.

La divergència Jensen-Shannon (JSD) és una versió simètrica i suavitzada de la divergència Kullback-Leibler $D(P\parallel Q)$ . Es defineix per

${\rm {JSD}}(P\parallel Q)={\frac {1}{2}}D(P\parallel M)+{\frac {1}{2}}D(Q\parallel M),$

on $M={\frac {1}{2}}(P+Q)$ és una distribució de barreja de $P$ i $Q$ .

La divergència geomètrica de Jensen–Shannon ^[7] (o divergència G-Jensen–Shannon) produeix una fórmula de forma tancada per a la divergència entre dues distribucions gaussianas prenent la mitjana geomètrica.

Una definició més general, que permet la comparació de més de dues distribucions de probabilitat, és:

${\begin{aligned}{\rm {JSD}}_{\pi _{1},\ldots ,\pi _{n}}(P_{1},P_{2},\ldots ,P_{n})&=\sum _{i}\pi _{i}D(P_{i}\parallel M)\\&=H\left(M\right)-\sum _{i=1}^{n}\pi _{i}H(P_{i})\end{aligned}}$

on

${\begin{aligned}M&:=\sum _{i=1}^{n}\pi _{i}P_{i}\end{aligned}}$

i $\pi _{1},\ldots ,\pi _{n}$ són pesos que es seleccionen per a les distribucions de probabilitat $P_{1},P_{2},\ldots ,P_{n}$ , i $H(P)$ és l'entropia de Shannon per a la distribució $P$ . Per al cas de dues distribucions descrit anteriorment,

$P_{1}=P,P_{2}=Q,\pi _{1}=\pi _{2}={\frac {1}{2}}.\$

Per tant, per a aquestes distribucions $P,Q$

$JSD=H(M)-{\frac {1}{2}}{\bigg (}H(P)+H(Q){\bigg )}$

Aplicacions

La divergència Jensen-Shannon s'ha aplicat en bioinformàtica i comparació del genoma, en comparació de superfícies de proteïnes, en ciències socials, en l'estudi quantitatiu de la història, en experiments de foc,^[8] i en l'aprenentatge automàtic.

Referències

↑ Frank Nielsen Entropy, 23, 2021, pàg. 464. DOI: 10.3390/e21050485. PMC: 7514974. PMID: 33267199 [Consulta: lliure].
↑ Hinrich Schütze. Foundations of Statistical Natural Language Processing (en anglès). Cambridge, Mass: MIT Press, 1999, p. 304. ISBN 978-0-262-13360-9.
↑ Dagan, Ido; Lillian Lee; Fernando Pereira Proceedings of the Thirty-Fifth Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997, pàg. 56–63. arXiv: cmp-lg/9708010. Bibcode: 1997cmp.lg....8010D. DOI: 10.3115/979617.979625 [Consulta: 9 març 2008].
↑ Endres, D. M.; J. E. Schindelin IEEE Trans. Inf. Theory, 49, 7, 2003, pàg. 1858–1860. DOI: 10.1109/TIT.2003.813506.
↑ Ôsterreicher, F.; I. Vajda Ann. Inst. Statist. Math., 55, 3, 2003, pàg. 639–653. DOI: 10.1007/BF02517812.
↑ Fuglede, B. «Jensen-Shannon divergence and Hilbert space embedding». A: Proceedings of the International Symposium on Information Theory, 2004 (en anglès). IEEE, 2004, p. 30. DOI 10.1109/ISIT.2004.1365067. ISBN 978-0-7803-8280-0.
↑ Frank Nielsen Entropy, 21, 2019, pàg. 485. arXiv: 1904.04017. Bibcode: 2019Entrp..21..485N. DOI: 10.3390/e21050485. PMC: 7514974. PMID: 33267199 [Consulta: lliure].
↑ Flavia-Corina Mitroi-Symeonidis; Ion Anghel; Nicuşor Minculete Symmetry, 12, 1, 2020, pàg. 22. DOI: 10.3390/sym12010022 [Consulta: free].

[1] Frank Nielsen Entropy, 23, 2021, pàg. 464. DOI: 10.3390/e21050485. PMC: 7514974. PMID: 33267199 [Consulta: lliure].

[2] Hinrich Schütze. Foundations of Statistical Natural Language Processing (en anglès). Cambridge, Mass: MIT Press, 1999, p. 304. ISBN 978-0-262-13360-9.

[3] Dagan, Ido; Lillian Lee; Fernando Pereira Proceedings of the Thirty-Fifth Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997, pàg. 56–63. arXiv: cmp-lg/9708010. Bibcode: 1997cmp.lg....8010D. DOI: 10.3115/979617.979625 [Consulta: 9 març 2008].

[4] Endres, D. M.; J. E. Schindelin IEEE Trans. Inf. Theory, 49, 7, 2003, pàg. 1858–1860. DOI: 10.1109/TIT.2003.813506.

[5] Ôsterreicher, F.; I. Vajda Ann. Inst. Statist. Math., 55, 3, 2003, pàg. 639–653. DOI: 10.1007/BF02517812.

[6] Fuglede, B. «Jensen-Shannon divergence and Hilbert space embedding». A: Proceedings of the International Symposium on Information Theory, 2004 (en anglès). IEEE, 2004, p. 30. DOI 10.1109/ISIT.2004.1365067. ISBN 978-0-7803-8280-0.

[7] Frank Nielsen Entropy, 21, 2019, pàg. 485. arXiv: 1904.04017. Bibcode: 2019Entrp..21..485N. DOI: 10.3390/e21050485. PMC: 7514974. PMID: 33267199 [Consulta: lliure].

[8] Flavia-Corina Mitroi-Symeonidis; Ion Anghel; Nicuşor Minculete Symmetry, 12, 1, 2020, pàg. 22. DOI: 10.3390/sym12010022 [Consulta: free].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]