Mètodes bayesians variacionals

Els mètodes bayesians variacionals són una família de tècniques per aproximar integrals intractables que sorgeixen en la inferència bayesiana i l'aprenentatge automàtic. Normalment s'utilitzen en models estadístics complexos que consisteixen en variables observades (normalment anomenades "dades"), així com paràmetres desconeguts i variables latents, amb diversos tipus de relacions entre els tres tipus de variables aleatòries, tal com podria descriure's un model gràfic. Com és habitual en la inferència bayesiana, els paràmetres i les variables latents s'agrupen com a "variables no observades". Els mètodes bayesians variacionals s'utilitzen principalment amb dos propòsits: ^[1]

Proporcionar una aproximació analítica a la probabilitat posterior de les variables no observades, per tal de fer inferència estadística sobre aquestes variables.
Per derivar un límit inferior per a la probabilitat marginal (de vegades anomenada evidència ) de les dades observades (és a dir, la probabilitat marginal de les dades donades el model, amb la marginació realitzada sobre variables no observades). Normalment s'utilitza per dur a terme la selecció de models, la idea general és que una probabilitat marginal més alta per a un model determinat indica un millor ajust de les dades per part d'aquest model i, per tant, una major probabilitat que el model en qüestió sigui el que va generar les dades. (Vegeu també l'article del factor Bayes).^[2]
Model de barreja gaussiana bayesiana utilitzant la notació de plaques. Els quadrats més petits indiquen paràmetres fixos; cercles més grans indiquen variables aleatòries. Les formes emplenes indiquen valors coneguts. La indicació [K] significa un vector de mida K ; [ D, D ] significa una matriu de mida D × D ; K només significa una variable categòrica amb K resultats. La línia ondulada que prové de z que acaba en una barra transversal indica un interruptor : el valor d'aquesta variable selecciona, per a les altres variables entrants, quin valor s'ha d'utilitzar fora de la matriu K de valors possibles.

En el primer propòsit (el d'aproximar una probabilitat posterior), Bayes variacional és una alternativa als mètodes de mostreig de Montecarlo, en particular, els mètodes de Montecarlo de cadena de Markov com el mostreig de Gibbs, per adoptar un enfocament totalment bayesià de la inferència estadística sobre distribucions complexes que són difícil d'avaluar directament o amb mostra. En particular, mentre que les tècniques de Monte Carlo proporcionen una aproximació numèrica al posterior exacte mitjançant un conjunt de mostres, Bayes variacional proporciona una solució analítica exacta i òptima localment a una aproximació del posterior.^[3]

Bayes variacional es pot veure com una extensió de l'algorisme de maximització d'expectativa (EM) des de l'estimació a posteriori màxima (estimació MAP) del valor més probable únic de cada paràmetre fins a una estimació bayesiana completament que calcula (una aproximació a) tota la distribució posterior. dels paràmetres i variables latents. Com en EM, troba un conjunt de valors de paràmetres òptims, i té la mateixa estructura alterna que ho fa EM, basat en un conjunt d'equacions entrellaçades (mútuament dependents) que no es poden resoldre analíticament.

Per a moltes aplicacions, Bayes variacional produeix solucions de precisió comparable al mostreig de Gibbs a major velocitat. Tanmateix, derivar el conjunt d'equacions utilitzades per actualitzar els paràmetres de manera iterativa sovint requereix una gran quantitat de treball en comparació amb la derivació de les equacions de mostreig de Gibbs comparables. Aquest és el cas fins i tot de molts models conceptualment força simples, com es demostra a continuació en el cas d'un model bàsic no jeràrquic amb només dos paràmetres i sense variables latents.

Derivació matemàtica modifica

Problema modifica

En inferència variacional, la distribució posterior sobre un conjunt de variables no observades $\mathbf {Z} =\{Z_{1}\dots Z_{n}\}$ donat algunes dades $\mathbf {X}$ s'aproxima mitjançant l'anomenada distribució variacional, $Q(\mathbf {Z} ):$

$P(\mathbf {Z} \mid \mathbf {X} )\approx Q(\mathbf {Z} ).$

La distribució $Q(\mathbf {Z} )$ està restringit a pertànyer a una família de distribucions de forma més simple que $P(\mathbf {Z} \mid \mathbf {X} )$ (per exemple, una família de distribucions gaussianes), seleccionades amb la intenció de fer $Q(\mathbf {Z} )$ semblant a la veritable posterior, $P(\mathbf {Z} \mid \mathbf {X} )$ .

La semblança (o dissimilaritat) es mesura en termes d'una funció de dissimilaritat $d(Q;P)$ i per tant la inferència es realitza seleccionant la distribució $Q(\mathbf {Z} )$ que minimitza $d(Q;P)$ .^[4]

Most important points modifica

A causa de totes les manipulacions matemàtiques implicades, és fàcil perdre la pista del panorama general. Les coses importants són:

La idea de Bayes variacional és construir una aproximació analítica a la probabilitat posterior del conjunt de variables no observades (paràmetres i variables latents), donades les dades. Això vol dir que la forma de la solució és similar a la d'altres mètodes d'inferència bayesiana, com ara el mostreig de Gibbs, és a dir, una distribució que pretén descriure tot el que es coneix sobre les variables. Com en altres mètodes bayesians, però a diferència, per exemple, de la maximització de l'expectativa (EM) o altres mètodes de màxima probabilitat, tots dos tipus de variables no observades (és a dir, paràmetres i variables latents) es tracten igual, és a dir, com a variables aleatòries. Aleshores, les estimacions de les variables es poden derivar de les maneres bayesianes estàndard, per exemple calculant la mitjana de la distribució per obtenir una estimació puntual o derivant un interval creïble, regió de densitat més alta, etc.
"Aproximació analítica" significa que es pot escriure una fórmula per a la distribució posterior. La fórmula generalment consisteix en un producte de distribucions de probabilitat conegudes, cadascuna de les quals es factoritza sobre un conjunt de variables no observades (és a dir, és condicionalment independent de les altres variables, donades les dades observades). Aquesta fórmula no és la veritable distribució posterior, sinó una aproximació a aquesta; en particular, en general coincidirà bastant estretament en els moments més baixos de les variables no observades, per exemple, la mitjana i la variància.
El resultat de totes les manipulacions matemàtiques és (1) la identitat de les distribucions de probabilitat que componen els factors, i (2) fórmules mútuament dependents per als paràmetres d'aquestes distribucions. Els valors reals d'aquests paràmetres es calculen numèricament, mitjançant un procediment iteratiu alternatiu semblant a EM.

Referències modifica

↑ «Variational Bayesian methods» (en anglès). https://readthedocs.org.+[Consulta: 30 setembre 2023].
↑ «[https://www2.stat.duke.edu/~scs/Courses/Stat376/Papers/Variational/JaakkolaJordan2000.pdf Bayesian parameter estimation via variational methods]» (en anglès). https://www2.stat.duke.edu.+[Consulta: 30 setembre 2023].
↑ «A practical tutorial on Variational Bayes» (en anglès). https://arxiv.org.+[Consulta: 30 setembre 2023].
↑ «Variational Inference» (en anglès). https://www.cs.princeton.edu.+[Consulta: 30 setembre 2023].

[1] «Variational Bayesian methods» (en anglès). https://readthedocs.org.+[Consulta: 30 setembre 2023].

[2] «[https://www2.stat.duke.edu/~scs/Courses/Stat376/Papers/Variational/JaakkolaJordan2000.pdf Bayesian parameter estimation via variational methods]» (en anglès). https://www2.stat.duke.edu.+[Consulta: 30 setembre 2023].

[3] «A practical tutorial on Variational Bayes» (en anglès). https://arxiv.org.+[Consulta: 30 setembre 2023].

[4] «Variational Inference» (en anglès). https://www.cs.princeton.edu.+[Consulta: 30 setembre 2023].

[1]

[2]

[3]

[4]