Procés gaussià de xarxa neuronal

són equivalents a les xarxes neuronals bayesianes en un límit particular.

Les xarxes bayesianes són una eina de modelització per assignar probabilitats als esdeveniments i, per tant, caracteritzar la incertesa en les prediccions d'un model. L'aprenentatge profund i les xarxes neuronals artificials són enfocaments utilitzats en l'aprenentatge automàtic per construir models computacionals que aprenen a partir d'exemples d'entrenament. Les xarxes neuronals bayesianes fusionen aquests camps. Són un tipus de xarxa neuronal artificial els paràmetres i prediccions de la qual són probabilistes.[1][2] Mentre que les xarxes neuronals artificials estàndard solen assignar una alta confiança fins i tot a prediccions incorrectes,[3] les xarxes neuronals bayesianes poden avaluar amb més precisió la probabilitat que les seves prediccions siguin correctes.

Esquerra: una xarxa neuronal bayesiana amb dues capes amagades, transformant una entrada tridimensional (inferior) en una sortida bidimensional (y1,y2) (superior). Dreta: funció de densitat de probabilitat de sortida p(y1,y2) induït pels pesos aleatoris de la xarxa. Vídeo: a mesura que augmenta l'amplada de la xarxa, la distribució de sortida es simplifica, i finalment convergeix a una normal multivariant en el límit d'amplada infinita.

Els processos gaussians de xarxes neuronals (NNGP) són equivalents a les xarxes neuronals bayesianes en un límit particular, [4][5][6][7][8][9] i proporcionen una forma tancada manera d'avaluar les xarxes neuronals bayesianes. Són una distribució de probabilitat de procés gaussià que descriu la distribució sobre les prediccions fetes per la xarxa neuronal bayesiana corresponent. La computació en xarxes neuronals artificials s'organitza normalment en capes seqüencials de neurones artificials. El nombre de neurones d'una capa s'anomena amplada de la capa. L'equivalència entre els NNGP i les xarxes neuronals bayesianes es produeix quan les capes d'una xarxa neuronal bayesiana es fan infinitament amples (vegeu la figura). Aquest límit d'amplada gran és d'interès pràctic, ja que les xarxes neuronals d'amplada finita solen tenir un rendiment estrictament millor a mesura que augmenta l'amplada de la capa.[10][11][7] [12]

El NNGP també apareix en diversos altres contextos: descriu la distribució sobre prediccions fetes per amplies xarxes neuronals artificials no bayesianes després de la inicialització aleatòria dels seus paràmetres, però abans de l'entrenament; apareix com un terme en les equacions de predicció del nucli tangent neural; s'utilitza en la propagació d'informació profunda per caracteritzar si els hiperparàmetres i les arquitectures seran entrenables.[13] Està relacionat amb altres límits d'amplada gran de les xarxes neuronals.

Biblioteques de programari

modifica

Neural Tangents és una biblioteca de Python gratuïta i de codi obert que s'utilitza per calcular i fer inferència amb el NNGP i el nucli de tangents neuronals corresponents a diverses arquitectures ANN comunes.

Referències

modifica
  1. MacKay, David J. C. «"A Practical Bayesian Framework for Backpropagation Networks"». Neural Computation, 4, 3, 1992, pàg. 448–472. DOI: 10.1162/neco.1992.4.3.448. ISSN: 0899-7667.
  2. Neal, Radford M. Bayesian Learning for Neural Networks (en anglès). EUA: Springer Science and Business Media, 2012. 
  3. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. «"On calibration of modern neural networks"». Proceedings of the 34th International Conference on Machine Learning-Volume 70, 2017. arXiv: 1706.04599.
  4. Williams, Christopher K. I. «"Computing with infinite networks"». Neural Information Processing Systems, 1997.
  5. Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey «"Deep Neural Networks as Gaussian Processes"». International Conference on Learning Representations, 2017. arXiv: 1711.00165. Bibcode: 2017arXiv171100165L.
  6. G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin «"Gaussian Process Behaviour in Wide Deep Neural Networks"». International Conference on Learning Representations, 2017. arXiv: 1804.11271. Bibcode: 2018arXiv180411271M.
  7. 7,0 7,1 Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg «"Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes"». International Conference on Learning Representations, 2018. arXiv: 1810.05148. Bibcode: 2018arXiv181005148N.
  8. Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward «"Deep Convolutional Networks as shallow Gaussian Processes"». International Conference on Learning Representations, 2018. arXiv: 1808.05587. Bibcode: 2018arXiv180805587G.
  9. Yang, Greg «"Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes"». Advances in Neural Information Processing Systems, 2019. arXiv: 1910.12478. Bibcode: 2019arXiv191012478Y.
  10. Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha «"Sensitivity and Generalization in Neural Networks: an Empirical Study"». International Conference on Learning Representations, 15-02-2018. arXiv: 1802.08760. Bibcode: 2018arXiv180208760N.
  11. Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio "An Analysis of Deep Neural Network Models for Practical Applications, 04-11-2016. arXiv: 1605.07678. Bibcode: 2016arXiv160507678C.
  12. Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan «"Towards understanding the role of over-parametrization in generalization of neural networks".». International Conference on Learning Representations, 2019. arXiv: 1805.12076. Bibcode: 2018arXiv180512076N.
  13. Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha International Conference on Learning Representations, 2016. arXiv: 1611.01232.