Aprenentatge per reforç: diferència entre les revisions

Contingut suprimit Contingut afegit
m neteja i estandardització de codi
Afegida referència.
Línia 82:
* {{citar ref |cognom = Dayan |nom = Peter |cognom2 = Yael |nom2 = Niv |article = Reinforcement learning: the good, the bad and the ugly. |publicació = Current opinion in neurobiology |data = 2008 |pàgines = 12 |consulta = 23 febrer 2020}}
* {{citar ref |cognom = François-Lavet |nom = Vincent |coautors = Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle |títol = An Introduction to Deep Reinforcement Learning |editorial = Foundations and Trends in Machine Learning: Vol. 11, No. 3-4 |lloc = Boston - Delft |data = 2018 |pàgines = 106 |url = https://arxiv.org/pdf/1811.12560.pdf |consulta = 15 agost 2019 |doi = 10.1561/2200000071}}
* {{citar ref |cognom = Graesser |nom = Laura |cognom2 = Loon Keng |nom2 = Wah |títol = Foundations of Deep Reinforcement Learning. Theory and Practice in Python |editorial = Pearson Addison-Wesley |data = 2020 |pàgines = 379 |consulta = 10 juliol 2020 |isbn = 978-0-13-517238-4}}
* {{citar ref |cognom = Izquierdo |nom = L.R. |cognom2 = Izquierdo |nom2 = S.S. |títol = Reinforcement Learning |editor = Encyclopedia of the Sciences of Learning. Springer. |data = 2012 |url = https://link.springer.com/referenceworkentry/10.1007%2F978-1-4419-1428-6_567 |consulta = 26 desembre 2019 }}
* {{citar ref |cognom = Kaelbling |nom = Leaslie Pack |cognom2 = Littman |nom2 = Michael L. |cognom3 = Moore |nom3 = Andrew W. |article = Reinforcement Learning: A Survey |publicació = Journal of Artificial Intelligence Research 4 |data = 1996 |pàgines = 237-285 |consulta = 24 febrer 2020}}