Taxa d'aprenentatge

és un paràmetre d'ajust en un algorisme d'optimització que determina la mida del pas a cada iteració mentre es mou cap a un mínim d'una funció de pèrdua.

En l'aprenentatge automàtic i les estadístiques, la taxa d'aprenentatge és un paràmetre d'ajust en un algorisme d'optimització que determina la mida del pas a cada iteració mentre es mou cap a un mínim d'una funció de pèrdua.[1] Com que influeix fins a quin punt la informació recentment adquirida anul·la la informació antiga, representa metafòricament la velocitat a la qual "aprèn" un model d'aprenentatge automàtic. A la literatura de control adaptatiu, la taxa d'aprenentatge es coneix comunament com a guany.[2]

Gràfic de l'historial d'actuació en el repte de classificació ImageNet, agafant el millor resultat per equip i fins a un màxim de 10 inscripcions per any. El codi per recrear aquesta trama està disponible a https://gist.github.com/germank/a542f22be0dad004b18775a7976d1a0b.

En establir una taxa d'aprenentatge, hi ha un compromís entre la taxa de convergència i la superació. Tot i que la direcció de descens normalment es determina a partir del gradient de la funció de pèrdua, la taxa d'aprenentatge determina el gran que es fa un pas en aquesta direcció. Una taxa d'aprenentatge massa alta farà que l'aprenentatge salti per sobre dels mínims, però una taxa d'aprenentatge massa baixa trigarà massa a convergir o quedarà atrapada en un mínim local indesitjable.[3]

Per tal d'aconseguir una convergència més ràpida, evitar oscil·lacions i quedar atrapat en mínims locals indesitjables, la taxa d'aprenentatge sovint es varia durant l'entrenament, ja sigui d'acord amb un calendari de velocitat d'aprenentatge o utilitzant una taxa d'aprenentatge adaptativa.[4] La taxa d'aprenentatge i els seus ajustos també poden diferir per paràmetre, en aquest cas es tracta d'una matriu diagonal que es pot interpretar com una aproximació a la inversa de la matriu de Hess en el mètode de Newton.[5] La taxa d'aprenentatge està relacionada amb la longitud del pas determinada per una cerca de línia inexacta en mètodes quasi-Newton i algorismes d'optimització relacionats.[6][7]

Quan es realitzen cerques de línies, el submostreig de mini-lots (MBSS) afecta les característiques de la funció de pèrdua en la qual s'ha de resoldre la taxa d'aprenentatge.[8] El MBSS estàtic manté el mini-lot fixat al llarg d'una direcció de cerca, donant lloc a una funció de pèrdua suau al llarg de la direcció de cerca. El MBSS dinàmic actualitza el mini-lot a cada avaluació de la funció, donant lloc a una funció de pèrdua discontínua puntual al llarg de la direcció de cerca. Les cerques de línies que resolen de manera adaptativa les taxes d'aprenentatge de les funcions de pèrdua MBSS estàtiques inclouen la cerca de línia d'aproximació parabòlica (PAL). Les cerques de línies que resolen de manera adaptativa les taxes d'aprenentatge per a les funcions de pèrdua dinàmiques de MBSS inclouen cerques de línies probabilístiques, cerques de línies només de gradient (GOLS) [9] i aproximacions quadràtiques.

Referències modifica

  1. Murphy, Kevin P. Machine Learning: A Probabilistic Perspective (en anglès). Cambridge: MIT Press, 2012, p. 247. ISBN 978-0-262-01802-9. 
  2. Delyon, Bernard Unpublished Lecture Notes, 2000.
  3. Buduma, Nikhil. Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms (en anglès). O'Reilly, 2017, p. 21. ISBN 978-1-4919-2558-4. 
  4. Patterson, Josh. «Understanding Learning Rates». A: Deep Learning : A Practitioner's Approach (en anglès). O'Reilly, 2017, p. 258–263. ISBN 978-1-4919-1425-0. 
  5. An Overview of Gradient Descent Optimization Algorithms. 
  6. Nesterov, Y. Introductory Lectures on Convex Optimization: A Basic Course (en anglès). Boston: Kluwer, 2004, p. 25. ISBN 1-4020-7553-7. 
  7. Dixon, L. C. W.. «The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms». A: Numerical Methods for Non-linear Optimization (en anglès). Londres: Academic Press, 1972, p. 149–170. ISBN 0-12-455650-7. 
  8. Kafka, Dominic; Wilke, Daniel N. Information Sciences, 560, 2021, pàg. 235–255. arXiv: 1903.08552. DOI: 10.1016/j.ins.2021.01.005.
  9. Kafka, Dominic; Wilke, Daniel N. Journal of Global Optimization, 79, 2021, pàg. 111–152. arXiv: 2001.05113. DOI: 10.1007/s10898-020-00921-z.