Aprenentatge per imitació

En intel·ligència artificial, l'aprenentatge per imitació (o aprenentatge de demostració o aprenentatge per observació) és el procés d'aprenentatge mitjançant l'observació d'un expert.^[1] Es pot veure com una forma d'aprenentatge supervisat, on el conjunt de dades de formació consisteix en l'execució de tasques per part d'un professor de demostració.^[1]

Enfocament de la funció de mapeig modifica

Els mètodes de mapeig intenten imitar l'expert formant un mapeig directe d'estats a accions,^[2] o d'estats per recompensar els valors. Per exemple, l'any 2002 els investigadors van utilitzar aquest enfocament per ensenyar a un robot AIBO les habilitats bàsiques de futbol.^[2]

Enfocament d'aprenentatge de reforç invers modifica

L'aprenentatge de reforç invers (IRL) és el procés de derivar una funció de recompensa a partir del comportament observat. Mentre que l'"aprenentatge de reforç" ordinari implica l'ús de recompenses i càstigs per aprendre el comportament, a IRL la direcció s'inverteix i un robot observa el comportament d'una persona per esbrinar quin objectiu sembla que intenta aconseguir aquest comportament. El problema IRL es pot definir com: ^[3]

Donades 1) mesures del comportament d'un agent al llarg del temps, en una varietat de circumstàncies; 2) mesures de les entrades sensorials a aquest agent; 3) un model de l'entorn físic (inclòs el cos de l'agent): determineu la funció de recompensa que l'agent està optimitzant.

L'investigador de l'IRL Stuart J. Russell proposa que l'IRL es podria utilitzar per observar humans i intentar codificar els seus complexos "valors ètics", en un esforç per crear "robots ètics" que algun dia sabrien "no cuinar el vostre gat" sense necessitat de ser-ho. explicat explícitament. L'escenari es pot modelar com un "joc cooperatiu d'aprenentatge de reforç invers", on un jugador "persona" i un jugador "robot" cooperen per assegurar els objectius implícits de la persona, tot i que aquests objectius no els coneixen explícitament ni la persona ni el robot.

L'aprenentatge mitjançant l'aprenentatge de reforç invers (AIRP) va ser desenvolupat l'any 2004 per Pieter Abbeel, professor del departament d'EE CS de Berkeley, i Andrew Ng, professor associat al Departament d'informàtica de la Universitat de Stanford. AIRP tracta del "procés de decisió de Markov on no se'ns dóna explícitament una funció de recompensa, sinó on podem observar un expert que demostra la tasca que volem aprendre a realitzar". AIRP s'ha utilitzat per modelar funcions de recompensa d'escenaris altament dinàmics on no hi ha una funció de recompensa òbvia de manera intuïtiva. Prenem per exemple la tasca de conduir, hi ha molts objectius diferents que funcionen simultàniament, com ara mantenir una distància de seguretat de seguiment, una bona velocitat, no canviar de carril massa sovint, etc. Aquesta tasca pot semblar fàcil a primera vista, però una funció de recompensa trivial pot no convergir a la política desitjada.

Enfocament del pla modifica

El sistema aprèn regles per associar condicions prèvies i postcondicions amb cada acció. En una demostració de 1994, un humanoide aprèn un pla generalitzat només a partir de dues demostracions d'una tasca repetitiva de recollida de boles.^[4]

Exemple modifica

L'aprenentatge de la demostració sovint s'explica des d'una perspectiva que el sistema de control del robot està disponible i el demostrador humà l'està utilitzant. I de fet, si el programari funciona, l'operador humà agafa el braç del robot, fa un moviment amb ell i el robot reproduirà l'acció més tard. Per exemple, ensenya al braç robot com posar una tassa sota una cafetera i prémer el botó d'inici. En la fase de repetició, el robot està imitant aquest comportament 1:1. Però no és així com funciona el sistema internament; és només el que el públic pot observar. En realitat, aprendre de la demostració és molt més complex. Un dels primers treballs sobre l'aprenentatge dels aprenents de robots (robots antropomòrfics que aprenen per imitació) va ser la tesi doctoral d'Adrián Stoica l'any 1995.

Referències modifica

↑ ^1,0 ^1,1 Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett Robotics and Autonomous Systems, 57, 5, maig 2009, pàg. 469–483. DOI: 10.1016/j.robot.2008.10.024.
↑ ^2,0 ^2,1 Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett Robotics and Autonomous Systems, 57, 5, maig 2009, pàg. 469–483. DOI: 10.1016/j.robot.2008.10.024.
↑ Russell, Stuart. «Learning agents for uncertain environments». A: Proceedings of the eleventh annual conference on Computational learning theory (en anglès), 1998, p. 101–103. DOI 10.1145/279943.279964.
↑ Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett Robotics and Autonomous Systems, 57, 5, maig 2009, pàg. 469–483. DOI: 10.1016/j.robot.2008.10.024.

[survey-1] 1,0 ^1,1 Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett Robotics and Autonomous Systems, 57, 5, maig 2009, pàg. 469–483. DOI: 10.1016/j.robot.2008.10.024.

[survey2-2] 2,0 ^2,1 Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett Robotics and Autonomous Systems, 57, 5, maig 2009, pàg. 469–483. DOI: 10.1016/j.robot.2008.10.024.

[russell1998learning-3] Russell, Stuart. «Learning agents for uncertain environments». A: Proceedings of the eleventh annual conference on Computational learning theory (en anglès), 1998, p. 101–103. DOI 10.1145/279943.279964.

[survey3-4] Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett Robotics and Autonomous Systems, 57, 5, maig 2009, pàg. 469–483. DOI: 10.1016/j.robot.2008.10.024.

[1]

[2]

[3]

[4]