Aprenentatge de reforç multiagent
L'aprenentatge de reforç multiagent (MARL) és un subcamp de l'aprenentatge de reforç. Se centra a estudiar el comportament de múltiples agents d'aprenentatge que conviuen en un entorn compartit. Cada agent està motivat per les seves pròpies recompenses i fa accions per promoure els seus propis interessos; en alguns entorns aquests interessos s'oposen als interessos d'altres agents, donant lloc a dinàmiques de grup complexes.[1]
L'aprenentatge de reforç multiagent està estretament relacionat amb la teoria de jocs i especialment amb els jocs repetits, així com amb els sistemes multiagent. El seu estudi combina la recerca d'algoritmes ideals que maximitzin les recompenses amb un conjunt de conceptes més sociològics. Mentre que la investigació en aprenentatge de reforç d'un sol agent es preocupa de trobar l'algoritme que obté el major nombre de punts per a un agent, la investigació en aprenentatge de reforç multiagent avalua i quantifica mètriques socials, com ara la cooperació, la reciprocitat, equitat, influència social, llengua i discriminació.[2]
Definició
modificaDe manera similar a l'aprenentatge de reforç d'un sol agent, l'aprenentatge de reforç multiagent es modela com una forma de procés de decisió de Màrkov (MDP). Per exemple,
- Un conjunt dels estats ambientals.
- Un conjunt d'accions per a cadascun dels agents .
- és la probabilitat de transició (en el moment ) de l'estat a sota acció conjunta .
- és la recompensa conjunta immediata després de la transició de a amb acció conjunta .
En entorns amb informació perfecta, com les partides d'escacs i Go, el MDP seria totalment observable. En entorns amb informació imperfecta, especialment en aplicacions del món real com els cotxes autònoms, cada agent accediria a una observació que només té part de la informació sobre l'estat actual. En l'entorn parcialment observable, el model bàsic és el joc estocàstic parcialment observable en el cas general, i el POMDP descentralitzat en el cas cooperatiu.[3]
Cooperació vs. competència
modificaQuan diversos agents actuen en un entorn compartit, els seus interessos poden estar alineats o desajustats. MARL permet explorar totes les diferents alineacions i com afecten el comportament dels agents:
- En els entorns de competició pura, les recompenses dels agents són exactament oposades entre elles i, per tant, juguen entre elles.
- Els paràmetres de cooperació pura són l'altre extrem, en què els agents obtenen exactament les mateixes recompenses i, per tant, juguen entre ells.
- La configuració de suma mixta cobreix tots els jocs que combinen elements tant de cooperació com de competició.[4]
Aplicacions
modificaL'aprenentatge de reforç multiagent s'ha aplicat a una varietat de casos d'ús en ciència i indústria:
- Xarxes cel·lulars de banda ampla com ara 5G
- Emmagatzematge en memòria cau de contingut
- Encaminament de paquets
- Visió per computador
- Seguretat de la xarxa
- Transmissió de control de potència
- Descàrrega de càlculs
- Investigació de l'evolució del llenguatge
- Salut global
- Disseny de circuits integrats
- Internet de les coses
- Gestió energètica de microxarxes
- Control multicàmera
- Vehicles autònoms
- Analítica esportiva
- Control de trànsit (mesura de rampes)
- Vehicles aeris no tripulats
- Conservació de la fauna
Referències
modifica- ↑ «Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms». [Consulta: 8 octubre 2023].
- ↑ Buşoniu, Lucian; Babuška, Robert; De Schutter, Bart. Multi-agent Reinforcement Learning: An Overview (en anglès). Berlin, Heidelberg: Springer, 2010, p. 183–221. DOI 10.1007/978-3-642-14435-6_7. ISBN 978-3-642-14435-6.
- ↑ «Papers with Code - Multi-agent Reinforcement Learning» (en anglès). [Consulta: 8 octubre 2023].
- ↑ «RL/Multi-Agent RL | Zongqing's Homepage» (en anglès). https://z0ngqing.github.io.+[Consulta: 8 octubre 2023].