Mètodes d'aprenentatge de gradient proximal

Els mètodes d'aprenentatge de gradient proximal (divisió cap endavant cap enrere) són una àrea d'investigació en l'optimització i la teoria de l'aprenentatge estadístic que estudia algorismes per a una classe general de problemes de regularització convex on la penalització de regularització pot no ser diferenciable. Un d'aquests exemples és $\ell _{1}$ regularització (també coneguda com Lasso) de la forma

$\min _{w\in \mathbb {R} ^{d}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-\langle w,x_{i}\rangle )^{2}+\lambda \|w\|_{1},\quad {\text{ on }}x_{i}\in \mathbb {R} ^{d}{\text{ i }}y_{i}\in \mathbb {R} .$

Els mètodes de gradient proximal ofereixen un marc general per resoldre problemes de regularització a partir de la teoria de l'aprenentatge estadístic amb penalitzacions que s'adapten a una aplicació de problema específica.^[1]^[2] Aquestes penalitzacions personalitzades poden ajudar a induir una certa estructura en les solucions de problemes, com ara l'esparsa (en el cas de lazo) o l'estructura de grup (en el cas de lasso de grup).

Els mètodes de gradient proximal són aplicables en una gran varietat d'escenaris per resoldre problemes d'optimització convex de la forma

$\min _{x\in {\mathcal {H}}}F(x)+R(x),$

on $F$ és convex i diferenciable amb el gradient continu de Lipschitz, $R$ és una funció semicontinua inferior convexa que possiblement no és diferenciable, i ${\mathcal {H}}$ és un conjunt, normalment un espai de Hilbert. El criteri habitual de $x$ minimitza $F(x)+R(x)$ si i només si $\nabla (F+R)(x)=0$ a la configuració convexa, diferenciable ara es substitueix per

$0\in \partial (F+R)(x),$

on $\partial \varphi$ denota el subdiferencial d'una funció convexa de valor real $\varphi$ .

Donada una funció convexa $\varphi :{\mathcal {H}}\to \mathbb {R}$ un operador important a tenir en compte és el seu operador proximal $\operatorname {prox} _{\varphi }:{\mathcal {H}}\to {\mathcal {H}}$ definit per

$\operatorname {prox} _{\varphi }(u)=\operatorname {arg} \min _{x\in {\mathcal {H}}}\varphi (x)+{\frac {1}{2}}\|u-x\|_{2}^{2},$

que està ben definit per l'estricta convexitat de la $\ell _{2}$ norma. L'operador proximal es pot veure com una generalització d'una projecció.^[3]^[4]^[5] Veiem que l'operador de proximitat és important perquè $x^{*}$ és un minimitzador del problema $\min _{x\in {\mathcal {H}}}F(x)+R(x)$ si i només si

$x^{*}=\operatorname {prox} _{\gamma R}\left(x^{*}-\gamma \nabla F(x^{*})\right),$ on $\gamma >0$ és qualsevol nombre real positiu.^[6]

Referències modifica

↑ Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.
↑ Mosci, S.; Rosasco, L.; Matteo, S.; Verri, A.; Villa, S. Machine Learning and Knowledge Discovery in Databases, 6322, 2010, pàg. 418–433. DOI: 10.1007/978-3-642-15883-4_27 [Consulta: free].
↑ Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.
↑ Moreau, J.-J. Comptes Rendus de l'Académie des Sciences, Série A, 255, 1962, pàg. 2897–2899.
↑ Bauschke, H.H., and Combettes, P.L.. Convex analysis and monotone operator theory in Hilbert spaces (en anglès). Springer, 2011.
↑ Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.

[combettes-1] Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.

[structSparse-2] Mosci, S.; Rosasco, L.; Matteo, S.; Verri, A.; Villa, S. Machine Learning and Knowledge Discovery in Databases, 6322, 2010, pàg. 418–433. DOI: 10.1007/978-3-642-15883-4_27 [Consulta: free].

[combettes2-3] Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.

[moreau-4] Moreau, J.-J. Comptes Rendus de l'Académie des Sciences, Série A, 255, 1962, pàg. 2897–2899.

[bauschke-5] Bauschke, H.H., and Combettes, P.L.. Convex analysis and monotone operator theory in Hilbert spaces (en anglès). Springer, 2011.

[combettes3-6] Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.

[1]

[2]

[3]

[4]

[5]

[6]