Xarxa neuronal de càpsula

Una xarxa neuronal de càpsula (CapsNet) és un sistema d'aprenentatge automàtic que és un tipus de xarxa neuronal artificial (ANN) que es pot utilitzar per modelar millor les relacions jeràrquiques. L'enfocament és un intent d'imitar més de prop l'organització neuronal biològica.

La idea és afegir estructures anomenades "càpsules" a una xarxa neuronal convolucional (CNN) i reutilitzar la sortida de diverses d'aquestes càpsules per formar representacions més estables (respecte a diverses pertorbacions) per a càpsules superiors.^[1] La sortida és un vector que consta de la probabilitat d'una observació i una posada per a aquesta observació. Aquest vector és similar al que es fa per exemple quan es fa classificació amb localització en CNN.

Entre altres avantatges, les capsnets tracten el "problema de Picasso" en el reconeixement d'imatges: imatges que tenen totes les parts adequades però que no estan en la relació espacial correcta (per exemple, en una "cara", les posicions de la boca i d'un ull es canvien). Per al reconeixement d'imatges, els capsnets exploten el fet que, si bé els canvis de punt de vista tenen efectes no lineals a nivell de píxels, tenen efectes lineals a nivell de part/objecte.^[2] Això es pot comparar amb invertir la representació d'un objecte de diverses parts.^[3]

Història

L'any 2000, Geoffrey Hinton et al. va descriure un sistema d'imatge que combinava la segmentació i el reconeixement en un únic procés d'inferència mitjançant arbres d'anàlisi. Les anomenades xarxes de credibilitat descriuen la distribució conjunta sobre les variables latents i sobre els possibles arbres d'anàlisi. Aquest sistema va resultar útil a la base de dades de dígits manuscrits de MNIST.

Transformacions

Un invariant és una propietat d'objecte que no canvia com a resultat d'alguna transformació. Per exemple, l'àrea d'un cercle no canvia si el cercle es desplaça cap a l'esquerra.

De manera informal, un equivariant és una propietat que canvia de manera previsible durant la transformació. Per exemple, el centre d'un cercle es mou en la mateixa mesura que el cercle quan es mou.^[4]

Agrupació

Les capsnets rebutgen l'estratègia de capa d'agrupació de les CNN convencionals que redueix la quantitat de detalls a processar a la capa superior següent. L'agrupació permet un grau d'invariància translacional (pot reconèixer el mateix objecte en una ubicació una mica diferent) i permet representar un nombre més gran de tipus de característiques.

Càpsules

Una càpsula és un conjunt de neurones que s'activen individualment per a diverses propietats d'un tipus d'objecte, com ara la posició, la mida i la tonalitat. Formalment, una càpsula és un conjunt de neurones que col·lectivament produeixen un vector d'activitat amb un element per a cada neurona per mantenir el valor d'instanciació d'aquesta neurona (per exemple, la tonalitat). Els programes gràfics utilitzen el valor d'instanciació per dibuixar un objecte. Capsnets intenten derivar-los de la seva entrada. La probabilitat de la presència de l'entitat en una entrada específica és la longitud del vector, mentre que l'orientació del vector quantifica les propietats de la càpsula.^[5]

Tradicionalment, les neurones artificials produeixen una activació escalar i de valor real que representa vagament la probabilitat d'una observació. Les capsnets substitueixen els detectors de característiques de sortida escalar per càpsules de sortida vectorial i l'agrupació màxima amb l'encaminament per acord.

Entrenament

L'aprenentatge és del tipus supervisat.^[5] La xarxa s'entrena minimitzant la distància euclidiana entre la imatge i la sortida d'una CNN que reconstrueix l'entrada de la sortida de les càpsules terminals.

Referències

↑ Hinton, Geoffrey E. Transforming Auto-Encoders (en anglès). 6791. Cornell University. EUA: Springer, Berlin, Heidelberg, 14-06-2011, p. 44–51 (Lecture Notes in Computer Science). DOI 10.1007/978-3-642-21735-7_6. ISBN 9783642217340.
↑ Srihari, Sargur. «Capsule Nets» (en anglès). University of Buffalo, 14-06-2011. [Consulta: 7 desembre 2017].
↑ Hinton, Geoffrey E. Solla. Advances in Neural Information Processing Systems 12 (en anglès). EUA: MIT Press, 2000, p. 463–469.
↑ «Understanding Matrix capsules with EM Routing (Based on Hinton's Capsule Networks)» (en anglès). jhui.github.io, 2000. [Consulta: 31 desembre 2017].
↑ ^5,0 ^5,1 Srihari, Sargur. «Capsule Nets» (en anglès). University of Buffalo. [Consulta: 7 desembre 2017].

[1] Hinton, Geoffrey E. Transforming Auto-Encoders (en anglès). 6791. Cornell University. EUA: Springer, Berlin, Heidelberg, 14-06-2011, p. 44–51 (Lecture Notes in Computer Science). DOI 10.1007/978-3-642-21735-7_6. ISBN 9783642217340.

[:16-2] Srihari, Sargur. «Capsule Nets» (en anglès). University of Buffalo, 14-06-2011. [Consulta: 7 desembre 2017].

[:02-3] Hinton, Geoffrey E. Solla. Advances in Neural Information Processing Systems 12 (en anglès). EUA: MIT Press, 2000, p. 463–469.

[4] «Understanding Matrix capsules with EM Routing (Based on Hinton's Capsule Networks)» (en anglès). jhui.github.io, 2000. [Consulta: 31 desembre 2017].

[:162-5] 5,0 ^5,1 Srihari, Sargur. «Capsule Nets» (en anglès). University of Buffalo. [Consulta: 7 desembre 2017].

[1]

[2]

[3]

[4]

[5]