Unitats recurrents controlades

són un mecanisme de gating en xarxes neuronals recurrents.

Les unitats recurrents controlades (GRU) són un mecanisme de gating en xarxes neuronals recurrents, introduït el 2014 per Kyunghyun Cho i altres.[1] El GRU és com una memòria a llarg termini (LSTM) amb una porta oblidada,[2] però té menys paràmetres que LSTM, ja que no té una porta de sortida.[3] Es va trobar que el rendiment de GRU en determinades tasques de modelatge de música polifònica, modelatge de senyals de parla i processament de llenguatge natural era similar al de LSTM.[4][5] Els GRU van demostrar que el gating és realment útil en general i l'equip de Bengio va concloure que no hi havia cap conclusió concreta sobre quina de les dues unitats de gating era millor.[6]

Unitat recurrent Gated, versió totalment tancada.

Arquitectura

modifica

Hi ha diverses variacions a la unitat completa de control, amb l'obtenció feta utilitzant l'estat ocult anterior i el biaix en diverses combinacions, i una forma simplificada anomenada unitat mínima de control.[7]

 
Tipus 1.

L'operador   denota el producte de Hadamard a continuació.

Unitat totalment controlada

modifica
 
Tipus 2.


Inicialment, per  , el vector de sortida és  

 

Les variables

  •  : vector d'entrada
  •  : vector de sortida
  •  : vector d'activació candidat
  •  : actualitza el vector de la porta
  •  : reinicia el vector de la porta
  •  ,   i  : matrius de paràmetres i vector
 
Tipus 3.

Funcions d'activació

Són possibles funcions d'activació alternatives, sempre que això  .

Es poden crear formes alternatives canviant   i   [8]

  • Tipus 1, cada porta depèn només de l'estat ocult anterior i del biaix.
     
  • Tipus 2, cada porta només depèn de l'estat ocult anterior.
     
  • Tipus 3, cada porta es calcula utilitzant només el biaix.
     


Referències

modifica
  1. Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, 2014. arXiv: 1406.1078.
  2. Felix Gers; Jürgen Schmidhuber; Fred Cummins Proc. ICANN'99, IEE, London, 1999, 1999, pàg. 850–855. DOI: 10.1049/cp:19991218.
  3. «Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML» (en anglès), 27-10-2015. Arxivat de l'original el 2021-11-10. [Consulta: 18 maig 2016].
  4. Ravanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua IEEE Transactions on Emerging Topics in Computational Intelligence, 2, 2, 2018, pàg. 92–102. arXiv: 1803.10225. DOI: 10.1109/TETCI.2017.2762739.
  5. Su, Yuahang; Kuo, Jay Neurocomputing, 356, 2019, pàg. 151–161. arXiv: 1803.01686. DOI: 10.1016/j.neucom.2019.04.044.
  6. Frontiers in Artificial Intelligence. DOI: 10.3389/frai.2020.00040.
  7. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, 2014. 
  8. Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks.