GloVe

algorisme d'aprenentatge no supervisat per obtenir representacions vectorials de paraules

GloVe, encunyat a partir de Global Vectors, és un model per a la representació de paraules distribuïdes. El model és un algorisme d'aprenentatge no supervisat per obtenir representacions vectorials de paraules. Això s'aconsegueix assignant paraules a un espai significatiu on la distància entre paraules està relacionada amb la similitud semàntica.[1] L'entrenament es realitza sobre estadístiques globals agregades de co-ocurrència paraula-paraula d'un corpus, i les representacions resultants mostren subestructures lineals interessants de l'espai vectorial de paraules. Es desenvolupa com un projecte de codi obert a Stanford i es va llançar el 2014. Com a model de regressió log-bilineal per a l'aprenentatge no supervisat de representacions de paraules, combina les característiques de dues famílies de models, és a dir, la factorització matricial global i els mètodes de finestra de context local.[2]

Aplicacions modifica

GloVe es pot utilitzar per trobar relacions entre paraules com sinònims, relacions empresa-producte, codis postals i ciutats, etc. Tanmateix, l'algoritme d'aprenentatge no supervisat no és eficaç per identificar homògrafs, és a dir, paraules amb la mateixa grafia i significats diferents. Això passa perquè l'algorisme d'aprenentatge no supervisat calcula un únic conjunt de vectors per a paraules amb la mateixa estructura morfològica.[3] L'algorisme també l'utilitza la biblioteca SpaCy per crear funcions d'inserció de paraules semàntiques, alhora que calcula les paraules de la llista superior que coincideixen amb mesures de distància com ara la similitud del cosinus i l'enfocament de la distància euclidiana.[4] GloVe també es va utilitzar com a marc de representació de paraules per als sistemes en línia i fora de línia dissenyats per detectar malestar psicològic en les entrevistes amb pacients.[5]

Referències modifica

  1. Abad, Alberto. Advances in Speech and Language Technologies for Iberian Languages: Third International Conference, IberSPEECH 2016, Lisbon, Portugal, November 23-25, 2016, Proceedings (en anglès). Cham: Springer, 2016, p. 165. ISBN 9783319491691. 
  2. Kalajdziski, Slobodan. ICT Innovations 2018. Engineering and Life Sciences (en anglès). Cham: Springer, 2018, p. 220. ISBN 9783030008246. 
  3. Wenig, Phillip Towards Data Science, 2019.
  4. Singh, Mayank. Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers (en anglès). Singapore: Springer, 2018, p. 171. ISBN 9789811318122. 
  5. Abad, Alberto. Advances in Speech and Language Technologies for Iberian Languages: Third International Conference, IberSPEECH 2016, Lisbon, Portugal, November 23-25, 2016, Proceedings (en anglès). Cham: Springer, 2016, p. 165. ISBN 9783319491691.