Incrustació de mots

és un terme utilitzat per a la representació de paraules per a l'anàlisi de text.

En el processament del llenguatge natural (PNL), la incrustació de mots és un terme utilitzat per a la representació de paraules per a l'anàlisi de text, normalment en forma d'un vector de valor real que codifica el significat de la paraula de manera que les paraules que estan més a prop del vector s'espera que l'espai tingui un significat similar.[1] Les incrustacions de paraules es poden obtenir fent servir un conjunt de tècniques de modelització del llenguatge i d'aprenentatge de funcions on les paraules o frases del vocabulari s'assignen a vectors de nombres reals.

Model bossa de paraules (CBOW).
Model n-gram.

Els mètodes per generar aquest mapatge inclouen xarxes neuronals, reducció de la dimensionalitat a la matriu de co-ocurrència de paraules,[2][3][4] models probabilístics,[5] mètode de base de coneixement explicable,[6] i representació explícita en termes del context en què apareixen les paraules.[7]

S'ha demostrat que les incrustacions de paraules i frases, quan s'utilitzen com a representació d'entrada subjacent, milloren el rendiment en tasques de PNL com ara l'anàlisi sintàctica [8] i l'anàlisi de sentiments.[9]

L'any 2013 un equip de Google dirigit per Tomas Mikolov va crear word2vec, un conjunt d'eines d'inserció de paraules que pot entrenar models d'espai vectorial més ràpidament que els enfocaments anteriors. L'enfocament word2vec s'ha usat àmpliament en l'experimentació i va ser fonamental per despertar l'interès per la incorporació de paraules com a tecnologia, traslladant la línia de recerca de la investigació especialitzada cap a una experimentació més àmplia i, finalment, obrir el camí per a l'aplicació pràctica.[10]

Referències modifica

  1. Jurafsky, Daniel. Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition (en anglès). https://web.stanford.edu.+ Upper Saddle River, N.J.: Prentice Hall, 2000. ISBN 978-0-13-095069-7. 
  2. Lebret, Rémi. «Word Emdeddings through Hellinger PCA». A: Conference of the European Chapter of the Association for Computational Linguistics (EACL) (en anglès). 2014, 2013. 
  3. "[1]" a NIPS.  
  4. "[2]" a Int'l J. Conf. on Artificial Intelligence (IJCAI).  
  5. Globerson, Amir Journal of Machine Learning Research, 2007.
  6. Qureshi, M. Atif; Greene, Derek (en anglès) Journal of Intelligent Information Systems, 53, 04-06-2018, pàg. 137–165. arXiv: 1702.06891. DOI: 10.1007/s10844-018-0511-x. ISSN: 0925-9902.
  7. "[3]" a CoNLL.  
  8. (2013) "Parsing with compositional vector grammars" a Proc. ACL Conf..   Arxivat 2016-08-11 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2016-08-11. [Consulta: 31 octubre 2022].
  9. (2013) "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank" a EMNLP.  
  10. «word2vec» (en anglès). Google Code Archive. [Consulta: 23 juliol 2021].[Enllaç no actiu]