La similitud cosinus és una mesura de la similitud existent entre dos vectors en un espai que posseeix un producte interior amb el qual s'avalua el valor del cosinus de l'angle comprès entre ells. Aquesta funció trigonomètrica proporciona un valor igual a 1 si l'angle comprès és zero, és a dir si tots dos vectors apunten a un mateix lloc. Per qualsevol angle existent entre els vectors, el cosinus donaria un valor inferior a un. Si els vectors fossin ortogonals el cosinus s'anul·laria i donaria 0, i si apuntessin en sentit contrari el seu valor seria -1. D'aquesta forma, el valor d'aquesta mètrica es troba entre -1 i 1, és a dir en l'interval tancat [-1,1].

Aquesta distància s'utilitza freqüentment en la cerca i recuperació d'informació representant les paraules (o document) en un espai vectorial.[1] En mineria de textos s'aplica la similitud cosinus amb l'objecte d'establir una mètrica de semblança entre textos.[2] En mineria de dades se sol utilitzar com un indicador de cohesió de clústers de textos. La similitud cosinus no ha de ser considerada com una mètrica a causa que no compleix la desigualtat triangular.

Similitud Cosinus Suau modifica

El Cosinus Suau[3] és una mesura de similitud "suau" entre dos vectors, és a dir, la mesura considera la similitud entre parells de característiques. La similitud cosinus tradicional considera que les característiques en el model espai vectorial (MEV) són independents o completament diferents, mentre que la similitud cosinus suau proposa considerar la similitud de característiques en el model espai vectorial, la qual cosa permet la generalització dels conceptes de similitud cosinus i també la idea de similitud (similitud suau).

Per exemple, a l'àrea de processament de llenguatge natural (PLN) la similitud entre les característiques és bastant intuïtiva. Les característiques tals com, paraules, n-grames, o n-grames sintàctics poden ser molt similars, encara que formalment són considerades com a característiques diferents en el model espai vectorial.[4] Per exemple, les paraules "play" i "game" (en anglès) són paraules diferents i per tant es mapegen a dimensions diferents en el model d'espai vectorial; no obstant això, és obvi que aquestes paraules estan relacionades semànticament. En el cas de n-grames o n-grames sintàctics es pot usar la distància de Levenshtein per a calcular la similitud entre característiques.

Per al càlcul del cosinus suau, s'introdueix la matriu s que conté la similitud entre les característiques. Es pot calcular utilitzant la distància de Levenshtein o altres mesures de similitud, com ara per exemple, diverses mesures de similitud de WordNet. Després, només es multiplica per aquesta matriu.

Així, donats dos vectors a i b de dimensió N, el cosinus suau és calculat com segueix:

 

on sij = similitud(característicai, característicaj) provinent de la matriu s.

Si no existeix similitud entre característiques (sii = 1, sij = 0 per a ij), l'equació donada és equivalent a la fórmula de similitud cosinus convencional.

La complexitat d'aquesta mesura és quadràtica, la qual cosa la fa completament aplicable a problemes del món real. La complexitat fins i tot pot ser transformada a lineal.

Referències modifica

  1. Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
  2. P.-N. Tan, M. Steinbach & V. Kumar, "Introduction to Data Mining", Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.
  3. Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David «Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model». Computación y Sistemas, 18, 3, pàg. 491–504. DOI: 10.13053/CyS-18-3-2043 [Consulta: 7 octubre 2014].
  4. Sidorov, Grigori; Velasquez; Stamatatos; Gelbukh; Chanona-Hernández. Syntactic Dependency-based N-grams as Classification Features. LNAI 7630, p. 1–11. ISBN 978-3-642-37798-3.