Stemming és un mètode per a reduir una paraula a la seua raïl o (en anglès) a un stem. Hi ha alguns algorismes de stemming que ajuden en sistemes de recuperació d'informació. L'stemming augmenta el recall, que és una mesura sobre el nombre de documents que es poden trobar amb una consulta. Per exemple una consulta sobre "biblioteques" també troba documents en els quals només aparega "bibliotecari" perquè el stem de les dues paraules és el mateix ("bibliotec").

Algorismes

modifica

L'algorisme més comú per a stemming és l'algorisme de Porter.[1] Existeixen a més mètodes basats en anàlisi lexicogràfica i altres algorismes similars (KSTEM, stemming amb cos, mètodes lingüístics…).

Programari

modifica

Snowball és un petit llenguatge de programació per al maneig de cadenes de text que permet aplicar algorismes de stemming amb facilitat. Es pot generar codi en ANSI C i Java. Les pàgines de Snowball contenen stemmers per a 12 idiomes (inclòs el català). 

Stemming en cercadors comercials

modifica

Google utilitza stemming, igual que MSN search (on ha d'activar-se explícitament). En general, els cercadors comercials no donen moltes explicacions sobre els algorismes utilitzats.

Referències

modifica
  1. Porter, Martin. «The Porter Stemming Algorithm». [Consulta: 26 maig 2021].

Enllaços externs

modifica