Recuperació d'informació

Recuperació d'informació (en anglès information retrieval) és l'activitat d'obtenció d'informació de recursos pertinents a una necessitat d'informació a partir d'una col·lecció de recursos d'informació.[1] Les cerques es poden basar en metadades o indexació del text complet.

Els sistemes automatitzats de recuperació d'informació s'utilitzen per reduir el que s'ha anomenat "infoxicació" (information overload). Moltes universitats i biblioteques públiques utilitzen sistemes de recuperació d'informació per proporcionar accés a llibres, revistes i altres documents. Els cercadors web són un dels sistemes de recuperació d'informació més coneguts.

Descripció

modifica

Un procés de recuperació de la informació comença quan un usuari introdueix una consulta en el sistema. Les consultes són declaracions formals de les necessitats d'informació, per exemple, una consulta en un motor de cerca web. Una consulta no identifica únicament un sol objecte de la col·lecció, sinó que diversos objectes poden ser resposta a una consulta, sovint amb diferents graus de rellevància.

Un objecte és una identitat que està representada per informació en una base de dades. En dependència de l'aplicació aquests objectes poden ser arxius de text, imatges,[2] àudio,[3] mapes,[4] vídeos, etc. Molt sovint els documents no estan emmagatzemats directament en el sistema de recuperació d'informació, sinó que hi estan representats lògicament.

La majoria dels sistemes de recuperació d'informació computen un rànquing per saber com de bé cada objecte respon a la consulta, ordenant els objectes d'acord amb el seu valor de rànquing. Els objectes amb més rànquing són mostrats als usuaris i el procés es pot repetir si l'usuari desitja refinar la seva consulta.[5]

Història

modifica

La idea de l'ús d'ordinadors per a la recerca de trossos rellevants d'informació es va popularitzar arran de l'article “As We May Think” de Vannevar Bush l'any 1945.[6] Els primers sistemes automatitzats de recuperació de la informació van ser presentats durant la dècada de 1950 a 1960. Durant 1970 es realitzaren proves amb un grup de textos com la col·lecció Cranfield a partir d'un gran nombre de diferents tècniques, i el rendiment va ser bo.[6] Els sistemes de recuperació a gran escala, com el Sistema de Diàleg Lockheed, van començar a utilitzar-se a principis de 1970.

El 1992, el Departament de Defensa dels Estats Units conjuntament amb l'Institut Nacional d'Estàndards i Tecnologia (NIST), van patrocinar la Conferència de Recuperació de Text (TREC) com a part del programa TIPSTER. Això va ajudar des de la comunitat de recuperació de la informació en subministrar la infraestructura necessària per a l'avaluació de metodologies de recuperació de text en una col·lecció de gran abast. La introducció de motors de cerca ha elevat encara més la necessitat de sistemes de recuperació amb més capacitat.

L'ús de mètodes digitals per emmagatzemar i recuperar informació ha portat a l'anomenat fenomen de l'obsolescència digital, que succeeix quan una font digital deixa de ser accessible perquè el lector utilitzat per a la lectura d'aquest mitjà o el programari que el controla, ja no es troba disponible.

Els cercadors, com ara Google, són algunes de les aplicacions més populars per a la recuperació d'informació. Bàsicament cal construir un vocabulari, que és una llista de termes en llenguatge natural, un algoritme que inclogui les regles lògiques de la recerca (taula de veritat) i una valoració dels resultats o quantitat d'informació assolida o possible.

Alguns dels estudiosos més destacats dins d'aquesta subdisciplina són Gerard Salton, W Bruce Croft, Karen Spärck Jones, Keith van Rijsbergen i Ricardo Baeza-Yates.

A vegades es plantegen certs problemes a l'hora de recuperar informació provocats per l'ús del llenguatge natural (entre altres raons): com el silenci (a causa de la sinonímia), el soroll (a causa de la polisèmia), homografia, ambigüitat, etc.

Tipus de models

modifica

Per recuperar efectivament els documents rellevants per estratègies de recuperació d'informació, els documents són transformats en una representació lògica d'aquests. Cada estratègia de recuperació incorpora un model específic per als seus propòsits de representació dels documents. La figura a la dreta il·lustra la relació entre alguns dels models més comuns. Els models estan categoritzats d'acord amb dues dimensions: la base matemàtica i les propietats dels models.

 
Categorització dels models de recuperació d'informació

Primera dimensió: base matemàtica

modifica

Segona dimensió: propietats dels models

modifica
  • Models sense independència entre termes: Tracten els termes com si fossin independents.
  • Models amb dependència entre termes: Permeten representar les interdependències entre termes.

Les mesures de rendiment i correcció

modifica

Moltes mesures han estat proposades per avaluar el rendiment dels sistemes de recuperació d'informació. Les mesures necessiten una col·lecció de documents i una consulta. A continuació es descriuen algunes mesures comunes, les quals assumeixen que: cada document se sap que és rellevant o no per a una consulta particular. A la pràctica hi poden haver diferents matisos de rellevància.

Precisió

modifica

La precisió és la fracció de documents recuperats que són rellevants per la consulta:

 

Per exemple, per una cerca de text a un conjunt de documents, la precisió és el nombre de resultats correctes dividits pel nombre de resultats retornats.

La precisió té en compte tots els documents recuperats, però també es pot avaluar a un punt de tall n donat, considerant només els n primers resultats retornats pel sistema. Aquesta mesura s'anomena precisió a n.

La precisió s'utilitza juntament amb el reclam, el percentatge de tots els documents rellevants que són recuperats per la recerca. Les dues mesures són de vegades utilitzades juntes a la puntuació F1 (o mesura F) per tal de proporcionar una sola mesura per tot el sistema.

Observi's que el significat de precisió al camp de la recuperació d'informació difereix de la definició d'exactitud i precisió d'altres branques científiques i tecnològiques.[7]

El reclam és la fracció dels documents rellevants que són recuperats per la consulta:

 

Per exemple, per una cerca de text a un conjunt de documents, el reclam és el nombre de resultats correctes dividits pel nombre de resultats que s'haurien d'haver retornat.

En classificació binària, el reclam s'anomena sensibilitat. Pot ser vist com la probabilitat que un document rellevant sigui recuperat per la consulta.

És trivial d'aconseguir un reclam del 100% si es retornen tots els documents en resposta a qualsevol consulta. Per això, el reclam per si sol no és una mesura prou bona, sinó que cal considerar també el nombre de documents no rellevants, calculant la precisió, per exemple.[7]

Proposició de fallada

modifica

La proposició de fallada, anomenada en anglès fall-out, és la proporció de documents no rellevants que són recuperats, fora de tots els documents rellevants disponibles.

 

És trivial obtenir un 0% de proposició de fallada si no es retorna cap document de la col·lecció per a una consulta.

Mesura F

modifica

La mesura F és una mitjana harmònica de la precisió i el reclam:

 

Aquesta mesura és aproximadament la mitjana de la precisió i el reclam quan els valors són propers. Més generalment, és la mitjana harmònica de la precisió i el reclam, que és el quadrat de la mitjana geomètrica dividida per l'aritmètica. La puntuació F pot ser criticada per diverses raons en circumstàncies particulars a causa del seu biaix com a avaluació mètrica.

És el cas particular   de la mesura general   (per valors reals no negatius de  ):

 .

Dues mesures   utilitzades sovint són la mesura  , que posa més de pes al reclam que a la precisió, i la mesura  , que posa més d'èmfasi a la precisió que al reclam.

La mesura   va ser derivada per van Rijsbergen (1979) de manera que   mesurés "l'efectivitat de recuperació respecte un usuari que considera   cops més important el reclam que la precisió". Es basa en la mesura d'efectivitat de van Rijsbergen  , on el segon terme és la mitjana harmònica ponderada de la precisió i el reclam amb pesos  . La relació és   on  .

Precisió mitjana

modifica

La precisió i el reclam són mètriques basades en tota la llista de documents retornada pel sistema donada una consulta.Per a sistemes que fan rànquing als documents retornats per a una consulta és desitjable considerar a més l'ordre en què els documents retornats es presenten. Si es computa la precisió i el reclam en cada posició de la seqüència de documents amb rànquing, podem plotejar la corba precisió - reclam, ploteando la precisió com una funció del reclam  . La Precisió Mitjana computa la mitjana dels valors de sobre la integral des de   fins a  :[7]

 

Aquesta integral és reemplaçada a la pràctica per una suma finita sobre totes les posicions en la seqüència de documents amb rànquing:

 

on   és el rànquing en la seqüència de documents recuperats,   és el nombre de documents recuperats,   és la precisió del tall en la posició   de la llista i   és el canvi en el reclam dels elements   fins  .[7]

Aquesta suma finita és equivalent a:

 

on   és un indicador igual a 1 si l'ítem en la posició   del rànquing és rellevant al document, i zero altrament.[8] Noteu que la mitjana és sobre tots els documents rellevants i que els documents rellevants que no són recuperats obtenen una precisió igual a zero. La Precisió Mitjana de vegades es refereix geomètricament com l'àrea sota la corba precisió - reclam.[9][10]

Referències

modifica
  1. Singhal, Amit «Modern information retrieval: A brief overview». IEEE Data Engineering Bulletin, 24, 4, 2001, pàg. 35-43.
  2. Goodrum, Abby A. «Image Information Retrieval: An Overview of Current Research». Informing Science, 3, 2000.
  3. Foote, Jonathan «An overview of audio information retrieval». Multimedia Systems. Springer, 1999.
  4. Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf «Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09)». Sciplore. IEEE [Washington, DC], 2009. Arxivat de l'original el 2011-05-13 [Consulta: 8 octubre 2014]. «Information Retrieval On Mind Maps - What Could It Be Good For?»
  5. Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc., 1992. ISBN 0-13-463837-9.  Arxivat 2013-09-28 a Wayback Machine.
  6. 6,0 6,1 Singhal, Amit «Modern Information Retrieval: A Brief Overview». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 24, 4, 2001, pàg. 35–43.
  7. 7,0 7,1 7,2 7,3 Zhu, Mu «Recall, Precision and Average Precision» (  PDF). Universitat de Waterloo, 2004.
  8. Turpin, Andrew; Scholer, Falk «User performance versus precision measures for simple search tasks». Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, WA, August 06–11, 2006). ACM [Nova York, NY], 2006, pàg. 11–18. DOI: 10.1145/1148170.1148176.
  9. Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John; Zisserman, Andrew «The PASCAL Visual Object Classes (VOC) Challenge». International Journal of Computer Vision. Springer, 88, 2, 01-06-2010, pàg. 303–338. Arxivat de l'original el 2011-11-20. DOI: 10.1007/s11263-009-0275-4 [Consulta: 29 agost 2011].
  10. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008. 

Bibliografia

modifica
  • Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier: Modern information retrieval. 2nd ed. Harlow: Addison-Wesley, 2011.
  • SALVADOR OLIVÁN, José A.: Recuperación de Información. Buenos Aires : Alfagrama, 2008. (castellà)
  • SALTON, Gerald; MCGILL, Michael J.: Introduction to Modern Information Retrieval. New York : McGraw-Hill, 1983. (anglès)

Enllaços externs

modifica