Sistema de filtratge d'informació

Un sistema de filtrat d'informació és un conjunt de procediments que eliminen la informació redundant o no desitjada d'un missatge a través de mètodes automatitzats o computats abans de la seva presentació a un usuari humà. El seu objectiu principal és la gestió de la sobrecàrrega d'informació i l'increment de la relació semàntica senyal/soroll. Per construir aquest perfil d'usuari es compara amb algunes de les característiques de referència. Aquestes característiques poden ser presentades pel tema de la informació (punt de vista basat en contingut) o l'entorn social de l'usuari (punt de vista de filtratge col·laboratiu).

La gamma de mètodes utilitzats per un sistema es basa en els mateixos principis que per a l'extracció d'informació. Una aplicació notable és en els filtres de correu electrònic no desitjat (spam). Per tant no només és l'explosió d'informació que requereix algun tipus de filtres, sinó també els que s'incorporen de forma maliciosa o sense adonar-se'n.

A nivell de presentació, la filtració d'informació pren un caràcter de subministrament de notícies per a l'usuari basat en les preferències. Els sistemes de recomanació són la informació activa dels sistemes de filtrat d'informació que intenten presentar els elements d'informació (cinema, televisió, música, llibres, notícies, pàgines web) a l'usuari interessat. Aquests sistemes afegeixen elements d'informació cap al flux d'informació que flueix fins a l'usuari, en oposició al fet d'eliminar elements informatius cap a l'usuari. Els sistemes de recomanació solen utilitzar filtres col·laboratius, o bé la combinació de filtres col·laboratius i contingut basat en criteris de filtrat.

Història

Abans de l'aparició d'Internet, hi ha ja alguns mètodes de filtrat d'informació. L'exemple més clar: si un govern controla i restringeix el flux d'informació, es parla de censura, encara que en certa manera en un país democràtic es farà per satisfer les necessitats dels beneficiaris.

D'altra banda es parla de filtres d'informació si es fa referència als editors de diaris i periodistes quan aquests proporcionen un servei que selecciona la informació més valuosa per als seus clients, lectors de llibres, revistes, diaris, els oients de ràdio i els espectadors de televisió. Aquesta operació de filtratge també és present en les escoles i universitats on es fa una selecció de la informació per tal de proporcionar una ajuda segons els criteris acadèmics i als clients d'aquest servei, els estudiants. Amb l'aparició d'Internet augmenta la possibilitat de qualsevol individu de publicar a baix cost tot el que un desitgi. De tal manera que augmenta considerablement la informació poc útil i com a conseqüència la informació de qualitat es difon. A partir d'aquest problema es comencen a idear nous filtrats amb els quals poder obtenir de manera senzilla i eficaç la informació de qualitat desitjada per cada tema concret.

Funcionament

Un sistema de filtrat d'aquest estil es compon de diverses eines que ajuden a la gent a trobar la informació més valuosa, de manera que l'escàs temps que es pot dedicar a llegir/escoltar/veure, sigui correctament direccional en els documents més interessants i valuosos, deixant de banda els més intranscendents. Aquests filtres també s'utilitzen per a organitzar i estructurar la informació de manera correcta i entenedora, a més d'agrupar els missatges al correu dirigit. Aquest filtrat és molt necessari en els resultats obtinguts dels motors de cerca a Internet. Les funcions de filtrat milloren dia a dia per tal d'obtenir descàrregues de documents web i missatges molt més eficients.

Criteris utilitzats

Un dels criteris que s'utilitza en aquest pas és si el coneixement és perjudicial o no, és a dir si el coneixement permet una millor comprensió amb el concepte o sense. En aquest cas és tasca del filtre d'informació reduir o eliminar la informació amb coneixements perjudicials.

Sistema d'aprenentatge

Un sistema de d'aprenentatge de continguts es compon, en regles generals, principalment de tres etapes:

En primer lloc un sistema que dona solucions a un conjunt definit de tasques.
Posteriorment se sotmet a uns criteris d'avaluació que mesuraran el compliment de l'etapa anterior en relació a solucions dels problemes.
Mòdul d'adquisició pel qual la seva sortida s'obtenen els coneixements que són utilitzats en el sistema solucionador de la primera etapa.

Els filtres d'informació se situen entre l'entrada de dades del sistema i el solucionador de problemes. D'aquesta manera es pot filtrar el conjunt d'experiències a que farà front el sistema d'aprenentatge.

Fig1. Esquema dels 5 tipus de filtres d'informació

Els filtres d'informació són funcions que s'insereixen entre l'entrada al sistema d'aprenentatge i l'entrada al solucionador de problemes (problem solver). D'aquesta manera es pot filtrar el conjunt d'experiències a que farà front el sistema d'aprenentatge. El paper d'aquestes funcions és eliminar (o reduir) el coneixement perjudicial. Hi ha cinc posicions diferents en què es pot col·locar un filtre d'informació. Es pot filtrar el joc d'experiències que afronta el sistema d'aprenentatge. Aquesta filtració s'anomena experiència selectiva. També es pot filtrar la sèrie d'esdeveniments o trets que el sistema processa d'una experiència particular. A aquesta filtració se l'anomena atenció selectiva. Ambdues són filtres de dades. El coneixement es pot filtrar després d'haver-se generat pel procediment d'adquisició i abans que s'entri a la base del coneixement. Aquesta adquisició s'anomena adquisició selectiva.

Si la base de coneixement es connecta a l'entrada d'un filtre, i la sortida del filtra es connecta a la mateixa base de coneixement, s'obté la retenció selectiva (o l'oblit). Si el coneixement es filtra entre la base del coneixement i el programa de funcionament, s'obté la utilització selectiva. La figura 1 il·lustra els cinc tipus de filtres de la informació. Els filtres d'informació poden ser una part fixa de l'arquitectura del sistema. És necessari diferenciar entre el procés d'aprenentatge de coneixement per ser utilitzat pel solucionador de problemes i el procés d'aprenentatge de coneixement per ser utilitzat pels filtres. El primer estudi s'anomena primari i el segon estudi secundari.

Futur

Actualment el problema no és buscar la millor manera de filtrar la informació, sinó la manera en què es requereix que aquests sistemes aprenguin de forma autònoma i contínua les necessitats d'informació dels usuaris. No només pel fet d'automatitzar el procés del filtrat sinó també el procés de construcció i adaptació del filtre. Algunes branques basades en això, com per exemple l'estadística, l'aprenentatge de màquines, el reconeixement de patrons i la mineria de dades, són la base per a desenvolupar filtres d'informació que aprenguin i s'adaptin basant-se en l'experiència. Per permetre que el procés d'aprenentatge es pugui dur a terme, part de la informació ha de ser prèviament filtrada, és a dir, s'ha de comptar amb exemples positius i negatius els quals anomenem dades d'entrenament, que poden ser generats per experts o bé, via feedback a través d'usuaris comuns.

Millores en l'error

A mesura que s'introdueixen dades, el sistema incorpora noves regles, si es té en compte que aquestes puguin generalitzar la informació de les dades d'entrenament llavors s'avaluarà el desenvolupament del sistema i es mesurarà la capacitat del sistema per predir correctament les categories de nova informació. Aquest pas es simplifica separant les dades d'entrenament en un nou conjunt anomenat “dades de prova” que s'utilitzarà per a mesurar la taxa d'error. Com a regla general és important distingir entre tipus d'error (falsos positius i falsos negatius). Per exemple, en el cas d'un agregador de continguts per a nens, no té la mateixa gravetat permetre el pas d'informació no apte que mostri violència o pornografia, que no pas l'error de descartar alguna informació adequada. A fi de millorar el sistema perquè baixin aquestes taxes d'error i tenir sistemes amb capacitats d'aprenentatge i desenvolupament similar als éssers humans es requereixen sistemes que simulin les capacitats cognitives humanes, tal com la comprensió dellenguatge natural, la captura de sentit comú i altres formes de processament avançat per arribar a la semàntica de la informació.

Camps d'utilització

Avui en dia existeixen nombroses tècniques per desenvolupar filtres d'informació, algunes d'aquestes arriben a taxes d'error menors al 10% en diversos experiments. Entre aquestes tècniques es troben els arbres de decisió, màquines de suport vectorial, xarxes neuronals, xarxes bayesianes, discriminants lineals, regressió logística, etc. En l'actualitat, aquestes tècniques s'utilitzen en diferents aplicacions, no només en el context web, sinó en problemes de temàtica tan variada com el reconeixement de veu, classificació d'imatges telescòpiques en astronomia o avaluació de risc financer.

Vegeu també

Filtre de Kalman