Mineria de dades: diferència entre les revisions

Contingut suprimit Contingut afegit
m Removing Link GA template (handled by wikidata)
Correcció ortogràfica en curs. L'autor hauria de refer o completar la frase següent: "Exemple d'ella és CRISP-DM, es creu que SEMMA és una metodologia SAS declara en la seva pàgina que aquesta NO és una metodologia"
Línia 8:
== Procés ==
 
Un procés típic de mineria de dades consta de lesdels següents passespassos generals:
 
# '''Selecció del conjunt de dades''', tant en el que es refereix a les [[variable objectiu|variables objectiu]] (aquelles que es volen predir, calcular o inferir), comocom a les [[variable dependents|variables independents]] (les que serveixen per fer el càlcul o procés), comocom possiblement al [[mostreig]] dels [[Registre (base de dades)|registres]] disponibles.
# '''Anàlisi de les propietats de les dades''', en especial els histogrames, diagrames de dispersió, presència de valors atípics i falta de dades (valors nuls).
# '''Transformació del conjunt de dades d'entrada''': es realitzarà de diverses formes en funció de l'anàlisi prèvia, amb l'objectiu de preparar-ho per aplicar la tècnica de mineria de dades que millor s'adapti a les dades i al problema, a aquest pas també se'l coneix com '''preprocessament''' de les dades.
# '''Seleccionar i aplicar la tècnica de mineria de dades''': es construeix el model predictiu, de classificació o segmentació.
# '''Extracció de coneixement''': mitjançant una tècnica de mineria de dades, s'obté un model de coneixement, que representa patrons de comportament observats en els valors de les variables del problema o relacions d'associació entre aquestes variables. També poden usar-se diverses tècniques al mateix temps per a generar diferents models, encara que generalment cada tècnica obliga a un preprocessat diferent de les dades.
# '''Interpretació i avaluació de dades''': un cop obtingut el model, s'ha de procedir a la seva validació comprovant que les conclusions que llança són vàlides i prou satisfactòries. En el cas d'haver obtingut diversos models mitjançant l'ús de diferents tècniques, s'han de comparar els models a la recerca d'aquell que correspon millor al problema. Si cap dels models assoleix els resultats esperats, hacal d'alterar algun dels passos anteriors per generar nous models.
 
Si el model final no supera aquesta avaluació, el procés es podria repetir des del principi o si un expert ho considera oportú a partir de qualsevol dedels les passespassos anteriors. Aquesta retroalimentació es podria repetir les vegades que es considerés necessàriesnecessari fins a obtenir un model vàlid.
 
Un cop validat, el model estarà a punt per a la seva explotació.
Línia 23:
== Fonaments de la mineria de dades ==
Les tècniques de Data Mining són el resultat d'un llarg procés d'investigació.
Aquesta evolució va començar quan les dades de negocis van ser emmagatzematsemmagatzemades per primera vegada en computadores, i va continuar amb millores en l'accés a les dades, i més recentment amb tecnologies generades per a permetre als usuaris navegar a través de les dades en temps real.
És possible aplicar la Mineriamineria de dades actualment gràcies a tres tecnologies que ja estan bastant madures:
#'''Recol·lecció massiva de dades'''
#'''Potents computadores amb multiprocessadors'''
Línia 34:
El procés de mineria de dades passa per les següents fases:
* [[Filtrat]] de dades.
* Selecció de Variablesvariables.
* Extracció de Coneixementconeixement: mitjançant una tècnica de mineria de dades, s'obté un model de coneixement, que presenta patrons de comportament observats en els valors de les variables del problema o relació d'associació entraentre ditadites variablevariables. També poden utilitzar-se diverses tècniques a la vegada per generar diferents models, encara que generalment cada tècnica obliga a fer un preprocessat diferent.
* Interpretació i Avaluacióavaluació.
 
 
Línia 62:
** El perceptró.
** El perceptró multicapa.
** Els Mapesmapes auto-organitzatsautoorganitzats, també coneguts com a xarxes de Kohonen.
 
*'''Regressió lineal'''.- És la més utilitzada per formar relacions entre dades. El model de mineria de dades representa les dades amb un únic node, que defineix la fórmula de regressió. Ràpida i eficaç però insuficient en espais multi-dimensionalsmultidimensionals on puguin relacionar-se més de 2dues variables.
 
*'''Arbre de decisió'''.- Un arbre de decisió és un model de predicció utilitzat en l'àmbit de la [[intel·ligència artificial]], donada una base de dades es construeixen aquests diagrames de construccions lògiques, molt similars als sistemes de predicció basats en regles, que serveixen per representar i categoritzar una sèrie de condicions que succeeixen de manera successiva, per a la resolució d'un problema. Exemples:
Línia 72:
*'''Model estadístic'''.- És una expressió simbòlica en forma d'igualtat o equació que es fa servir en tots els dissenys experimentals i en la regressió per indicar els diferents factors que modifiquen la variable de resposta.
 
*'''Algorisme d'agrupament'''.- És un procediment d'agrupació d'una sèrie de vectors segons criteris habitualment de distància, i es tractarà de disposar dels vectors d'entrada de forma que estiguin més a prop aquells que tinguin característiques comunes.
 
Segons l'objectiu de l'anàlisi de les dades, els algorismes utilitzats es classifiquen en supervisats i no supervisats (Weiss i Indurkhya, 1998):
 
* {{subratllat| Algorismes supervisats }} (o predictius): prediuen una dada (o un conjunt d'elles) desconeguda a priori, a partir d'altres de conegudes.
* {{subratllat| Algorismes no supervisats }} (o del descobriment del coneixement): es descobreixen patrons i tendències en les dades.
 
== Característiques ==
L'entorn de la mineria de dades sol tenir una arquitectura [[client-servidor]].
Les eines de la mineria de dades ajuden a extreure el mineral de la informació enterrat en arxius corporatius o en registres públics, arxivats,; es combinen fàcilment i poden analitzar-se i processar-se ràpidament.
La mineria de dades produeix cinc tipus d'informació:
* Associacions.
Línia 96:
Una visió relativament nova a l'anàlisi de dades soluciona aquests problemes, fent que la pràctica de la mineria de dades s'assembli més a una ciència que a un art.
 
El 1948 Claude Shannon va publicar un treball anomenattitulat "Una Teoria Matemàtica de la Comunicació". Posteriorment aquesta va passar a anomenar-se "Teoria de la Informació" i va establir les bases de la comunicació i la codificació de la informació. Shannon va proposar una manera de mesurar la quantitat d'informació per expressar en bits.
 
El 1999 Dorian Pyle va publicar un llibre anomenattitulat "Data Preparation for Data Mining" en el qual proposa una manera d'usar la Teoria de la Informació per analitzar dades. En aquest nou enfocament, una base de dades és un canal que transmet informació. D'una banda hi ha el món real que captura dades procedents del negoci. De l'altra, hi ha totes les situacions i problemes importants del negoci. I la informació flueix des del món real i a través de les dades, fins a la problemàtica del negoci.
 
Amb aquesta perspectiva i utilitzant la Teoria de la Informació, és possible mesurar la quantitat d'informació disponible en les dades i quina proporció de la mateixadades es podrà utilitzar per resoldre la problemàtica del negoci. Com un exemple pràctic, podria trobar-se que les dades contenen un 65% de la informació necessària per a predir quins clients rescindiran els seus contractes. D'aquesta manera, si el model final és capaç de fer prediccions amb un 60% d'encert, es pot assegurar que l'eina que va generar el model va fer una bona feina capturant la informació disponible. Ara bé, si el model hagués tingut un percentatge d'encerts de només el 10%, per exemple, llavors intentar altres models valdria la pena.
 
La capacitat de mesurar informació continguda en les dades té altres avantatges importants.
Línia 108:
És possible seleccionar un grup de variables òptim que contingui la informació necessària per realitzar un model de predicció.
 
Un cop que les variables són processades amb la finalitat de crear el mapa d'informació i després seleccionades aquelles que aporten més informació, l'elecció de l'instrument que ens servirà per crear el model deixa de tenir importància, ja que la major part del treball vaja sers'ha realitzadarealitzat en passos previs.
 
==Aplicacions==
Aquesta tècnica de processament de grans quantitats de dades té diverses aplicacions
actualment en la vida quotidiana. Aquí sse n'esmenten algunes:
 
===Terrorisme===
ElL' [[FBI]] analitza les bases de dades comercials per a detectar terroristes. A principis del mes de juliol de 2002, el director del [[Federal Bureau of Investigation]] (FBI), [[John Aschcroft]], va anunciar que el Departament de Justícia començarà a introduir-se en la vasta quantitat de dades comercials referents als hàbits i preferències de compra dels consumidors, amb la finalitat de descobrir potencials terroristes abans que executin una acció.
 
===Fraus ===
Detecció de '''fraus''' en les targetes de crèdit. EnEl 2001, les institucions financeres a escala mundial van perdre més de 2.000 milions de dòlars nord-americans en fraus amb targetes de crèdit i dèbit. El Falcon Fraud Manager és un sistema intel·ligent que examina transaccions, propietaris de targetes i dades financeres per a detectar i mitigar fraus.
 
===Genètica ===
Dins l'estudi de la genètica humana, l'objectiu principal és entendre la relació cartogràfica entre les parts i la variació individual en les seqüències d'ADN i la variabilitat en la susceptibilitat a les malalties. És a dir, es tractaria de saber com els canvis dins la seqüència d'ADN d'un individu afectaafecten alel risc de desenvolupar malalties comunscomunes. Això és molt important per ajudar a millorar el diagnòstic, prevenció i tractament de les malalties. La tècnica de mineria de dades que s'utilitza per realitzar aquesta feina es coneix com a "reducció de dimensionalitat multifactorial"
 
===Hàbits de compres ===
Un estudi molt citat va detectar que els divendres hi havia una quantitat inusualment elevada de clients que adquirien alhora bolquers i cervesa. Es va detectar que es devia al fet que aquest dia solien acudir al supermercat pares joves, la perspectiva dels quals per al cap de setmana consistia a quedar-se a casa cuidant del seu fill i veient la televisió amb una cervesa ena la mà. El supermercat va poder incrementar les seves vendes de cervesa col·locant-les pròximes als bolquers per a fomentar les vendes compulsives.
 
===Audiències Televisivestelevisives ===
La [[British Broadcasting Corporation]] (BBC) del Regne Unit empra un sistema per a predir la grandària de les audiències televisives per a un programa proposat, així com el temps òptim d'exhibició (Brachman i altres, 1996). El sistema utilitza xarxes neuronals i arbres de decisió aplicats a dades històriques de la cadena per a determinar els criteris que participen segons el programa que cal presentar.
 
===Ciència i Enginyeriaenginyeria===
 
En els últims anys la mineria de dades s’està utilitzant àmpliament en diverses àrees relacionades amb la ciència i l'enginyeria. Alguns exemples d’aplicació en aquests camps són:
Línia 136:
 
En l'àmbit de l'enginyeria elèctrica, Les tècniques mineria de dades han estat àmpliament utilitzades per a monitorar les condicions de les instal·lacions d'alta tensió. La finalitat d'aquest monitoratge és obtenir informació valuosa sobre l'estat de l'aïllament dels equips
Per a la vigilància de les vibracions o l'anàlisi dels canvis de càrrega en transformadors s'utilitzen certes tècniques per l'agrupació de dades (clustering) tals com els MapasMapes Auto-OrganizatiusAutoorganizatius (SOM, Self-organizing map). Aquests mapes serveixen per detectar condicions anormals i per estimar la naturalesa de les esmenades anomalies.
 
===Anàlisi de gasos===
 
També s'han aplicat tècniques de mineria de dades per a l'anàlisi de gasos dissolts (DGA, Dissolved gas analysis) Aen transformadors elèctrics. L'anàlisi de gasos dissolts es coneix des de fa molt de temps com a eina per a diagnosticar transformadors.
 
===Negocis===
Línia 148:
En general, les empreses que empren mineria de dades veuen ràpidament el retorn de la inversió, però també reconeixen que el nombre de models predictius desenvolupats pot créixer molt ràpidament.
 
En lloc de crear models per a predir quins clients poden canviar, l'empresa podria construir models separats per a cada regió i/o per a cada tipus de client. També pot voler determinar quins clients seran rendibles durant un moment (una quinzena, un mes,...) i només enviar les ofertes a les persones que és probable que siguin rendibles. Per mantenir aquesta quantitat de models, cal gestionar les versions de cada model i passar a una mineria de dades el méstan automatitzada com sigui possible.
 
===Comportament d'Internet===
 
També és una àrea en voga el de l'anàlisi del comportament dels visitants -sobretot, quan són clients potencials- en una pàgina d'Internet. O la utilització de la informació -obtinguda per mitjans més o menys legítims- sobre ells per oferir-los propaganda adaptada específicament al seu perfil. O per, una vegada que adquireixen un determinat producte, saber immediatament quin altre oferir-los tenint en compte la informació històrica disponible sobre els clients que han comprat el primer.
 
=== Jocs ===
 
Des de la dècada de 1960, amb la disponibilitat dels oracles de certs [[Teoria_de_jocs_combinatòria| jocs combinatoris]], també anomenats bases de dades de taules (per exemple, per a uns [[escacs]] 3x3) amb qualsevol configuració d'inici, petits taulers del joc de punt i línies (també conegut per ''punts i capses''), el joc HEX per a taulell petit, i els finals determinats en els escacs, una nova àrea de mineria de dades s'ha obert. Aquesta és l'extracció de les estratègies humanes utilitzables d'aquests oracles.
 
==Tendències==
 
La Mineriamineria de Dadesdades ha sofert transformacions en els últims anys d'acord amb els canvis tecnològics, d'estratègies de marketingmàrqueting, l'extensió dels models de compra en línia, etc. Els més importants són:
 
*La importància que han cobrat les dades no estructurades (text, pàgines d'Internet, etc.)
*La necessitat d'integrar els algoritmes i resultats obtinguts en sistemes operacionals, portals d'Internet, etc.
*L'exigència que els processos funcionin pràcticament en línia (per exemple, que davant d'un frau amb una targeta de crèdit).
*Els temps de resposta. El gran volum de dades que s'han de processar en molts casos per a obtenir un model vàlid és un inconvenient; això implica grans quantitats de temps de procés i hi ha problemes que requereixen una resposta en temps real.
 
==Eines de software==
 
Existeixen moltes eines de software pel desenvolupament de models de mineria de dades, tantstant lliures com a comercials, per exemple:
 
*R
Línia 183:
==Mineria de dades i altres disciplines anàlogues==
 
Suscita certa polèmica ella definirdefinició de les fronteres existents entre la mineria de dades i disciplines anàlogues, com poden ser-ho l'estadística, la intel·ligència artificial, etc. Hi ha qui sostenensosté que la mineria de dades no és sinó estadística embolicada en un argot de negocis que la converteixinconverteixen en un producte de venda. D'altres en canvi, troben en ellaaquesta disciplina una sèrie de problemes i mètodes específics que la fan diferent d'altres disciplines.
 
El fet és, que, a la pràctica, la totalitat dels models i algoritmes d'ús general en mineria de dades -xarxes neuronals, arbres de regressió i classificació, models logístics, anàlisi de components principals, etc. - tenen una tradició relativament llarga en altres camps.
 
== Vegeu també ==