Mineria de dades: diferència entre les revisions
Contingut suprimit Contingut afegit
m Removing Link GA template (handled by wikidata) |
Correcció ortogràfica en curs. L'autor hauria de refer o completar la frase següent: "Exemple d'ella és CRISP-DM, es creu que SEMMA és una metodologia SAS declara en la seva pàgina que aquesta NO és una metodologia" |
||
Línia 8:
== Procés ==
Un procés típic de mineria de dades consta
# '''Selecció del conjunt de dades''', tant en el que es refereix a les [[variable objectiu|variables objectiu]] (aquelles que es volen predir, calcular o inferir),
# '''Anàlisi de les propietats de les dades''', en especial els histogrames, diagrames de dispersió, presència de valors atípics i falta de dades (valors nuls).
# '''Transformació del conjunt de dades d'entrada''': es realitzarà de diverses formes en funció de l'anàlisi prèvia, amb l'objectiu de preparar-ho per aplicar la tècnica de mineria de dades que millor s'adapti a les dades i al problema, a aquest pas també se'l coneix com '''preprocessament''' de les dades.
# '''Seleccionar i aplicar la tècnica de mineria de dades''': es construeix el model predictiu, de classificació o segmentació.
# '''Extracció de coneixement''': mitjançant una tècnica de mineria de dades, s'obté un model de coneixement, que representa patrons de comportament observats en els valors de les variables del problema o relacions d'associació entre aquestes variables. També poden usar-se diverses tècniques al mateix temps per a generar diferents models, encara que generalment cada tècnica obliga a un preprocessat diferent de les dades.
# '''Interpretació i avaluació de dades''': un cop obtingut el model, s'ha de procedir a la seva validació comprovant que les conclusions que llança són vàlides i prou satisfactòries. En el cas d'haver obtingut diversos models mitjançant l'ús de diferents tècniques, s'han de comparar els models a la recerca d'aquell que correspon millor al problema. Si cap dels models assoleix els resultats esperats,
Si el model final no supera aquesta avaluació, el procés es podria repetir des del principi o si un expert ho considera oportú a partir de qualsevol
Un cop validat, el model estarà a punt per a la seva explotació.
Línia 23:
== Fonaments de la mineria de dades ==
Les tècniques de Data Mining són el resultat d'un llarg procés d'investigació.
Aquesta evolució va començar quan les dades de negocis van ser
És possible aplicar la
#'''Recol·lecció massiva de dades'''
#'''Potents computadores amb multiprocessadors'''
Línia 34:
El procés de mineria de dades passa per les següents fases:
* [[Filtrat]] de dades.
* Selecció de
* Extracció de
* Interpretació i
Línia 62:
** El perceptró.
** El perceptró multicapa.
** Els
*'''Regressió lineal'''.- És la més utilitzada per formar relacions entre dades. El model de mineria de dades representa les dades amb un únic node, que defineix la fórmula de regressió. Ràpida i eficaç però insuficient en espais
*'''Arbre de decisió'''.- Un arbre de decisió és un model de predicció utilitzat en l'àmbit de la [[intel·ligència artificial]], donada una base de dades es construeixen aquests diagrames de construccions lògiques, molt similars als sistemes de predicció basats en regles, que serveixen per representar i categoritzar una sèrie de condicions que succeeixen de manera successiva, per a la resolució d'un problema. Exemples:
Línia 72:
*'''Model estadístic'''.- És una expressió simbòlica en forma d'igualtat o equació que es fa servir en tots els dissenys experimentals i en la regressió per indicar els diferents factors que modifiquen la variable de resposta.
*'''Algorisme d'agrupament'''.- És un procediment d'agrupació d'una sèrie de vectors segons criteris habitualment de distància, i es tractarà de disposar dels vectors d'entrada de forma que estiguin més a prop aquells que tinguin característiques comunes.
Segons l'objectiu de l'anàlisi de les dades, els algorismes utilitzats es classifiquen en supervisats i no supervisats (Weiss i Indurkhya, 1998):
* {{subratllat| Algorismes supervisats }} (o predictius): prediuen una dada (o un conjunt d'elles) desconeguda a priori, a partir d'altres de conegudes.
* {{subratllat| Algorismes no supervisats }} (o del descobriment del coneixement): es descobreixen patrons i tendències en les dades.
== Característiques ==
L'entorn de la mineria de dades sol tenir una arquitectura [[client-servidor]].
Les eines de la mineria de dades ajuden a extreure el mineral de la informació enterrat en arxius corporatius o en registres públics, arxivats
La mineria de dades produeix cinc tipus d'informació:
* Associacions.
Línia 96:
Una visió relativament nova a l'anàlisi de dades soluciona aquests problemes, fent que la pràctica de la mineria de dades s'assembli més a una ciència que a un art.
El 1948 Claude Shannon va publicar un treball
El 1999 Dorian Pyle va publicar un llibre
Amb aquesta perspectiva i utilitzant la Teoria de la Informació, és possible mesurar la quantitat d'informació disponible en les dades i quina proporció de
La capacitat de mesurar informació continguda en les dades té altres avantatges importants.
Línia 108:
És possible seleccionar un grup de variables òptim que contingui la informació necessària per realitzar un model de predicció.
Un cop que les variables són processades amb la finalitat de crear el mapa d'informació i després seleccionades aquelles que aporten més informació, l'elecció de l'instrument que ens servirà per crear el model deixa de tenir importància, ja que la major part del treball
==Aplicacions==
Aquesta tècnica de processament de grans quantitats de dades té diverses aplicacions
actualment en la vida quotidiana. Aquí
===Terrorisme===
===Fraus ===
Detecció de '''fraus''' en les targetes de crèdit.
===Genètica ===
Dins l'estudi de la genètica humana, l'objectiu principal és entendre la relació cartogràfica entre les parts i la variació individual en les seqüències d'ADN i la variabilitat en la susceptibilitat a les malalties. És a dir, es tractaria de saber com els canvis dins la seqüència d'ADN d'un individu
===Hàbits de compres ===
Un estudi molt citat va detectar que els divendres hi havia una quantitat inusualment elevada de clients que adquirien alhora bolquers i cervesa. Es va detectar que es devia al fet que aquest dia solien acudir al supermercat pares joves, la perspectiva dels quals per al cap de setmana consistia a quedar-se a casa cuidant del seu fill i veient la televisió amb una cervesa
===Audiències
La [[British Broadcasting Corporation]] (BBC) del Regne Unit empra un sistema per a predir la grandària de les audiències televisives per a un programa proposat, així com el temps òptim d'exhibició (Brachman i altres, 1996). El sistema utilitza xarxes neuronals i arbres de decisió aplicats a dades històriques de la cadena per a determinar els criteris que participen segons el programa que cal presentar.
===Ciència i
En els últims anys la mineria de dades s’està utilitzant àmpliament en diverses àrees relacionades amb la ciència i l'enginyeria. Alguns exemples d’aplicació en aquests camps són:
Línia 136:
En l'àmbit de l'enginyeria elèctrica, Les tècniques mineria de dades han estat àmpliament utilitzades per a monitorar les condicions de les instal·lacions d'alta tensió. La finalitat d'aquest monitoratge és obtenir informació valuosa sobre l'estat de l'aïllament dels equips
Per a la vigilància de les vibracions o l'anàlisi dels canvis de càrrega en transformadors s'utilitzen certes tècniques per l'agrupació de dades (clustering) tals com els
===Anàlisi de gasos===
També s'han aplicat tècniques de mineria de dades per a l'anàlisi de gasos dissolts (DGA, Dissolved gas analysis)
===Negocis===
Línia 148:
En general, les empreses que empren mineria de dades veuen ràpidament el retorn de la inversió, però també reconeixen que el nombre de models predictius desenvolupats pot créixer molt ràpidament.
En lloc de crear models per a predir quins clients poden canviar, l'empresa podria construir models separats per a cada regió i/o per a cada tipus de client. També pot voler determinar quins clients seran rendibles durant un moment (una quinzena, un mes,...) i només enviar les ofertes a les persones que és probable que siguin rendibles. Per mantenir aquesta quantitat de models, cal gestionar les versions de cada model i passar a una mineria de dades
===Comportament d'Internet===
També és una àrea en voga el de l'anàlisi del comportament dels visitants -sobretot, quan són clients potencials- en una pàgina d'Internet. O la utilització de la informació -obtinguda per mitjans més o menys legítims- sobre ells per oferir-los propaganda adaptada específicament al seu perfil. O per, una vegada que adquireixen un determinat producte, saber immediatament quin altre oferir-los tenint en compte la informació històrica disponible sobre els clients que han comprat el primer.
=== Jocs ===
Des de la dècada de 1960, amb la disponibilitat dels oracles de certs [[Teoria_de_jocs_combinatòria| jocs combinatoris]], també anomenats bases de dades de taules (per exemple, per a uns [[escacs]] 3x3) amb qualsevol configuració d'inici, petits taulers del joc de punt i línies (també conegut per ''punts i capses''), el joc HEX per a taulell petit, i els finals determinats en els escacs, una nova àrea de mineria de dades s'ha obert. Aquesta és l'extracció de les estratègies humanes utilitzables d'aquests oracles.
==Tendències==
La
*La importància que han cobrat les dades no estructurades (text, pàgines d'Internet, etc.)
*La necessitat d'integrar els algoritmes i resultats obtinguts en sistemes operacionals, portals d'Internet, etc.
*L'exigència que els processos funcionin pràcticament en línia (per exemple,
*Els temps de resposta. El gran volum de dades que s'han de processar en molts casos per a obtenir un model vàlid és un inconvenient; això implica grans quantitats de temps de procés i hi ha problemes que requereixen una resposta en temps real.
==Eines de software==
Existeixen moltes eines de software pel desenvolupament de models de mineria de dades,
*R
Línia 183:
==Mineria de dades i altres disciplines anàlogues==
Suscita certa polèmica
El fet és
== Vegeu també ==
|