Mineria de dades: diferència entre les revisions

Contingut suprimit Contingut afegit
Correcció ortogràfica en curs. L'autor hauria de refer o completar la frase següent: "Exemple d'ella és CRISP-DM, es creu que SEMMA és una metodologia SAS declara en la seva pàgina que aquesta NO és una metodologia"
Correcció ortogràfica i gramatical enllestida~~~~
Línia 1:
{{millorar ortografia|data=abril de 2013}}
La '''mineria de dades''' (''Data Mining'') és un procés no trivial d'identificació d’informació vàlida, nova, potencialment útil i entenible, de patrons comprensibles que es troben ocults en les dades.<ref>Fayyad i altres, 1996</ref>
 
La '''mineria de dades''' engloba tot un conjunt de tècniques encaminades a l'extracció de coneixement processable, implícit en les [[bases de dades]]. Està íntimament lligat a la supervisió de processos industrials, ja que resulta molt útil per aprofitar les dades emmagatzemades a les bases de dades.
Línia 12:
# '''Selecció del conjunt de dades''', tant en el que es refereix a les [[variable objectiu|variables objectiu]] (aquelles que es volen predir, calcular o inferir), com a les [[variable dependents|variables independents]] (les que serveixen per fer el càlcul o procés), com possiblement al [[mostreig]] dels [[Registre (base de dades)|registres]] disponibles.
# '''Anàlisi de les propietats de les dades''', en especial els histogrames, diagrames de dispersió, presència de valors atípics i falta de dades (valors nuls).
# '''Transformació del conjunt de dades d'entrada''': es realitzarà de diverses formes en funció de l'anàlisi prèvia, amb l'objectiu de preparar-ho per aplicar la tècnica de mineria de dades que millor s'adapti a les dades i al problema,. aA aquest pas també se'l coneix com '''preprocessament''' de les dades.
# '''Seleccionar i aplicar la tècnica de mineria de dades''': es construeix el model predictiu, de classificació o segmentació.
# '''Extracció de coneixement''': mitjançant una tècnica de mineria de dades, s'obté un model de coneixement, que representa patrons de comportament observats en els valors de les variables del problema o relacions d'associació entre aquestes variables. També poden usar-se diverses tècniques al mateix temps per a generar diferents models, encara que generalment cada tècnica obliga a un preprocessat diferent de les dades.
# '''Interpretació i avaluació de dades''': un cop obtingut el model, s'ha de procedir a la seva validació comprovant que les conclusions que llança són vàlides i prou satisfactòries. En el cas d'haver obtingut diversos models mitjançant l'ús de diferents tècniques, s'han de comparar els models a la recerca d'aquell que correspon millor al problema. Si cap dels models assoleix els resultats esperats, cal alterar algun dels passos anteriors per generar nous models.
 
Si el model final no supera aquesta avaluació, el procés es podria repetir des del principi o, si un expert ho considera oportú, a partir de qualsevol dels passos anteriors. Aquesta retroalimentació es podria repetir les vegades que es considerés necessari fins a obtenir un model vàlid.
 
Un cop validat, el model estarà a punt per a la seva explotació.
Línia 55:
== Tècniques de mineria de dades ==
 
Com ja s'ha comentat, les tècniques de la mineria de dades provenen de la [[Intel·ligència artificial]] i de l'[[estadística]],; aquestes tècniques, no són més que [[algorisme]]s, més o menys sofisticats que s'apliquen sobre un conjunt de dades per obtenir uns resultats.
 
Les tècniques més representatives són:
Línia 70:
** Algorisme C4.5.
 
*'''Model estadístic'''.- És una expressió simbòlica en forma d'igualtat o equació que es fa servir en tots els dissenys experimentals i en la regressió, per indicar els diferents factors que modifiquen la variable de resposta.
 
*'''Algorisme d'agrupament'''.- És un procediment d'agrupació d'una sèrie de vectors segons criteris habitualment de distància, i es tractarà de disposar dels vectors d'entrada de forma que estiguin més a prop aquells que tinguin característiques comunes.
Línia 90:
 
== Mineria de dades basada en teoria de la informació ==
Totes les eines tradicionals de mineria de dades assumeixen que les dades que s'usaran per a construir els models contenen la informació necessària pera fi d'aconseguir el propòsit buscat: obtenir prou coneixement que pugui ser aplicat al negoci (o problema) per a obtenir un benefici (o solució).
 
L'inconvenient és que això no és necessàriament cert. A més, hi ha un altre problema més gros encara. Una vegada construït el model, no és possible conèixer si aquest ha capturat tota la informació disponible en les dades. Per aquesta raó la pràctica comuna és realitzar diversos models amb diferents paràmetres per veure si n'hi ha algun que destaca a l'hora d'aconseguir millors resultats.
 
Una visió relativament nova a l'anàlisi de dades soluciona aquests problemes, fent que la pràctica de la mineria de dades s'assembli més a una ciència que a un art.
 
El 1948 Claude Shannon va publicar un treball titulat "Una Teoria Matemàtica de la Comunicació". Posteriorment aquesta va passar a anomenar-se "Teoria de la Informació" i va establir les bases de la comunicació i la codificació de la informació. Shannon va proposar una manera de mesurar la quantitat d'informació per expressar en bits.
Línia 115:
 
===Terrorisme===
L' [[FBI]] analitza les bases de dades comercials per a detectar terroristes. A principis del mes de juliol de 2002, el director del [[Federal Bureau of Investigation]] (FBI), [[John Aschcroft]], va anunciar que el Departament de Justícia començarà a introduir-se en la vasta quantitat de dades comercials referents als hàbits i preferències de compra dels consumidors, amb la finalitat de descobrir potencials terroristes abans que executin una acció.
 
===Fraus ===
Línia 121:
 
===Genètica ===
Dins l'estudi de la genètica humana, l'objectiu principal és entendre la relació cartogràfica entre les parts i la variació individual en les seqüències d'ADN i la variabilitat en la susceptibilitat a les malalties. És a dir, es tractaria de saber com els canvis dins la seqüència d'ADN d'un individu afecten el risc de desenvolupar malalties comunes. Això és molt important per ajudar a millorar el diagnòstic, prevenció i tractament de les malalties. La tècnica de mineria de dades que s'utilitza per realitzar aquesta feina es coneix com a "reducció de dimensionalitat multifactorial".
 
===Hàbits de compres ===
Un estudi molt citat va detectar que els divendres hi havia unaun quantitatnombre inusualment elevadaelevat de clients que adquirien alhora bolquers i cervesa. Es va detectar que es devia al fet que aquest dia solien acudir al supermercat pares joves, la perspectiva dels quals per al cap de setmana consistia a quedar-se a casa cuidant-se del seu fill i veient la televisió amb una cervesa a la mà. El supermercat va poder incrementar les seves vendes de cervesa col·locant-les pròximes als bolquers per a fomentar les vendes compulsives.
 
===Audiències televisives ===
Línia 144:
===Negocis===
 
La mineria de dades pot contribuir significativament en les aplicacions d'administració empresarial basadabasades en la relació amb el client. En lloc de contactar amb el client de forma indiscriminada a través d'un centre de trucades o enviant cartes, només es contactarà amb aquells que es percebi que tenen una major probabilitat de respondre positivament a una determinada oferta o promoció.
 
En general, les empreses que empren mineria de dades veuen ràpidament el retorn de la inversió, però també reconeixen que el nombre de models predictius desenvolupats pot créixer molt ràpidament.
Línia 156:
=== Jocs ===
 
Des de la dècada de 1960, amb la disponibilitat dels oracles de certs [[Teoria_de_jocs_combinatòria| jocs combinatoris]], també anomenats bases de dades de taulestaulers (per exemple, per a uns [[escacs]] 3x3) amb qualsevol configuració d'inici, petits taulers del joc de punt i línies (també conegut per ''punts i capses''), el joc HEX per a taulelltauler petit, i els finals determinats en els escacs, una nova àrea de mineria de dades s'ha obert. Aquesta és l'extracció de les estratègies humanes utilitzables d'aquests oracles.
 
==Tendències==
Línia 185:
Suscita certa polèmica la definició de les fronteres existents entre la mineria de dades i disciplines anàlogues, com poden ser l'estadística, la intel·ligència artificial, etc. Hi ha qui sosté que la mineria de dades no és sinó estadística embolicada en un argot de negocis que la converteixen en un producte de venda. D'altres en canvi, troben en aquesta disciplina una sèrie de problemes i mètodes específics que la fan diferent d'altres disciplines.
 
El fet és que, a la pràctica, la totalitat dels models i algoritmes d'ús general en mineria de dades -xarxes neuronals, arbres de regressió i classificació, models logístics, anàlisi de components principals, etc .- tenen una tradició relativament llarga en altres camps.
 
== Vegeu també ==