Mineria de dades: diferència entre les revisions
Contingut suprimit Contingut afegit
Correcció ortogràfica en curs. L'autor hauria de refer o completar la frase següent: "Exemple d'ella és CRISP-DM, es creu que SEMMA és una metodologia SAS declara en la seva pàgina que aquesta NO és una metodologia" |
Correcció ortogràfica i gramatical enllestida~~~~ |
||
Línia 1:
{{millorar ortografia|data=abril de 2013}}
La '''mineria de dades''' (''Data Mining'') és un procés no trivial d'identificació d’informació vàlida, nova, potencialment útil i entenible, de patrons comprensibles que es troben ocults en les dades.<ref>Fayyad i altres, 1996</ref>
La '''mineria de dades''' engloba tot un conjunt de tècniques encaminades a l'extracció de coneixement processable, implícit en les [[bases de dades]]. Està íntimament lligat a la supervisió de processos industrials, ja que resulta molt útil per aprofitar les dades emmagatzemades a les bases de dades.
Línia 12:
# '''Selecció del conjunt de dades''', tant en el que es refereix a les [[variable objectiu|variables objectiu]] (aquelles que es volen predir, calcular o inferir), com a les [[variable dependents|variables independents]] (les que serveixen per fer el càlcul o procés), com possiblement al [[mostreig]] dels [[Registre (base de dades)|registres]] disponibles.
# '''Anàlisi de les propietats de les dades''', en especial els histogrames, diagrames de dispersió, presència de valors atípics i falta de dades (valors nuls).
# '''Transformació del conjunt de dades d'entrada''': es realitzarà de diverses formes en funció de l'anàlisi prèvia, amb l'objectiu de preparar-ho per aplicar la tècnica de mineria de dades que millor s'adapti a les dades i al problema
# '''Seleccionar i aplicar la tècnica de mineria de dades''': es construeix el model predictiu, de classificació o segmentació.
# '''Extracció de coneixement''': mitjançant una tècnica de mineria de dades, s'obté un model de coneixement
# '''Interpretació i avaluació de dades''': un cop obtingut el model, s'ha de procedir a la seva validació comprovant que les conclusions que llança són vàlides i prou satisfactòries. En el cas d'haver obtingut diversos models mitjançant l'ús de diferents tècniques, s'han de comparar els models a la recerca d'aquell que correspon millor al problema. Si cap dels models assoleix els resultats esperats, cal alterar algun dels passos anteriors per generar nous models.
Si el model final no supera aquesta avaluació, el procés es podria repetir des del principi o, si un expert ho considera oportú, a partir de qualsevol dels passos anteriors. Aquesta retroalimentació es podria repetir les vegades que es considerés necessari fins a obtenir un model vàlid.
Un cop validat, el model estarà a punt per a la seva explotació.
Línia 55:
== Tècniques de mineria de dades ==
Com ja s'ha comentat, les tècniques de la mineria de dades provenen de la [[Intel·ligència artificial]] i de l'[[estadística]]
Les tècniques més representatives són:
Línia 70:
** Algorisme C4.5.
*'''Model estadístic'''.- És una expressió simbòlica en forma d'igualtat o equació que es fa servir en tots els dissenys experimentals i en la regressió, per indicar els diferents factors que modifiquen la variable de resposta.
*'''Algorisme d'agrupament'''.- És un procediment d'agrupació d'una sèrie de vectors segons criteris habitualment de distància, i es tractarà de disposar dels vectors d'entrada de forma que estiguin més a prop aquells que tinguin característiques comunes.
Línia 90:
== Mineria de dades basada en teoria de la informació ==
Totes les eines tradicionals de mineria de dades assumeixen que les dades que s'usaran per a construir els models contenen la informació necessària
L'inconvenient és que això no és necessàriament cert. A més, hi ha un altre problema més gros encara. Una vegada construït el model, no és possible conèixer si aquest ha capturat tota la informació disponible en les dades. Per aquesta raó la pràctica comuna és realitzar diversos models amb diferents paràmetres per veure si n'hi ha algun que destaca a l'hora d'aconseguir millors resultats.
Una visió relativament nova a l'anàlisi de dades soluciona aquests problemes
El 1948 Claude Shannon va publicar un treball titulat "Una Teoria Matemàtica de la Comunicació". Posteriorment aquesta va passar a anomenar-se "Teoria de la Informació" i va establir les bases de la comunicació i la codificació de la informació. Shannon va proposar una manera de mesurar la quantitat d'informació per expressar en bits.
Línia 115:
===Terrorisme===
L'
===Fraus ===
Línia 121:
===Genètica ===
Dins l'estudi de la genètica humana, l'objectiu principal és entendre la relació cartogràfica entre les parts i la variació individual en les seqüències d'ADN i la variabilitat en la susceptibilitat a les malalties. És a dir, es tractaria de saber com els canvis dins la seqüència d'ADN d'un individu afecten el risc de desenvolupar malalties comunes. Això és molt important per ajudar a millorar el diagnòstic, prevenció i tractament de les malalties. La tècnica de mineria de dades que s'utilitza per realitzar aquesta feina es coneix com a "reducció de dimensionalitat multifactorial".
===Hàbits de compres ===
Un estudi molt citat va detectar que els divendres hi havia
===Audiències televisives ===
Línia 144:
===Negocis===
La mineria de dades pot contribuir significativament en les aplicacions d'administració empresarial
En general, les empreses que empren mineria de dades veuen ràpidament el retorn de la inversió, però també reconeixen que el nombre de models predictius desenvolupats pot créixer molt ràpidament.
Línia 156:
=== Jocs ===
Des de la dècada de 1960, amb la disponibilitat dels oracles de certs [[Teoria_de_jocs_combinatòria| jocs combinatoris]], també anomenats bases de dades de
==Tendències==
Línia 185:
Suscita certa polèmica la definició de les fronteres existents entre la mineria de dades i disciplines anàlogues, com poden ser l'estadística, la intel·ligència artificial, etc. Hi ha qui sosté que la mineria de dades no és sinó estadística embolicada en un argot de negocis que la converteixen en un producte de venda. D'altres en canvi, troben en aquesta disciplina una sèrie de problemes i mètodes específics que la fan diferent d'altres disciplines.
El fet és que, a la pràctica, la totalitat dels models i algoritmes d'ús general en mineria de dades -xarxes neuronals, arbres de regressió i classificació, models logístics, anàlisi de components principals, etc
== Vegeu també ==
|