Anàlisi de components principals

tècnica estadística usada per reduir la dimensionalitat d'un conjunt de dades

L'anàlisi de components principals (ACP, PCA en anglès), en estadística, és una tècnica utilitzada per reduir la dimensionalitat d'un conjunt de dades per a poder-les representar gràficament en gràfics de dues o tres dimensions agrupant diverses variables de les dades en factors, o components, compostos per l'agrupació de diverses variables. Intuïtivament, la tècnica serveix per determinar el nombre de factors explicatius d'un conjunt de dades que determinen en major grau la variabilitat d'aquestes dades. L'ACP és útil per identificar les variables responsables de causar una falla o les variables més afectades per la falla.

Representació gràfica d'una anàlisi de components principals en què els elements de la mostra es distribueixen sobre un eix cartesià. En la imatge els punts s'han representat formant agrupacions d'elements diferenciats per la seva forma i color.

L'ACP construeix una transformació lineal que escull un nou sistema de coordenades per al conjunt original de dades en el qual, la variància de major mida del conjunt de dades és capturada en el primer eix, primera component principal. La segona variància més gran és el segon eix, segona component principal, i així successivament. Per construir aquesta transformació lineal s'ha de construir, primer, la matriu de covariància o matriu de coeficients de correlació. Degut a la simetria d'aquesta matriu existeix una base completa de vectors propis. La transformació que passa les antigues coordenades a les coordenades de la nova base és la transformació lineal necessària per reduir la dimensionalitat de les dades.

Mètode modifica

L'ACP no es pot aplicar en el conjunt de dades en si, perquè aquestes dades presenten magnituds i mètrica diferent. El primer pas és preparar el conjunt de dades, a fi de tenir un millor representació en el monitoratge posterior.

  • Preparació de les dades.
    • Treure dades sorolloses.
    • Escalar les dades.
    • Treure dades anòmales.

Cal normalitzar les dades, perquè no tinguin magnitud i es distribueixin segons una distribució   i, posteriorment, eliminar aquelles que estiguin molt lluny de la mitjana aritmètica.

Un cop preparades les dades, un dels mètodes a aplicar es basa en la matriu de covariàncies

  • Calcular la matriu de covariàncies de les dades
 
  • Es descompon la matriu de covariàncies i es calcula la matriu de vectors propis que diagonalitza la matriu C i la matriu de valors propis.
 

De és la matriu de valors propis. D és una matriu diagonal que conté valors reals no negatius en la diagonal principal, en ordre decreixent.

  • Projectar el conjunt de dades en el nou espai dimensional, seguint els vectors propis calculats.
 

Propietats i limitacions modifica

ACP és l'esquema lineal òptim per comprimir un conjunt d'alta dimensió de vectors en un conjunt de menor dimensió de vectors, en termes de mínim error de mitjana quadràtic, i reconstruir les dades del conjunt original amb aquest conjunt de menor dimensió.

L'aplicació del ACP està limitat per diverses assumpcions[1]

  • Assumpció de linealitat: S'assumeix que les dades observades són combinació lineal d'una certa base.
  • Importància estadística de la mitjana i la covariança: ACP utilitza els vectors propis de la matriu de covariància i només troba els eixos de dades independents sota considerant que les dades es distribueixen segons una gaussiana
  • Variàncies grans tenen una dinàmica important: ACP només realitza una rotació que alinea els eixos transformats amb les direccions de màxima variancia.

ACP implica només rotació i escalat de les dades. Les assupcions esmentades estan fetes per simplificar la computació algebraica del conjunt de dades.

Usos modifica

S'utilitza per al monitoratge d'un conjunt de dades utilitzant aquesta reducció de dimensionalitat, millorant el monitoratge univariant. També es pot aplicar en la detecció de falles,[2]

Detecció de falles modifica

Per la detecció de falles s'utilitzen els valors   de Hotelling, per detectar comportaments estranys en els valors de les variables, i el valor  , per monitorar l'error existent en alguna dada (correspon a la predicció de l'error quadràtic, en anglès SPE)

 
 
 

Referències modifica

  1. Jonathon Shlens.A Tutorial on Principal Component Analysis. Arxivat 2010-02-15 a Wayback Machine.
  2. «Fault detection and diagnosis using statistical control charts and artificial neura». Artificial Intelligence in Egineering, 12, 1998, pàg. 35-47.
A Wikimedia Commons hi ha contingut multimèdia relatiu a: Anàlisi de components principals