Tidy data: diferència entre les revisions

Contingut suprimit Contingut afegit
Creada per traducció de la pàgina «Tidy data»
(Cap diferència)

Revisió del 19:03, 24 nov 2021

Les dades ordenades o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.[1] És un dels processos de neteja importants durant el processament de dades massives o 'big data' i és un pas habitual en la ciència de dades. Els conjunts de dades ordenades tenen una estructura que facilita la seva anàlisi posterior, ja que són més senzills de manipular, modelar i visualitzar.

Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.[1][2]

Característiques

Jeff Leek, en el seu llibre The Elements of Data Analytic Style, resumeix les característiques de les dades ordenades amb els punts següents:[3]

  1. Cada variable que es mesura ha de ser en una columna.
  2. Cada observació diferent d'aquesta variable ha de ser en una fila diferent.
  3. Ha d'haver una taula diferent per a cada "classe" de variable. Això és equivalent al que es coneix com a tercera forma normal de Codd.
  4. Si hi ha múltiples taules, ha d'existir una columna en cada taula que permeti enllaçar-les.

Referències

  1. 1,0 1,1 Wickham, Hadley «Tidy Data». Journal of Statistical Software, 59, 10, 1 enero 2014. DOI: 10.18637/JSS.V059.I10 [Consulta: 9 diciembre 2018].
  2. «Tidy data». Journal of Statistical Software, VV, II.
  3. Jeff Leek, The Elements of Data Analytic Style, Leanpub, 2015-03-02