En estadística descriptiva, un diagrama de caixa[1] (en anglès box plot o boxplot) és un gràfic, basat en quartils, amb què es representa la distribució de freqüències o de probabilitat d'una variable a partir d'un conjunt de dades.[2] Permet examinar visualment i de manera ràpida aquest conjunt de dades, així com comparar-ne més d'un.

Diagrama de caixa.
Taula comparativa amb diagrames de caixa de les dades dels experiments de Michelson–Morley per calcular la velocitat de la llum.

Està constituït per un rectangle, la "caixa", i dos braços, els "bigotis", i el conjunt se situa damunt la recta de possibles valors de la variable. La caixa representa el recorregut interquartílic, té l'extrem inferior al quartil Q1 i el superior al quartil Q3. Dins la caixa, una banda representa el quartil Q2 o mediana. Els bigotis s'estenen des de cada un dels extrems de la caixa fins als valors mínim Li i màxim Ls de les dades dins d'un interval considerat d'observacions típiques. Una tria comuna per aquest interval és entre i , amb , que és l'amplitud interquartílica (IQR són sigles de l'anglès interquartile range). Les dades que queden fora d'aquest interval es consideren observacions atípiques i es representen, si n'hi ha, amb petits cercles o asteriscs.[3]

És un gràfic, doncs, que subministra la informació dels valors mínim i màxim, dels quartils Q1, Q2 o mediana i Q3, dels valors extrems en l'interval d'observacions típiques, i de les dades atípiques. Amb aquestes dades, n'hi ha prou per veure a cop d'ull aspectes importants de la distribució: per exemple, que la mediana no estigui centrada en el rectangle indica una distribució asimètrica. Té l'avantatge que permet la representació en poc espai, de forma que se'n poden comparar molts a la vegada. Altres gràfics que permeten estimar la distribució són l'histograma o l'estimació de densitat basada en nuclis, amb avantatges diferents.

Exemple: com fer un diagrama de caixa

modifica
 +-----+-+
 * o |-------| | |---|
 +-----+-+
+---+---+---+---+---+---+---+---+---+---+---+---+
0 5 10 12
  • S'ordenen les dades i se n'extreuen el valor mínim, el màxim, els quartils Q1, Q2 i Q3 i l'amplitud interquartílica IQR.
En l'exemple:
  • Valor 7: és el Q1 (25% de les dades)
  • Valor 8.5: és el Q2 o mediana (el 50% de les dades)
  • Valor 9: és el Q3 (75% de les dades)
  • Amplitud interquartílica IQR:  
  • Per dibuixar els bigotis, les línies que s'estenen des de la caixa, cal calcular els límits inferior i superior, Li i Ls, que delimiten les observacions atípiques.
Per aquesta raó, es calcula quan es consideren les observacions atípiques. Són aquelles inferiors a   o superiors a  .
En l'exemple:
  • Inferior:  
  • Superior:  
Ara es busquen els últims valors que no són atípics, que seran els extrems dels bigotis.
  • En l'exemple: 5 i 10
  • Es marquen com a atípiques totes les dades que estan fora de l'interval  .
En l'exemple: 0.5 i 3.5
  • A més, es poden considerar valors extremadament atípics aquells que excedeixen   o  , en aquest exemple representats amb un asterisc (*).
De manera que, en l'exemple:
  • Inferior:  
  • Superior:  

Referències

modifica
  1. «Diagrama de caixa». Cercaterm. TERMCAT, Centre de Terminologia. [Consulta: 27 desembre 2012].
  2. «Diagrama de caja» (en castellà). [Consulta: 27 gener 2022].
  3. «▷ Diagrama de caja y bigotes (boxplot)» (en castellà), 05-12-2021. [Consulta: 27 gener 2022].

Enllaços externs

modifica