L'Índex de Rand és una mesura de semblança entre dues particions d'objectes (per exemple, entre les categories resultants d'aplicar dos mètodes de categorització).

Definició

modifica

Sigui un conjunt de   objectes  , i dues particions   i   del conjunt d'objectes.

Aleshores, si definim

r': correspon al nombre de parells (a,b) on a i b es troben en un mateix grup tant a la partició   com a la partició  .

s: correspon al nombre de parells (a,b) on a i b es troben en un mateix grup de   però no de  .

t: correspon al nombre de parells (a,b) on a i b es troben en grups diferents de   però en canvi es troben en el mateix grup de  .

u: correspon al nombre de parells (a,b) on a i b es troben en grups diferents tant de   com de  .

l'índex Rand correspon al quocient:

 

L'índex de Rand ajustat

modifica

L'índex de Rand ajustat correspon a una modificació de l'índex de Rand per tal que l'esperança de l'índex sigui zero quan considerem particions aleatòries on totes les categories de la partició tenen el mateix nombre d'objectes.

Per definir-lo, tal com hem fet abans, considerem dues particions   i   sobre el conjunt d'objectes  . Aleshores, l'índex de Rand ajustat correspon a:

 

on   correspon al valor esperat de l'índex de Rand i   el valor màxim. Aquests valors es defineixen com segueix:

 
 

amb   definit com:

 

on, com s'ha dit, n és el nombre d'objectes i on   és el nombre d'objectes que hi ha a la partició  .

A diferència de l'índex de Rand que sempre dona valors positius, l'ajustat pot prendre valors negatius.