Independència condicional

En teoria de la probabilitat, dos esdeveniments aleatoris $A$ i $B$ són condicionalment independents donat un tercer esdeveniment $C$ precisament si l'ocurrència d' $A$ i l'ocurrència de $B$ són esdeveniments independents en la seva distribució de probabilitat condicional donada $C$ . En altres paraules, $A$ i $B$ són independents condicionalment donat $C$ si i només si, tenint en compte que $C$ es produeix, se sap que si es produeix $A$ no proporciona informació sobre la probabilitat que es produeixi $B$ , i el coneixement de si es produeix $B$ no proporciona informació sobre la probabilitat que es produeixi $A$ .

El concepte d'independència condicional es pot estendre des d'esdeveniments aleatoris a variables aleatòries i vectors aleatoris.

Independència condicional dels esdeveniments modifica

Definició modifica

En la notació estàndard de la teoria de la probabilitat, $A$ i $B$ són condicionalment independents $C$ si i només si $\Pr(A\cap B\mid C)=\Pr(A\mid C)\Pr(B\mid C)$ . La independència condicional de $A$ i $B$ donat $C$ es denota com $(A\perp \!\!\!\perp B)\mid C$ . Formalment:

$(A\perp \!\!\!\perp B)\mid C\quad \iff \quad \Pr(A\cap B\mid C)=\Pr(A\mid C)\Pr(B\mid C)$

(Eq.1)

o de forma equivalent,

(A\perp \!\!\!\perp B)\mid C\quad \iff \quad \Pr(A\mid B\cap C)=\Pr(A\mid C)\quad {\text{o}}\quad \Pr(B\mid C)=1.

Exemples modifica

La discussió sobre StackExchange proporciona un parell d'exemples útils (vegeu la referència).^[1]

Caselles de colors modifica

Cada casella representa un possible resultat. Els esdeveniments $\color {red}R$ , $\color {blue}B$ i $\color {gold}Y$ estan representats per les zones pintades de vermell, blau i groc respectivament. La intersecció entre els esdeveniments $\color {red}R$ i $\color {blue}B$ es pinta de porpra.

Aquests són dos exemples que il·lustren la independència condicional

Les probabilitats d'aquests esdeveniments són zones ombrejades respecte a l'àrea total. En els dos exemples $\color {red}R$ i $\color {blue}B$ són condicionalment independents donat $\color {gold}Y$ perquè:

\Pr({\color {red}R}\cap {\color {blue}B}\mid {\color {gold}Y})=\Pr({\color {red}R}\mid {\color {gold}Y})\Pr({\color {blue}B}\mid {\color {gold}Y})

^{[Nota 1]}

però no són condicionalment independents donat $\left[{\text{no }}{\color {gold}Y}\right]$ perquè:

\Pr({\color {red}R}\cap {\color {blue}B}\mid {\text{no }}{\color {gold}Y})\not =\Pr({\color {red}R}\mid {\text{no }}{\color {gold}Y})\Pr({\color {blue}B}\mid {\text{no }}{\color {gold}Y})

Clima i retards modifica

Sigui dos esdeveniments que siguin les probabilitats que les persones $A$ i $B$ tornin a casa a temps per sopar i el tercer esdeveniment $C$ és que una tempesta de neu afecti a la ciutat. Si tant $A$ com $B$ tinguessin una menor probabilitat d'arribar a casa a temps per sopar, aquestes probabilitats inferiors encara seran independents les unes de les altres. És a dir, el coneixement que $A$ arriba tard no indica si $B$ arribarà tard (poden viure a diferents barris, recórrer distàncies diferents i utilitzar diferents mitjans de transport). Tanmateix, si es té informació que viuen al mateix barri, utilitzen el mateix transport i treballen al mateix lloc, aleshores els dos esdeveniments NO són condicionalment independents si es veuen afectats per la tempesta de neu.

Suma de daus modifica

La independència condicional depèn de la naturalesa del tercer esdeveniment. Si es llancen dos daus ( $A$ i $B$ ), es pot suposar que els dos daus es comporten independentment l'un del altre. Si ens fixem en els resultats d'una matriu, no té relació amb l'altra matriu (és a dir, els dos daus són independents). Però si el primer resultat és 3, i algú us explica un tercer esdeveniment $C$ (per exemple, que la suma dels dos resultats sigui parell), aquesta informació addicional restringeix les opcions del segon resultat per a un nombre senar. És a dir, els dos esdeveniments poden ser independents, però NO condicionalment independents.

Alçada i vocabulari dels nens modifica

L'alçada $A$ i el vocabulari $B$ són independents; però no són condicionalment independents si s'afegeix l'edat $C$ .

Independència condicional de variables aleatòries modifica

Dues variables aleatòries $X$ i $Y$ són independents condicionals donada una tercera variable aleatòria $Z$ si i només si són independents en la distribució de probabilitats condicionals que dona $Z$ . Això és, $X$ i $Y$ són condicionalment independents donat $Z$ si i només si, donat qualsevol valor de $Z$ , la distribució de probabilitats de $X$ és el mateix per a tots els valors de $Y$ i la distribució de probabilitats de $Y$ és el mateix per a tots els valors de $X$ . Formalment:

$(X\perp \!\!\!\perp Y)\mid Z\quad \iff \quad F_{X,Y\,\mid \,Z\,=\,z}(x,y)=F_{X\,\mid \,Z\,=\,z}(x)\cdot F_{Y\,\mid \,Z\,=\,z}(y)\quad {\text{per a tot }}x,y,z$

(Eq.2)

on $F_{X,Y\,\mid \,Z\,=\,z}(x,y)=\Pr(X\leq x,Y\leq y\mid Z=z)$ és la funció de distribució acumulada condicional de $X$ i $Y$ donat $Z$ .

Dos esdeveniments $R$ i $B$ són condicionalment independents donada una σ-àlgebra $\Sigma$ si

\Pr(R\cap B\mid \Sigma )=\Pr(R\mid \Sigma )\Pr(B\mid \Sigma ){\text{ a.s.}}

on $\Pr(A\mid \Sigma )$ denota l'esperança condicional de la funció indicatriu de l'esdeveniment $A$ , $\chi _{A}$ , donada la σ-àlgebra $\Sigma$ . Això és,

\Pr(A\mid \Sigma ):=\operatorname {E} [\chi _{A}\mid \Sigma ].

Dues variables aleatòries $X$ i $Y$ són condicionalment independents donada una σ-àlgebra $\Sigma$ si l'equació anterior es manté per a tots $R$ en $\sigma (X)$ i $B$ en $\sigma (Y)$ .

Dues variables aleatòries $X$ i $Y$ són condicionalment independents donada una variable aleatòria $W$ si són independents, donat $\sigma (W)$ : la σ-àlgebra generada per $W$ . Això s'escriu comunament:

X\perp \!\!\!\perp Y\mid W

o

X\perp Y\mid W

Això es llegeix « $X$ és independent de $Y$ , donat $W$ »; el condicionament s'aplica a tota la declaració: «( $X$ és independent de $Y$ ) donat $W$ ».

(X\perp \!\!\!\perp Y)\mid W

Si $W$ assumeix un conjunt de valors comptable, que equival a la independència condicional de $X$ i $Y$ per als esdeveniments de la forma $[W=w]$ .

La independència condicional de més de dos esdeveniments, o de més de dues variables aleatòries, es defineix de manera analògica.

Els dos exemples següents mostren que $X\perp \!\!\!\perp Y$ ni implica ni està implicada per $(X\perp \!\!\!\perp Y)\mid W$ .

Primer, suposem que $W=0$ amb la probabilitat 0,5 i en cas contrari 1. Quan $W=0$ agafa $X$ i $Y$ per ser independents, cadascun té el valor 0 amb la probabilitat 0,99 i el valor 1 en cas contrari. Quan $W=1$ , $X$ i $Y$ tornen a ser independents, però aquesta vegada prenen el valor 1 amb la probabilitat 0,99. Aleshores $(X\perp \!\!\!\perp Y)\mid W$ . Pero $X$ i $Y$ són dependents, perquè $Pr(X=0)<Pr(X=0|Y=0)$ . Això és perquè $Pr(X=0)=0.5$ , però si $Y=0$ llavors és molt probable que això $W=0$ i així això $X=0$ és també així $Pr(X=0|Y=0)>0.5$ .
Per al segon exemple, suposem que $X\perp \!\!\!\perp Y$ , cadascuna prenent els valors 0 i 1 amb probabilitat 0,5. Fem que $W$ sigui el producte $X\cdot Y$ . Llavors quan $W=0$ , $Pr(X=0)=2/3$ , però $Pr(X=0|Y=0)=1/2$ , com $(X\perp \!\!\!\perp Y)\mid W$ és fals.

Consulteu el tutorial de Kevin Murphy on $X$ i $Y$ agafa els valors «mentals» i «esportius».^[2]

Independència condicional de vectors aleatoris modifica

Dos vectors aleatoris $\mathbf {X} =(X_{1},\ldots ,X_{l})^{\mathrm {T} }$ i $\mathbf {Y} =(Y_{1},\ldots ,Y_{m})^{\mathrm {T} }$ són condicionalment independents donat un tercer vector aleatori $\mathbf {Z} =(Z_{1},\ldots ,Z_{n})^{\mathrm {T} }$ si i només si són independents en la seva distribució acumulada condicional donada $\mathbf {Z}$ . Formalment:

$(\mathbf {X} \perp \!\!\!\perp \mathbf {Y} )\mid \mathbf {Z} \quad \iff \quad F_{\mathbf {X} ,\mathbf {Y} |\mathbf {Z} =\mathbf {z} }(\mathbf {x} ,\mathbf {y} )=F_{\mathbf {X} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} )\cdot F_{\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {y} )\quad {\text{ per a tot }}\mathbf {x} ,\mathbf {y} ,\mathbf {z}$

(Eq.3)

on $\mathbf {x} =(x_{1},\ldots ,x_{l})^{\mathrm {T} }$ , $\mathbf {y} =(y_{1},\ldots ,y_{m})^{\mathrm {T} }$ i $\mathbf {z} =(z_{1},\ldots ,z_{n})^{\mathrm {T} }$ i les distribucions acumulatives condicionals es defineixen de la manera següent.

{\begin{aligned}F_{\mathbf {X} ,\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} ,\mathbf {y} )&=\Pr(X_{1}\leq x_{1},\ldots ,X_{l}\leq x_{l},Y_{1}\leq y_{1},\ldots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\\[6pt]F_{\mathbf {X} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} )&=\Pr(X_{1}\leq x_{1},\ldots ,X_{l}\leq x_{l}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\\[6pt]F_{\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {y} )&=\Pr(Y_{1}\leq y_{1},\ldots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\end{aligned}}

Usos en inferència bayesiana modifica

Sigui p la proporció de votants que votaran «sí» en un proper referèndum. En fer una enquesta d'opinió, es tria n votants a l'atzar entre la població. Per a i = 1, ..., n, fem X_i = 1 o 0 corresponent, respectivament, a si el votant escollit votarà o no votarà «sí».

En un enfocament de freqüència d'inferència estadística, no s'atribuiria cap distribució de probabilitats a p (tret que les probabilitats es poguessin interpretar d'alguna manera com a freqüències relatives d'ocurrència d'algun esdeveniment o com a proporcions d'alguna població) i es diria que X₁, ..., X_n són variables aleatòries independents.

Per contra, en un enfocament bayesià d'inferència estadística, es podria assignar una distribució de probabilitats a p independentment de la inexistència d'alguna interpretació d'aquest tipus de «freqüència», i es deuria interpretar les probabilitats com a graus de creença que p es troba en qualsevol interval a que s'assigna una probabilitat. En aquest model, les variables aleatòries X₁, ..., X_n no són independents, però són condicionalment independents atès el valor de p. En particular, si s'observa que un gran nombre de X són iguals a 1, això implicaria una alta probabilitat condicional, atès que l'observació, que p és a prop d'1, i per tant una alta probabilitat condicional, donada aquesta observació, que la següent. X a observar serà igual a 1.

Les normes de la independència condicional modifica

De la definició bàsica s'han derivat un conjunt de regles que regulen les declaracions d'independència condicional.^[3]^[4]

Nota: ja que aquestes implicacions contenen qualsevol espai de probabilitat, es continuaran mantenint si es considera un subunivers que condiciona tot sobre una altra variable, $K$ . Per exemple, $X\perp \!\!\!\perp Y\Rightarrow Y\perp \!\!\!\perp X$ també voldria dir això $X\perp \!\!\!\perp Y\mid K\Rightarrow Y\perp \!\!\!\perp X\mid K$ .
Nota: a continuació, la coma es pot llegir com una «i».

Simetria modifica

X\perp \!\!\!\perp Y\quad \Rightarrow \quad Y\perp \!\!\!\perp X

Decomposició modifica

X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ i }}{\begin{cases}X\perp \!\!\!\perp A\\X\perp \!\!\!\perp B\end{cases}}

Prova:

$p_{X,A,B}(x,a,b)=p_{X}(x)p_{A,B}(a,b)$ (significat de $X\perp \!\!\!\perp A,B$ )
$\int _{B}\!p_{X,A,B}(x,a,b)\,db=\int _{B}\!p_{X}(x)p_{A,B}(a,b)\,db$ (ignora la variable $B$ integrant-la)
$p_{X,A}(x,a)=p_{X}(x)p_{A}(a)$

Una prova similar mostra la independència de $X$ i $B$ .

Unió feble modifica

X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ i }}{\begin{cases}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\mid A\end{cases}}

Prova:

Per definició, $\Pr(X)=\Pr(X\mid A,B)$ .
A causa de la propietat de la descomposició $X\perp \!\!\!\perp B$ , $\Pr(X)=\Pr(X\mid B)$ .
Combinant les dues igualitats anteriors dona $\Pr(X\mid B)=\Pr(X\mid A,B)$ , que estableix $X\perp \!\!\!\perp A\mid B$ .

La segona condició es pot demostrar de manera semblant.

Contracció modifica

\left.{\begin{aligned}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\end{aligned}}\right\}{\text{ i }}\quad \Rightarrow \quad X\perp \!\!\!\perp A,B

Prova: Aquesta propietat es pot comprovar escrivint $\Pr(X\mid A,B)=\Pr(X\mid B)=\Pr(X)$ , cada igualtat de les quals són afirmades per $X\perp \!\!\!\perp A\mid B$ i $X\perp \!\!\!\perp B$ , respectivament.

Contracció - unió feble - descomposició modifica

Combinant els tres anteriors, tenim:

\left.{\begin{aligned}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\end{aligned}}\right\}{\text{ i }}\quad \iff \quad X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ i }}{\begin{cases}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\\X\perp \!\!\!\perp B\mid A\\X\perp \!\!\!\perp A\\\end{cases}}

Intersecció modifica

Per a les distribucions de probabilitats estrictament positives,^[4] també es manté el següent:

\left.{\begin{aligned}X\perp \!\!\!\perp A\mid C,B\\X\perp \!\!\!\perp B\mid C,A\end{aligned}}\right\}{\text{ i }}\quad \Rightarrow \quad X\perp \!\!\!\perp B,A\mid C

Les cinc regles anteriors es van anomenar «Axiomes dels grafoides» de Pearl i Paz, perquè contenen gràfics,^[5] si $X\perp \!\!\!\perp A\mid B$ s'interpreta com «Tots els camins de $X$ a $A$ són interceptats pel conjunt $B$ ».^[6]

Notes modifica

↑ Per veure que és així, cal adonar-se’n que Pr(R ∩ B | Y) és la probabilitat que superposa R i B (la zona ombrejada de pòrpora) a l'àrea Y. Ja que, a la imatge de l'esquerra, hi ha dos quadrats on R i B es solapen dins de l'àrea Y, i l'àrea Y té dotze quadrats, Pr(R ∩ B | Y) = 2/12 = 1/6. De manera semblant, Pr(R | Y) = 4/12 = 1/3 i Pr(B | Y) = 6/12 = 1/2

Referències modifica

↑ «Could someone explain conditional independence?» (en anglès).
↑ Murphy, Kevin. «A Brief Introduction to Graphical Models and Bayesian Networks» (en anglès), 1998.
↑ Dawid, A. P. «Conditional Independence in Statistical Theory» (en anglès). Journal of the Royal Statistical Society, Series B, 41(1), 1979, pàg. 1–31. JSTOR: 2984718.
↑ ^4,0 ^4,1 Pearl, J. Causality: Models, Reasoning, and Inference (en anglès). Cambridge University Press, 2000.
↑ Pearl, Judea; Paz, Azaria. Graphoids: A Graph-Based Logic for Reasoning About Relevance Relations (en anglès), 1985.
↑ Pearl, Judea. Probabilistic reasoning in intelligent systems: networks of plausible inference (en anglès). Morgan Kaufmann, 1988.

Vegeu també modifica

Teorema de Finetti

[2] Per veure que és així, cal adonar-se’n que Pr(R ∩ B | Y) és la probabilitat que superposa R i B (la zona ombrejada de pòrpora) a l'àrea Y. Ja que, a la imatge de l'esquerra, hi ha dos quadrats on R i B es solapen dins de l'àrea Y, i l'àrea Y té dotze quadrats, Pr(R ∩ B | Y) = 2/12 = 1/6. De manera semblant, Pr(R | Y) = 4/12 = 1/3 i Pr(B | Y) = 6/12 = 1/2

[1] «Could someone explain conditional independence?» (en anglès).

[3] Murphy, Kevin. «A Brief Introduction to Graphical Models and Bayesian Networks» (en anglès), 1998.

[4] Dawid, A. P. «Conditional Independence in Statistical Theory» (en anglès). Journal of the Royal Statistical Society, Series B, 41(1), 1979, pàg. 1–31. JSTOR: 2984718.

[pearl:2000-5] 4,0 ^4,1 Pearl, J. Causality: Models, Reasoning, and Inference (en anglès). Cambridge University Press, 2000.

[pearl:paz85-6] Pearl, Judea; Paz, Azaria. Graphoids: A Graph-Based Logic for Reasoning About Relevance Relations (en anglès), 1985.

[pearl:88-7] Pearl, Judea. Probabilistic reasoning in intelligent systems: networks of plausible inference (en anglès). Morgan Kaufmann, 1988.

[1]

[Nota 1]

[2]

[3]

[4]

[5]

[6]