En Probabilitat i Estadística , molt sovint al resultat que s'obté en un experiment aleatori o un estudi estadístic se li associem diversos nombres; per exemple, triem una persona a l'atzar i en mesurem el pes i l'alçada: tenim així dues mesures,
X
{\displaystyle X}
i
Y
{\displaystyle Y}
, que considerades conjuntament
(
X
,
Y
)
{\displaystyle (X,Y)}
constitueixen un vector aleatori .
Nota. A la secció Exemples al final de l'article hi ha desenvolupats dos exemples amb vectors aleatoris bidimensionals que poden ser útils a les persones que prefereixin començar analitzant casos concrets.
Considerem un espai de probabilitat
(
Ω
,
A
,
P
)
{\displaystyle (\Omega ,{\mathcal {A}},P)}
. Un vector aleatori
d
{\displaystyle d}
-dimensional [1] és una aplicació
X
=
(
X
1
,
…
,
X
d
)
:
Ω
→
R
d
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d}):\Omega \to \mathbb {R} ^{d}}
tal que cada component
X
i
,
i
=
1
,
…
,
d
{\displaystyle X_{i},\ i=1,\dots ,d}
és una variable aleatòria. També s'anomena variable aleatòria
d
{\displaystyle d}
-dimensional .
Comentaris sobre les notacions.
Hem escrit el vector en fila [1] , però en Estadística multivariant és molt freqüent escriure els vectors en columna[2] , ja que es fan moltes operacions amb matrius i és més convenient seguir les normes estàndard de l'àlgebra lineal . En aquest article escriurem els vectors en fila, excepte a les seccions dedicades a l'esperança d'un vector aleatori i a la matriu de variàncies-covariàncies, i als exemples que tractem de lleis normals multidimensionals.
Per alleugerir les fórmules, s'utilitzen 'comes' com a interseccions; així, donats uns conjunts
A
1
,
…
,
A
d
{\displaystyle A_{1},\dots ,A_{d}}
de
R
{\displaystyle \mathbb {R} }
,
P
(
X
1
∈
A
1
,
…
,
X
d
∈
A
d
)
=
P
(
{
X
1
∈
A
1
}
∩
⋯
∩
{
X
d
∈
A
d
}
)
.
{\displaystyle P(X_{1}\in A_{1},\dots ,X_{d}\in A_{d})=P{\big (}\{X_{1}\in A_{1}\}\cap \cdots \cap \{X_{d}\in A_{d}\}{\big )}.}
O bé, en el cas discret que veurem a continuació, per
x
1
,
…
,
x
d
∈
R
{\displaystyle x_{1},\dots ,x_{d}\in \mathbb {R} }
s'escriu
P
(
(
X
1
,
…
,
X
d
)
=
(
x
1
,
…
,
x
d
)
)
=
P
(
X
1
=
x
1
,
…
,
X
d
=
x
d
)
=
P
(
{
X
1
=
x
1
}
∩
⋯
∩
{
X
d
=
x
d
}
)
.
{\displaystyle P{\big (}(X_{1},\dots ,X_{d})=(x_{1},\dots ,x_{d}){\big )}=P{\big (}X_{1}=x_{1},\dots ,X_{d}=x_{d}{\big )}=P{\big (}\{X_{1}=x_{1}\}\cap \cdots \cap \{X_{d}=x_{d}\}{\big )}.}
Un vector aleatori
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
es diu que es discret si només pot prendre un nombre finit o numerable de valors; en altres paraules, si existeix un conjunt finit o infinit numerable
S
⊂
R
d
{\displaystyle S\subset \mathbb {R} ^{d}}
tal que
P
(
X
∈
S
)
=
1
{\displaystyle P({\boldsymbol {X}}\in S)=1}
.
S'anomena funció de probabilitat (a vegades s'afegeix conjunta ) del vector o funció de repartiment de massa a la funció
p
X
(
x
1
,
…
,
x
d
)
=
P
(
X
1
=
x
1
,
…
,
X
d
=
x
d
)
,
(
x
1
,
…
,
,
x
d
)
∈
S
.
{\displaystyle p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})=P(X_{1}=x_{1},\dots ,X_{d}=x_{d}),\quad (x_{1},\dots ,,x_{d})\in S.}
Les distribucions de probabilitat de cadascuna de les components dels vector,
X
1
,
…
,
X
d
{\displaystyle X_{1},\dots ,X_{d}}
, o dels vectors
(
X
i
1
,
…
,
X
i
r
)
{\displaystyle (X_{i_{1}},\dots ,X_{i_{r}})}
,
1
≤
i
1
<
⋯
<
i
r
≤
d
{\displaystyle 1\leq i_{1}<\cdots <i_{r}\leq d}
,
1
≤
r
≤
d
−
1
{\displaystyle 1\leq r\leq d-1}
, s'anomenen distribucions marginals .
A partir de la funció de probabilitat del vector podem calcular totes les distribucions marginals sumant respecte les altres components: per exemple, per simplificar la notació, la funció de probabilitat de
(
X
1
,
…
,
X
r
)
{\displaystyle (X_{1},\dots ,X_{r})}
, on
r
≤
d
−
1
{\displaystyle r\leq d-1}
, és
p
(
X
1
,
…
,
X
r
)
(
x
1
,
…
,
x
r
)
=
∑
x
r
+
1
,
…
,
x
d
p
X
(
x
1
,
…
,
x
d
)
.
{\displaystyle p_{(X_{1},\dots ,X_{r})}(x_{1},\dots ,x_{r})=\sum _{x_{r+1},\dots ,x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}).}
Exemple: Distribució multinomial
modifica
Considerem un experiment que pot tenir
d
{\displaystyle d}
resultats diferents, que designarem per
R
1
,
…
,
R
d
{\displaystyle R_{1},\dots ,R_{d}}
, amb probabilitats
p
1
,
…
,
p
d
∈
(
0
,
1
)
{\displaystyle p_{1},\dots ,p_{d}\in (0,1)}
,
p
1
+
⋯
+
p
d
=
1
{\displaystyle p_{1}+\cdots +p_{d}=1}
. Fem
n
{\displaystyle n}
repeticions independents i denotem per
X
1
{\displaystyle X_{1}}
el nombre de vegades que obtenim el resultat
R
1
{\displaystyle R_{1}}
, per
X
2
{\displaystyle X_{2}}
el nombre de vegades que obtenim el resultat
R
2
{\displaystyle R_{2}}
, i així successivament. Aleshores la probabilitat d'obtenir
x
1
{\displaystyle x_{1}}
vegades el resultat
R
1
{\displaystyle R_{1}}
,
x
2
{\displaystyle x_{2}}
vegades el resultat
R
2
{\displaystyle R_{2}}
, etc. amb
x
1
+
⋯
+
x
d
=
n
{\displaystyle x_{1}+\cdots +x_{d}=n}
és
p
(
X
1
,
…
,
X
d
)
(
x
1
,
…
,
x
d
)
=
P
(
X
1
=
x
1
,
…
,
X
d
=
x
d
)
=
n
!
x
1
!
⋯
x
d
!
p
1
x
1
⋯
p
d
x
d
.
{\displaystyle p_{(X_{1},\dots ,X_{d})}(x_{1},\dots ,x_{d})=P(X_{1}=x_{1},\dots ,X_{d}=x_{d})={\frac {n!}{x_{1}!\cdots x_{d}!}}\,p_{1}^{x_{1}}\cdots p_{d}^{x_{d}}.}
Es diu que el vector
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
segueix una distribució multinomial [3] de paràmetres
n
,
p
1
,
…
,
p
d
{\displaystyle n,p_{1},\dots ,p_{d}}
, i s'escriu
X
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})}
. Cal notar que cada component
X
i
{\displaystyle X_{i}}
té una distribució binomial de paràmetres
n
{\displaystyle n}
i
p
i
{\displaystyle p_{i}}
,
X
i
∼
B
(
n
,
p
i
)
{\displaystyle X_{i}\sim B(n,p_{i})}
. De fet, una distribució multinomial és una extensió de la distribució binomial quan hi ha més de dos resultats possibles.
Per exemple, tenim una urna amb 4 boles blanques, 3 vermelles i 3 grogues. Traiem
n
=
4
{\displaystyle n=4}
boles amb reemplaçament, és a dir, traiem una bola, anotem el color, la retornem a l'urna, en traiem una altra, etc. Designem per:
X
1
{\displaystyle X_{1}}
: nombre de boles blanques que traiem.
X
2
{\displaystyle X_{2}}
: nombre de boles vermelles que traiem.
X
3
{\displaystyle X_{3}}
: el nombre de boles grogues que traiem.
Aquí,
p
1
=
0
′
4
{\displaystyle p_{1}=0'4}
,
p
2
=
0
′
3
{\displaystyle p_{2}=0'3}
i
p
3
=
0
′
3
{\displaystyle p_{3}=0'3}
. Llavors, la probabilitat de treure 1 bola blanca, 1 vermella i 2 grogues és
p
(
X
1
,
X
2
,
X
3
)
(
1
,
1
,
2
)
=
P
(
X
1
=
1
,
X
2
=
1
,
X
3
=
2
)
=
4
!
1
!
1
!
2
!
0
′
4
1
0
′
3
1
0
′
3
2
=
0
′
1296.
{\displaystyle p_{(X_{1},X_{2},X_{3})}(1,1,2)=P(X_{1}=1,X_{2}=1,X_{3}=2)={\frac {4!}{1!\,1!\,2!}}\,0'4^{1}\,0'3^{1}\,0'3^{2}=0'1296.}
A partir d'aquí, podem calcular, per exemple, la distribució marginal del vector aleatori
(
X
1
,
X
3
)
{\displaystyle (X_{1},X_{3})}
o la de la variable aleatòria
X
3
{\displaystyle X_{3}}
Vectors aleatoris absolutament continus o amb funció de densitat
modifica
Es diu que un vector aleatori
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
és absolutament continu, o senzillament continu, si existeix una funció
f
X
:
R
d
→
R
{\displaystyle f_{\boldsymbol {X}}:\mathbb {R} ^{d}\to \mathbb {R} }
, anomenada funció de densitat (conjunta), que compleix
1.
f
(
x
1
,
…
,
x
d
)
≥
0
,
∀
(
x
1
,
…
,
x
d
)
∈
R
d
.
{\displaystyle f(x_{1},\dots ,x_{d})\geq 0,\ \ \forall (x_{1},\dots ,x_{d})\in \mathbb {R} ^{d}.}
2.
∫
−
∞
∞
⋯
∫
−
∞
∞
f
X
(
x
1
,
…
,
x
d
)
d
x
1
⋯
d
x
d
=
1.
{\displaystyle \int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}=1.}
3. Per a qualsevol
B
⊂
R
d
{\displaystyle B\subset \mathbb {R} ^{d}}
(en rigor
B
{\displaystyle B}
ha de ser un conjunt de Borel de
R
d
{\displaystyle \mathbb {R} ^{d}}
), tenim
P
(
(
X
1
,
…
,
X
d
)
∈
B
)
=
∫
⋯
∫
B
f
X
(
x
1
,
…
,
x
d
)
d
x
1
⋯
d
x
d
.
{\displaystyle P{\big (}(X_{1},\dots ,X_{d})\in B{\big )}=\int \cdots \int _{B}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}.}
En particular, si
−
∞
≤
a
1
<
b
1
≤
∞
,
…
,
−
∞
≤
a
d
<
b
d
≤
∞
{\displaystyle -\infty \leq a_{1}<b_{1}\leq \infty ,\dots ,-\infty \leq a_{d}<b_{d}\leq \infty }
, tenim
P
(
(
X
1
,
…
,
X
d
)
∈
(
a
1
,
b
1
)
×
⋯
×
(
a
d
,
b
d
)
)
=
∫
a
1
b
1
⋯
∫
a
d
b
d
f
X
(
x
1
,
…
,
x
d
)
d
x
1
⋯
d
x
d
.
{\displaystyle P{\big (}(X_{1},\dots ,X_{d})\in (a_{1},b_{1})\times \cdots \times (a_{d},b_{d}){\big )}=\int _{a_{1}}^{b_{1}}\cdots \int _{a_{d}}^{b_{d}}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}.}
A partir de la funció de densitat conjunta pot calcular-se la funció de densitat de qualsevol vector
(
X
i
1
,
…
,
X
i
r
)
{\displaystyle (X_{i_{1}},\dots ,X_{i_{r}})}
,
1
≤
i
1
<
⋯
<
i
r
≤
d
{\displaystyle 1\leq i_{1}<\cdots <i_{r}\leq d}
,
1
≤
r
≤
d
−
1
{\displaystyle 1\leq r\leq d-1}
, que s'anomena la densitat marginal; per exemple, la densitat marginal de
(
X
1
,
…
,
X
r
)
{\displaystyle (X_{1},\dots ,X_{r})}
, amb
1
≤
r
≤
d
−
1
{\displaystyle 1\leq r\leq d-1}
és
f
(
X
1
,
…
,
X
r
)
(
x
1
,
…
,
x
r
)
=
∫
−
∞
∞
⋯
∫
−
∞
∞
⏟
d
−
r
integrals
f
X
(
x
1
,
…
,
x
d
)
d
x
r
+
1
⋯
d
x
d
.
{\displaystyle f_{(X_{1},\dots ,X_{r})}(x_{1},\dots ,x_{r})=\underbrace {\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }} _{d-r\ {\text{integrals}}}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{r+1}\cdots dx_{d}.}
Exemple: distribució normal multidimensional
modifica
Un vector aleatori
d
{\displaystyle d}
-dimensional amb funció de densitat
f
(
x
1
,
…
,
x
d
)
=
1
(
2
π
)
d
/
2
e
−
(
x
1
2
+
⋯
+
x
d
2
)
/
2
,
x
1
,
…
,
x
d
∈
R
,
{\displaystyle f(x_{1},\dots ,x_{d})={\frac {1}{(2\pi )^{d/2}}}\,e^{-(x_{1}^{2}+\cdots +x_{d}^{2})/2},\quad x_{1},\dots ,x_{d}\in \mathbb {R} ,}
es diu que té una llei normal multidimensional o multivariada,
N
d
(
0
,
I
d
)
{\displaystyle {\mathcal {N}}_{d}({\boldsymbol {0}},{\boldsymbol {I}}_{d})}
on
I
d
{\displaystyle {\boldsymbol {I}}_{d}}
és la matriu identitat. Cada component del vector té una distribució norma l estàndard
N
(
0
,
1
)
{\displaystyle {\mathcal {N}}(0,1)}
.
Vegeu els vectors aleatoris normals multidimensionals generals
N
d
(
μ
,
Σ
)
{\displaystyle {\mathcal {N}}_{d}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})}
als exemples de la secció Funcions d'un vector aleatori amb densitat .
Funcions de distribució multidimensional
modifica
La funció de distribució d'un vector aleatori [1]
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
és la funció
F
:
R
d
→
[
0
,
1
]
{\displaystyle F:\mathbb {R} ^{d}\to [0,1]}
definida per
F
(
x
1
,
…
,
x
d
)
=
P
(
X
1
≤
x
1
,
…
,
≤
X
d
≤
x
d
)
.
{\displaystyle F(x_{1},\dots ,x_{d})=P(X_{1}\leq x_{1},\dots ,\leq X_{d}\leq x_{d}).}
Si el vector aleatori
X
{\displaystyle {\boldsymbol {X}}}
té funció de densitat
f
{\displaystyle f}
, aleshores la funció de distribució del vector és
F
(
x
1
,
…
,
x
d
)
=
∫
−
∞
x
1
⋯
∫
−
∞
x
d
f
(
t
1
,
…
,
t
d
)
d
t
1
⋯
d
t
d
.
{\displaystyle F(x_{1},\dots ,x_{d})=\int _{-\infty }^{x_{1}}\cdots \int _{-\infty }^{x_{d}}f(t_{1},\dots ,t_{d})\,dt_{1}\cdots dt_{d}.}
Si la funció de densitat
f
{\displaystyle f}
és contínua en el punt
(
x
1
,
…
,
x
d
)
{\displaystyle (x_{1},\dots ,x_{d})}
, aleshores [4]
f
(
x
1
,
…
,
x
d
)
=
∂
d
F
(
x
1
,
…
,
x
d
)
∂
x
1
⋯
∂
x
d
.
{\displaystyle f(x_{1},\dots ,x_{d})={\frac {\partial ^{d}F(x_{1},\dots ,x_{d})}{\partial x_{1}\cdots \partial x_{d}}}.}
Variables aleatòries independents
modifica
Recordem que es diu que les variables aleatòries
X
1
,
…
,
X
k
{\displaystyle X_{1},\dots ,X_{k}}
són independents si per a qualsevol conjunts
B
1
,
…
,
B
k
⊂
R
{\displaystyle B_{1},\dots ,B_{k}\subset \mathbb {R} }
(en rigor, conjunts de Borel de
R
{\displaystyle \mathbb {R} }
),
P
(
X
1
∈
B
1
,
…
,
X
k
∈
B
k
)
=
P
(
X
1
∈
B
1
)
⋯
P
(
X
k
∈
B
k
)
.
{\displaystyle P(X_{1}\in B_{1},\dots ,X_{k}\in B_{k})=P(X_{1}\in B_{1})\cdots P(X_{k}\in B_{k}).}
Designem per
F
(
X
1
,
…
,
X
k
)
{\displaystyle F_{(X_{1},\dots ,X_{k})}}
la funció de distribució del vector
(
X
1
,
…
,
X
k
)
{\displaystyle (X_{1},\dots ,X_{k})}
, i per
F
X
1
,
…
,
F
X
k
{\displaystyle F_{X_{1}},\dots ,F_{X_{k}}}
les funcions de distribució de les variables aleatòries
X
1
,
…
,
X
k
{\displaystyle X_{1},\dots ,X_{k}}
(marginals).
Aleshores
X
1
,
…
,
X
k
{\displaystyle X_{1},\dots ,X_{k}}
són independents si i només si
F
(
X
1
,
…
,
X
k
)
(
x
1
,
…
,
x
k
)
=
F
X
1
(
x
1
)
⋯
F
X
k
(
x
k
)
,
∀
(
x
1
,
…
,
x
k
)
∈
R
k
.
{\displaystyle F_{(X_{1},\dots ,X_{k})}(x_{1},\dots ,x_{k})=F_{X_{1}}(x_{1})\cdots F_{X_{k}}(x_{k}),\ \forall (x_{1},\dots ,x_{k})\in \mathbb {R} ^{k}.}
En el cas discret la independència equival a que la funció de probabilitat conjunta sigui igual al producte de marginals:
X
1
,
…
,
X
k
{\displaystyle X_{1},\dots ,X_{k}}
són independents si i només si
p
(
X
1
,
…
,
X
k
)
(
x
1
,
…
,
x
k
)
=
p
X
1
(
x
1
)
⋯
p
X
k
(
x
k
)
,
∀
(
x
1
,
…
,
x
k
)
∈
S
.
{\displaystyle p_{(X_{1},\dots ,X_{k})}(x_{1},\dots ,x_{k})=p_{X_{1}}(x_{1})\cdots p_{X_{k}}(x_{k}),\ \forall (x_{1},\dots ,x_{k})\in S.}
En el cas absolutament continu, la propietat d'independència equival a que la densitat conjunta sigui igual al producte de marginals:
X
1
,
…
,
X
k
{\displaystyle X_{1},\dots ,X_{k}}
són independents si i només si
f
(
X
1
,
…
,
X
k
)
(
x
1
,
…
,
x
k
)
=
f
X
1
(
x
1
)
⋯
f
X
k
(
x
k
)
,
∀
(
x
1
,
…
,
x
k
)
∈
R
k
.
{\displaystyle f_{(X_{1},\dots ,X_{k})}(x_{1},\dots ,x_{k})=f_{X_{1}}(x_{1})\cdots f_{X_{k}}(x_{k}),\ \forall (x_{1},\dots ,x_{k})\in \mathbb {R} ^{k}.}
Per exemple, en el cas de la distribució normal multidimensional que hem comentat, les distribucions marginals de les diferents components són lleis normals estàndard: tenim que per a
j
=
1
,
…
,
d
{\displaystyle j=1,\dots ,d}
,
f
X
j
(
x
)
=
1
2
π
e
−
x
2
/
2
,
x
∈
R
.
{\displaystyle f_{X_{j}}(x)={\frac {1}{\sqrt {2\pi }}}\,e^{-x^{2}/2},\ x\in \mathbb {R} .}
Llavors és clar que es compleix la condició anterior i, per tant, les variables
X
1
,
…
,
X
d
{\displaystyle X_{1},\dots ,X_{d}}
són independents.
Considerem
k
{\displaystyle k}
vectors aleatoris, que poden ser de dimensions diferents:
X
1
=
(
X
11
,
…
,
X
1
j
1
)
,
…
,
X
k
=
(
X
k
1
,
…
,
X
k
j
k
)
{\displaystyle {\boldsymbol {X}}_{1}=(X_{11},\dots ,X_{1j_{1}}),\dots ,{\boldsymbol {X}}_{k}=(X_{k1},\dots ,X_{kj_{k}})}
. Es diu que són independents si per qualsevol
B
1
∈
B
(
R
j
1
)
,
…
,
B
k
⊂
B
(
R
j
k
)
{\displaystyle B_{1}\in {\mathcal {B}}(\mathbb {R} ^{j_{1}}),\dots ,B_{k}\subset {\mathcal {B}}(\mathbb {R} ^{j_{k}})}
, on
B
(
R
r
)
{\displaystyle {\mathcal {B}}(\mathbb {R} ^{r})}
és la
σ
{\displaystyle \sigma }
-àlgebra de Borel sobre
R
r
{\displaystyle \mathbb {R} ^{r}}
,
P
(
X
1
∈
B
1
,
…
,
X
k
∈
B
k
)
=
P
(
X
1
∈
B
1
)
⋯
P
(
X
k
∈
B
k
)
.
{\displaystyle P({\boldsymbol {X}}_{1}\in B_{1},\dots ,{\boldsymbol {X}}_{k}\in B_{k})=P({\boldsymbol {X}}_{1}\in B_{1})\cdots P({\boldsymbol {X}}_{k}\in B_{k}).}
Les caracteritzacions de la independència de variables aleatòries en els casos discret i continus es trasllada al cas de vectors aleatoris.
Esperança d'una funció d'un vector aleatori
modifica
Sigui
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
un vector aleatori i
h
:
R
d
→
R
{\displaystyle h:\mathbb {R} ^{d}\to \mathbb {R} }
una funció (mesurable), tenim que
h
(
X
)
{\displaystyle h({\boldsymbol {X}})}
és una variable aleatòria de la qual podrem calcular l'esperança quan
E
[
|
h
(
X
)
]
<
∞
{\displaystyle E[\vert h({\boldsymbol {X}})]<\infty }
. Si
X
{\displaystyle {\boldsymbol {X}}}
és discret, aleshores
E
[
h
(
X
)
]
=
∑
x
1
,
…
,
x
d
h
(
x
1
,
…
,
x
d
)
p
X
(
x
1
,
…
,
x
d
)
,
{\displaystyle E{\big [}h({\boldsymbol {X}}){\big ]}=\sum _{x_{1},\dots ,x_{d}}h(x_{1},\dots ,x_{d})\,p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}),}
sempre que
∑
x
1
,
…
,
x
d
|
h
(
x
1
,
…
,
x
d
)
|
p
X
(
x
1
,
…
,
x
d
)
<
∞
.
{\displaystyle \sum _{x_{1},\dots ,x_{d}}\vert h(x_{1},\dots ,x_{d})\vert \,p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})<\infty .}
Si
X
{\displaystyle {\boldsymbol {X}}}
és absolutament continu, aleshores
E
[
h
(
X
)
]
=
∫
−
∞
∞
⋯
∫
−
∞
∞
h
(
x
1
,
…
,
x
d
)
f
X
(
x
1
,
…
,
x
d
)
d
x
1
⋯
d
x
d
,
{\displaystyle E{\big [}h({\boldsymbol {X}})]=\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }h(x_{1},\dots ,x_{d})\,f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d},}
sempre que
∫
−
∞
∞
⋯
∫
−
∞
∞
|
h
(
x
1
,
…
,
x
d
)
|
f
X
(
x
1
,
…
,
x
d
)
d
x
1
⋯
d
x
p
<
∞
.
{\displaystyle \int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }\vert h(x_{1},\dots ,x_{d})\vert \,f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{p}<\infty .}
Naturalment, si tenim una funció
h
:
R
r
→
R
{\displaystyle h:\mathbb {R} ^{r}\to \mathbb {R} }
que només fa intervenir una part de
X
{\displaystyle {\boldsymbol {X}}}
, posem
(
X
i
1
,
…
,
X
i
r
)
{\displaystyle (X_{i_{1}},\dots ,X_{i_{r}})}
, amb ,
1
≤
i
1
<
⋯
<
i
r
≤
r
{\displaystyle 1\leq i_{1}<\cdots <i_{r}\leq r}
,
1
≤
r
≤
d
−
1
{\displaystyle 1\leq r\leq d-1}
, aleshores l'esperança de
h
(
X
i
1
,
…
,
X
i
r
)
{\displaystyle h(X_{i_{1}},\dots ,X_{i_{r}})}
es calcula utilitzant la distribució marginal d'aquest vector.
Considerem un vector aleatori
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
i siguin
n
1
≥
0
,
…
,
n
d
≥
0
{\displaystyle n_{1}\geq 0,\dots ,n_{d}\geq 0}
. Es diu que
X
{\displaystyle {\boldsymbol {X}}}
té moment d'ordre
(
n
1
,
…
,
n
d
)
{\displaystyle (n_{1},\dots ,n_{d})}
si
E
[
|
X
1
n
1
⋯
X
d
n
d
|
]
<
∞
{\displaystyle E{\big [}{\big \vert }X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big \vert }{\big ]}<\infty }
, i, en aquest cas, es defineix el moment d'ordre
(
n
1
,
…
,
n
d
)
{\displaystyle (n_{1},\dots ,n_{d})}
(alguns autors diuen moment mixt[5] ) per
m
n
1
,
…
,
n
d
=
E
[
X
1
n
1
⋯
X
d
n
d
]
.
{\displaystyle m_{n_{1},\dots ,n_{d}}=E{\big [}X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big ]}.}
D'acord amb les fórmules que hem vist abans, si el vector és discret, aleshores
E
[
X
1
n
1
⋯
X
d
n
d
]
=
∑
x
1
,
…
,
x
d
∈
S
x
1
n
1
⋯
x
d
n
d
p
X
(
x
1
,
…
,
x
d
)
.
{\displaystyle E{\big [}X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big ]}=\sum _{x_{1},\dots ,x_{d}\in S}x_{1}^{n_{1}}\cdots x_{d}^{n_{d}}\,p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}).}
Si el vector aleatori és absolutament continu,
E
[
X
1
n
1
⋯
X
d
n
d
]
=
∫
−
∞
∞
⋯
∫
−
∞
∞
x
1
n
1
⋯
x
d
n
d
f
X
(
x
1
,
…
,
x
d
)
d
x
1
⋯
d
x
d
.
{\displaystyle E{\big [}X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big ]}=\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }x_{1}^{n_{1}}\cdots x_{d}^{n_{d}}\,f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}.}
Tenim la següent propietat: Si
E
[
|
X
j
|
m
]
<
∞
,
p
e
r
a
j
=
1
,
…
,
d
{\displaystyle E[\vert X_{j}\vert ^{m}]<\infty ,pera\ j=1,\dots ,d}
, aleshores per a
n
1
≥
0
,
…
,
n
d
≥
0
,
n
1
+
⋯
+
n
d
≤
m
{\displaystyle n_{1}\geq 0,\dots ,n_{d}\geq 0,\ n_{1}+\cdots +n_{d}\leq m}
, tenim que
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
té moment d'ordre
(
n
1
,
…
,
n
d
)
{\displaystyle (n_{1},\dots ,n_{d})}
[6] .
Vegeu els moments factorials en la secció de la funció generatriu de probabilitats .
Totes les propietats d'aquesta secció i la següent es troben demostrades a Seber [7] . Atès que farem operacions matricials, en aquesta secció i la següent escriurem tots els vectors en columna; en particular, escriurem en columna els elements de
R
d
{\displaystyle \mathbb {R} ^{d}}
. Donada una matriu (o vector)
U
{\displaystyle {\boldsymbol {U}}}
designarem per
U
′
{\displaystyle {\boldsymbol {U}}'}
la seva transposada . Considerem un vector aleatori
X
=
(
X
1
,
…
,
X
d
)
′
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'}
tal que totes les seves components tinguin esperança. Aleshores es defineix l'esperança de
X
{\displaystyle {\boldsymbol {X}}}
per
E
[
X
]
=
(
E
[
X
1
]
,
…
,
E
[
X
d
]
)
′
.
{\displaystyle E[{\boldsymbol {X}}]={\big (}E[X_{1}],\dots ,E[X_{d}]{\big )}'.}
Propietats
Si
a
=
(
a
1
,
…
,
a
d
)
′
∈
R
d
{\displaystyle {\boldsymbol {a}}=(a_{1},\dots ,a_{d})'\in \mathbb {R} ^{d}}
, aleshores
E
[
a
]
=
a
.
{\displaystyle E[{\boldsymbol {a}}]={\boldsymbol {a}}.}
Siguin
X
{\displaystyle {\boldsymbol {X}}}
i
Y
{\displaystyle {\boldsymbol {Y}}}
dos vectors aleatoris
d
{\displaystyle d}
-dimensionals amb esperances finites, i
A
{\displaystyle {\boldsymbol {A}}}
i
B
{\displaystyle {\boldsymbol {B}}}
dues matrius d'ordre
k
×
d
{\displaystyle k\times d}
. Aleshores
E
[
A
X
+
B
Y
]
=
A
E
[
X
]
+
B
E
[
Y
]
.
{\displaystyle E[{\boldsymbol {AX}}+{\boldsymbol {BY}}]={\boldsymbol {A}}\,E[{\boldsymbol {X}}]+{\boldsymbol {B}}\,E[{\boldsymbol {Y}}].}
Matriu de variàncies-covariàncies
modifica
Continuem escrivint tots els vectors en columna. Si totes les components del vector
X
{\displaystyle {\boldsymbol {X}}}
tenen variància, aleshores es defineix la seva matriu de variàncies-covariàncies o matriu de dispersió :
V
(
X
)
=
(
Var
(
X
1
)
Cov
(
X
1
,
X
2
)
⋯
Cov
(
X
1
,
X
d
)
Cov
(
X
2
,
X
1
)
Var
(
X
2
)
⋯
Cov
(
X
2
,
X
d
)
⋮
⋮
⋮
Cov
(
X
d
,
X
1
)
Cov
(
X
d
,
X
2
)
⋯
Var
(
X
d
)
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\begin{pmatrix}{\text{Var}}(X_{1})&{\text{Cov}}(X_{1},X_{2})&\cdots &{\text{Cov}}(X_{1},X_{d})\\{\text{Cov}}(X_{2},X_{1})&{\text{Var}}(X_{2})&\cdots &{\text{Cov}}(X_{2},X_{d})\\\vdots &\vdots &&\vdots \\{\text{Cov}}(X_{d},X_{1})&{\text{Cov}}(X_{d},X_{2})&\cdots &{\text{Var}}(X_{d})\end{pmatrix}}}
Atès que
Var
(
X
j
)
=
Cov
(
X
j
,
X
j
)
{\displaystyle {\text{Var}}(X_{j})={\text{Cov}}(X_{j},X_{j})}
, aquesta matriu també s'escriu
V
(
X
)
=
(
Cov
(
X
i
,
X
j
)
)
i
=
1
,
…
,
d
j
=
1
,
…
,
d
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\big (}{\text{Cov}}(X_{i},X_{j}){\big )}_{i=1,\dots ,d \atop j=1,\dots ,d}}
1. Donat que
Cov
(
X
i
,
X
j
)
=
Cov
(
X
j
,
X
i
)
{\displaystyle {\text{Cov}}(X_{i},X_{j})={\text{Cov}}(X_{j},X_{i})}
, la matriu
V
(
X
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})}
es simètrica.
2. La matriu
V
(
X
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})}
és semidefinida positiva, ja que per qualsevol
x
=
(
x
1
,
…
,
x
d
)
′
∈
R
d
{\displaystyle {\boldsymbol {x}}=(x_{1},\dots ,x_{d})'\in \mathbb {R} ^{d}}
,
x
V
(
X
)
x
′
=
∑
i
,
j
=
1
d
x
i
x
j
Cov
(
X
i
,
X
j
)
=
Var
(
∑
i
=
1
d
X
i
)
≥
0.
{\displaystyle {\boldsymbol {x}}{\boldsymbol {V}}({\boldsymbol {X}}){\boldsymbol {x}}'=\sum _{i,j=1}^{d}x_{i}x_{j}{\text{Cov}}(X_{i},X_{j})={\text{Var}}(\sum _{i=1}^{d}X_{i})\geq 0.}
A més, el determinant de la matriu
V
(
X
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})}
és 0 si i només si hi ha una relació lineal entre les variables
X
1
,
…
,
X
d
{\displaystyle X_{1},\dots ,X_{d}}
, això és, existeixen escalars
λ
1
,
…
,
λ
d
+
1
∈
R
{\displaystyle \lambda _{1},\dots ,\lambda _{d+1}\in \mathbb {R} }
, no tots nuls, tals que
λ
1
X
1
+
⋯
+
λ
d
X
d
=
λ
d
+
1
,
q.s.
{\displaystyle \lambda _{1}X_{1}+\cdots +\lambda _{d}X_{d}=\lambda _{d+1},\quad {\text{q.s.}}}
3. Si
X
{\displaystyle {\boldsymbol {X}}}
és un vector
d
{\displaystyle d}
-dimensional,
A
{\displaystyle {\boldsymbol {A}}}
una matriu
k
×
d
{\displaystyle k\times d}
i
b
∈
R
k
{\displaystyle {\boldsymbol {b}}\in \mathbb {R} ^{k}}
, aleshores
V
(
A
X
+
b
)
=
A
V
(
X
)
A
′
.
{\displaystyle {\boldsymbol {V}}({\boldsymbol {AX}}+{\boldsymbol {b}})={\boldsymbol {A}}\,{\boldsymbol {V}}({\boldsymbol {X}}){\boldsymbol {A}}'.}
Exemples
1. Sigui
X
=
(
X
1
,
…
,
X
d
)
′
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})}
. Aleshores, donat que cada component
X
j
{\displaystyle X_{j}}
té una distribució binomial
B
(
n
,
p
j
)
{\displaystyle B(n,p_{j})}
,
E
[
X
]
=
(
n
p
1
,
…
,
n
p
d
)
′
.
{\displaystyle E[{\boldsymbol {X}}]=(np_{1},\dots ,np_{d})'.}
També tenim que
Var
(
X
j
)
=
n
p
j
(
1
−
p
j
)
.
{\displaystyle {\text{Var}}(X_{j})=np_{j}(1-p_{j}).}
Per calcular les covariàncies cal utilitzar la marginal de
(
X
i
,
X
j
)
{\displaystyle (X_{i},X_{j})}
i s'obté que
Cov
(
X
i
,
X
j
)
=
−
n
p
i
p
j
,
i
≠
j
.
{\displaystyle {\text{Cov}}(X_{i},X_{j})=-np_{i}p_{j},\quad i\neq j.}
(vegeu els exemples de la secció Funció característica ). Així,
V
(
X
)
=
(
n
p
1
(
1
−
p
1
)
−
n
p
1
p
2
⋯
−
n
p
1
p
d
−
n
p
1
p
2
n
p
2
(
1
−
p
2
)
⋯
−
n
p
2
p
d
⋮
⋮
⋱
⋮
−
n
p
1
p
d
−
n
p
2
p
d
⋯
n
p
d
(
1
−
p
d
)
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\begin{pmatrix}np_{1}(1-p_{1})&-np_{1}p_{2}&\cdots &-np_{1}p_{d}\\-np_{1}p_{2}&np_{2}(1-p_{2})&\cdots &-np_{2}p_{d}\\\vdots &\vdots &\ddots &\vdots \\-np_{1}p_{d}&-np_{2}p_{d}&\cdots &np_{d}(1-p_{d})\end{pmatrix}}}
2. En el cas del vector normal multidimensional
E
[
X
]
=
0
{\displaystyle E[{\boldsymbol {X}}]={\boldsymbol {0}}}
. D'altra banda,
Var
(
X
j
)
=
1
{\displaystyle {\text{Var}}(X_{j})=1}
i, atès que les variables són independents,
Cov
(
X
i
,
X
j
)
=
0
,
i
≠
j
{\displaystyle {\text{Cov}}(X_{i},X_{j})=0,\quad i\neq j}
. Llavors
V
(
X
)
=
I
d
.
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\boldsymbol {I}}_{d}.}
Ampliació: Matriu de covariàncies entre dos vectors
modifica
En el que segueix és convenient introduir les matrius aleatòries que són matrius tals que les seves components són variables aleatòries. Sigui
Z
{\displaystyle {\boldsymbol {Z}}}
una d'aquestes matrius, de dimensions
n
×
m
{\displaystyle n\times m}
:
Z
=
(
Z
i
j
)
i
=
1
,
…
,
n
j
=
1
,
…
,
m
.
{\displaystyle {\boldsymbol {Z}}={\big (}Z_{ij}{\big )}_{i=1,\dots ,n \atop j=1,\dots ,m}.}
S'anomena esperança de la matriu aleatòria
Z
{\displaystyle {\boldsymbol {Z}}}
a la matriu
E
[
Z
]
=
(
E
[
Z
i
j
]
)
i
=
1
,
…
,
n
j
=
1
,
…
,
m
.
{\displaystyle {\boldsymbol {E}}[Z]={\big (}E[Z_{ij}]{\big )}_{i=1,\dots ,n \atop j=1,\dots ,m}.}
Sigui
X
{\displaystyle {\boldsymbol {X}}}
un vector aleatori
d
{\displaystyle d}
-dimensional i
Y
{\displaystyle {\boldsymbol {Y}}}
un vector aleatori
k
{\displaystyle k}
-dimensional ambdós amb moments de segon ordre. S'anomena matriu de covariàncies de
X
{\displaystyle {\boldsymbol {X}}}
i
Y
{\displaystyle {\boldsymbol {Y}}}
a la matriu de dimensions
d
×
k
{\displaystyle d\times k}
C
(
X
,
Y
)
=
(
Cov
(
X
i
,
Y
j
)
)
i
=
1
,
…
,
d
j
=
1
,
…
,
k
{\displaystyle {\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {Y}})={\big (}{\text{Cov}}(X_{i},Y_{j}){\big )}_{i=1,\dots ,d \atop j=1,\dots ,k}}
Propietats.
Si
X
=
Y
{\displaystyle {\boldsymbol {X}}={\boldsymbol {Y}}}
aleshores la matriu de covariàncies coincideix amb la matriu de variàncies-covariàncies:
C
(
X
,
X
)
=
V
(
X
)
.
{\displaystyle {\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {X}})={\boldsymbol {V}}({\boldsymbol {X}}).}
Si
E
[
X
]
=
α
{\displaystyle E[{\boldsymbol {X}}]={\boldsymbol {\alpha }}}
i
E
[
Y
]
=
β
{\displaystyle E[{\boldsymbol {Y}}]={\boldsymbol {\beta }}}
, aleshores
C
(
X
,
Y
)
=
E
[
(
X
−
α
)
(
Y
−
β
)
′
]
.
{\displaystyle {\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {Y}})=E{\big [}({\boldsymbol {X}}-{\boldsymbol {\alpha }})({\boldsymbol {Y}}-{\boldsymbol {\beta }})'{\big ]}.}
En particular,
V
(
X
)
=
E
[
(
X
−
α
)
(
X
−
α
)
′
]
=
E
[
X
X
′
]
−
α
α
′
.
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})=E{\big [}({\boldsymbol {X}}-{\boldsymbol {\alpha }})({\boldsymbol {X}}-{\boldsymbol {\alpha }})'{\big ]}=E{\big [}{\boldsymbol {X}}{\boldsymbol {X}}'{\big ]}-{\boldsymbol {\alpha }}{\boldsymbol {\alpha }}'.}
Siguin
X
{\displaystyle {\boldsymbol {X}}}
i
Y
{\displaystyle {\boldsymbol {Y}}}
dos vectors aleatoris de dimensions
d
{\displaystyle d}
i
k
{\displaystyle k}
respectivament i
A
{\displaystyle {\boldsymbol {A}}}
i
B
{\displaystyle {\boldsymbol {B}}}
matrius de dimensions
n
×
d
{\displaystyle n\times d}
i
m
×
k
{\displaystyle m\times k}
respectivament, aleshores
C
(
A
X
,
B
Y
)
=
A
C
(
X
,
Y
)
B
′
.
{\displaystyle {\boldsymbol {C}}({\boldsymbol {A}}X,{\boldsymbol {B}}Y)={\boldsymbol {A}}\,{\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {Y}})\,{\boldsymbol {B}}'.}
La funció característica d'un vector aleatori
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
és la funció
φ
:
R
d
→
C
{\displaystyle \varphi :\mathbb {R} ^{d}\to \mathbb {C} }
definida per
φ
X
(
t
1
,
…
,
t
d
)
=
E
[
e
i
(
t
1
X
1
+
⋯
+
t
d
X
d
)
]
,
(
t
1
,
…
,
t
d
)
∈
R
d
.
{\displaystyle \varphi _{\boldsymbol {X}}(t_{1},\dots ,t_{d})=E[e^{i(t_{1}X_{1}+\cdots +t_{d}X_{d})}],\quad (t_{1},\dots ,t_{d})\in \mathbb {R} ^{d}.}
Les funcions característiques de les distribucions marginals es dedueixen fàcilment de la funció característica conjunta; per exemple, per simplificar les notacions, per a
r
=
1
,
…
,
d
−
1
{\displaystyle r=1,\dots ,d-1}
,
φ
(
X
1
,
…
,
X
r
)
(
t
1
,
…
,
t
r
)
=
φ
(
X
1
,
…
,
X
d
)
(
t
1
,
…
,
t
r
,
0
…
,
0
)
,
t
1
,
…
,
t
r
∈
R
.
{\displaystyle \varphi _{(X_{1},\dots ,X_{r})}(t_{1},\dots ,t_{r})=\varphi _{(X_{1},\dots ,X_{d})}(t_{1},\dots ,t_{r},0\,\dots ,0),\quad t_{1},\dots ,t_{r}\in \mathbb {R} .}
Propietats [8] .
Unicitat. La funció característica determina la distribució del vector
X
{\displaystyle {\boldsymbol {X}}}
; concretament, si
X
{\displaystyle {\boldsymbol {X}}}
i
Y
{\displaystyle {\boldsymbol {Y}}}
són dos vectors aleatoris, amb funcions característiques
φ
X
{\displaystyle \varphi _{\boldsymbol {X}}}
i
φ
Y
{\displaystyle \varphi _{\boldsymbol {Y}}}
respectivament, tals que
φ
X
(
t
1
,
…
,
t
d
)
=
φ
Y
(
t
1
,
…
,
t
d
)
,
∀
(
t
1
,
…
,
t
d
)
∈
R
d
,
{\displaystyle \varphi _{\boldsymbol {X}}(t_{1},\dots ,t_{d})=\varphi _{\boldsymbol {Y}}(t_{1},\dots ,t_{d}),\quad \forall (t_{1},\dots ,t_{d})\in \mathbb {R} ^{d},}
aleshores
X
{\displaystyle {\boldsymbol {X}}}
i
Y
{\displaystyle {\boldsymbol {Y}}}
tenen la mateixa distribució (tenen la mateixa funció de distribució, o si són discrets tenen la mateixa funció de probabilitat, o si són absolutament continus tenen la mateix funció de densitat). La propietat recíproca evidentment també és certa.
Funció característica i independència . Els vectors aleatoris
d
{\displaystyle d}
-dimensionals
X
1
,
…
,
X
k
{\displaystyle {\boldsymbol {X}}_{1},\dots ,{\boldsymbol {X}}_{k}}
són independents si i només si
φ
(
X
1
,
…
,
X
k
)
(
t
1
,
…
,
t
k
)
=
φ
X
1
(
t
1
)
⋯
φ
X
k
(
t
k
)
,
∀
t
1
,
…
,
t
k
∈
R
d
.
{\displaystyle \varphi _{({\boldsymbol {X}}_{1},\dots ,{\boldsymbol {X}}_{k})}({\boldsymbol {t}}_{1},\dots ,{\boldsymbol {t}}_{k})=\varphi _{{\boldsymbol {X}}_{1}}({\boldsymbol {t}}_{1})\cdots \varphi _{{\boldsymbol {X}}_{k}}({\boldsymbol {t}}_{k}),\quad \forall {\boldsymbol {t}}_{1},\dots ,{\boldsymbol {t}}_{k}\in \mathbb {R} ^{d}.}
Funció característica i suma de vectors aleatoris independents. Siguin
X
1
,
…
,
X
k
{\displaystyle {\boldsymbol {X}}_{1},\dots ,{\boldsymbol {X}}_{k}}
vectors aleatoris
d
{\displaystyle d}
-dimensionals independents i posem
Y
=
X
1
+
⋯
+
X
k
.
{\displaystyle {\boldsymbol {Y}}={\boldsymbol {X}}_{1}+\cdots +{\boldsymbol {X}}_{k}.}
Aleshores
φ
Y
(
t
)
=
φ
X
1
(
t
)
⋯
φ
X
k
(
t
)
,
∀
t
∈
R
d
.
{\displaystyle \varphi _{\boldsymbol {Y}}({\boldsymbol {t}})=\varphi _{{\boldsymbol {X}}_{1}}({\boldsymbol {t}})\cdots \varphi _{{\boldsymbol {X}}_{k}}({\boldsymbol {t}}),\quad \forall {\boldsymbol {t}}\in \mathbb {R} ^{d}.}
Funció característica i moments. La següent propietat és especialment útil per a calcular els moments d'un vector aleatori: Si el vector aleatori
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
compleix
E
[
‖
X
‖
m
]
<
∞
{\displaystyle E{\big [}\Vert {\boldsymbol {X}}\Vert ^{m}{\big ]}<\infty }
, on
‖
X
‖
=
X
1
2
+
⋯
+
X
d
2
{\displaystyle \Vert X\Vert ={\sqrt {X_{1}^{2}+\cdots +X_{d}^{2}}}}
, aleshores la funció característica
φ
X
{\displaystyle \varphi _{\boldsymbol {X}}}
és de classe
C
m
{\displaystyle {\mathcal {C}}^{m}}
i per a
n
1
,
…
,
n
d
≥
0
{\displaystyle n_{1},\dots ,n_{d}\geq 0}
,
∑
j
=
1
d
n
j
≤
m
{\displaystyle \sum _{j=1}^{d}n_{j}\leq m}
,
E
(
X
1
n
1
⋯
X
d
n
d
)
=
1
i
n
1
+
⋯
+
n
d
∂
n
1
+
⋯
+
n
d
∂
t
1
n
1
⋯
∂
t
d
n
d
φ
X
(
t
1
…
,
t
d
)
|
t
1
=
0
,
…
,
t
d
=
0
.
{\displaystyle E(X_{1}^{n_{1}}\cdots X_{d}^{n_{d}})={\frac {1}{i^{n_{1}+\cdots +n_{d}}}}\,{\frac {\partial ^{n_{1}+\cdots +n_{d}}}{\partial t_{1}^{n_{1}}\cdots \partial t_{d}^{n_{d}}}}\,\varphi _{\boldsymbol {X}}(t_{1}\dots ,t_{d}){\Big \vert }_{t_{1}=0,\dots ,t_{d}=0}.}
Recíprocament, si la funció característica
φ
X
{\displaystyle \varphi _{\boldsymbol {X}}}
és de classe
C
m
{\displaystyle {\mathcal {C}}^{m}}
per a
m
{\displaystyle m}
parell , aleshores el vector
X
{\displaystyle {\boldsymbol {X}}}
té moments d'ordre
(
n
1
,
…
,
n
d
)
{\displaystyle (n_{1},\dots ,n_{d})}
per qualsevol
n
1
,
…
,
n
d
≥
0
{\displaystyle n_{1},\dots ,n_{d}\geq 0}
,
∑
j
=
1
d
n
j
≤
m
{\displaystyle \sum _{j=1}^{d}n_{j}\leq m}
Exemple. Vector multinomial. Retornem al vector multinomial
X
=
(
X
1
,
…
,
X
d
)
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})}
. La seva funció característica és
φ
(
t
1
,
…
,
t
d
)
=
(
p
1
e
i
t
1
+
⋯
p
d
e
i
t
d
)
n
,
t
1
,
…
,
t
d
∈
R
.
{\displaystyle \varphi (t_{1},\dots ,t_{d})={\big (}p_{1}e^{it_{1}}+\cdots p_{d}e^{it_{d}}{\big )}^{n},\ t_{1},\dots ,t_{d}\in \mathbb {R} .}
El vector
X
{\displaystyle {\boldsymbol {X}}}
té moments de tots els ordres perquè les seves components són variables aleatòries positives i afitades per
n
{\displaystyle n}
. Podem calcular
E
[
X
1
X
2
]
{\displaystyle E[X_{1}X_{2}]}
de la següent manera:
∂
2
∂
t
1
∂
t
2
φ
(
t
1
,
…
,
t
k
)
=
−
n
(
n
−
1
)
(
p
1
e
i
t
1
+
⋯
+
p
k
e
i
t
k
)
n
−
2
p
1
p
2
e
i
t
1
e
i
t
2
,
{\displaystyle {\frac {\partial ^{2}}{\partial t_{1}\partial t_{2}}}\varphi (t_{1},\dots ,t_{k})=-n(n-1)(p_{1}e^{it_{1}}+\cdots +p_{k}e^{it_{k}})^{n-2}p_{1}p_{2}e^{it_{1}}e^{it_{2}},}
d'on
E
(
X
1
X
2
)
=
n
(
n
−
1
)
p
1
p
2
.
{\displaystyle E(X_{1}X_{2})=n(n-1)p_{1}p_{2}.}
Exemple: Vector normal multidimensional. El vector
X
∼
N
(
0
,
I
d
)
{\displaystyle {\boldsymbol {X}}\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{d})}
té funció característica
φ
(
t
1
,
…
,
t
d
)
=
e
−
(
t
1
2
+
⋯
+
t
d
2
)
/
2
,
t
1
,
…
,
t
d
∈
R
.
{\displaystyle \varphi (t_{1},\dots ,t_{d})=e^{-(t_{1}^{2}+\cdots +t_{d}^{2})/2},\ t_{1},\dots ,t_{d}\in \mathbb {R} .}
Sigui
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
un vector aleatori. La funció
M
X
(
s
1
,
…
,
s
d
)
=
E
[
e
s
1
X
1
+
⋯
+
s
d
X
d
]
,
{\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=E{\big [}e^{s_{1}X_{1}+\cdots +s_{d}X_{d}}{\big ]},}
definida en aquells punts
(
s
1
,
…
,
s
d
)
∈
R
d
{\displaystyle (s_{1},\dots ,s_{d})\in \mathbb {R} ^{d}}
on l'esperança de la dreta és finita, s'anomena funció generatriu de moments [9] de
X
{\displaystyle {\boldsymbol {X}}}
. Atès que per qualsevol nombre real
a
∈
R
{\displaystyle a\in \mathbb {R} }
,
e
a
>
0
{\displaystyle e^{a}>0}
, sempre es pot calcular l'esperança de
exp
{
s
1
X
1
+
⋯
+
s
d
X
d
}
{\displaystyle \exp\{s_{1}X_{1}+\cdots +s_{d}X_{d}\}}
, però pot donar infinit. Evidentment, sempre està definida en
0
=
(
0
,
…
,
0
)
{\displaystyle {\boldsymbol {0}}=(0,\dots ,0)}
i
M
X
(
0
)
=
1
{\displaystyle M_{\bf {X}}({\boldsymbol {0}})=1}
. Quan està definida (o existeix) en un entorn de
(
0
,
…
,
0
)
{\displaystyle (0,\dots ,0)}
, aleshores té molt bones propietats i pot substituir la funció característica, amb l'avantatge que és una funció real i , per tant, més fàcil d'utilitzar; d'altra banda, en aquest cas, es pot estendre el domini de definició a un subconjunt de
C
n
{\displaystyle \mathbb {C} ^{n}}
[10] .
Afortunadament, molts vectors aleatoris que apareixen habitualment en l'Anàlisi de la variància i en l'Anàlisi estadística multivariant tenen funció generatriu de moments [11] , però no tots, tal com després veurem.
Alguns autors [10] anomenen transformada de Laplace la funció generatriu de moments; si el vector aleatori
X
{\displaystyle {\boldsymbol {X}}}
només pren valors positius i té funció de densitat
f
X
{\displaystyle f_{\boldsymbol {X}}}
, aleshores
M
X
(
s
1
,
…
,
s
d
)
=
∫
0
∞
⋯
∫
0
∞
e
s
1
x
1
+
⋯
+
s
d
x
d
f
X
(
x
1
,
…
,
x
d
)
d
x
1
⋯
d
x
d
,
{\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=\int _{0}^{\infty }\cdots \int _{0}^{\infty }e^{s_{1}x_{1}+\cdots +s_{d}x_{d}}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d},}
que, a part del signe de
s
1
,
…
,
s
d
{\displaystyle s_{1},\dots ,s_{d}}
, és la transformada de Laplace (multidimensional) de la funció
f
X
{\displaystyle f_{\boldsymbol {X}}}
[12] .
Les tres propietats següents són especialment útils:
Unicitat [11] . Si la funció generatriu de moments d'un vector aleatori està definida en un entorn de
(
0
,
…
,
0
)
{\displaystyle (0,\dots ,0)}
, aleshores determina unívocament la distribució d'aquest vector.
Independència .[11] Siguin
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
i
Y
=
(
Y
1
,
…
,
Y
r
)
{\displaystyle {\boldsymbol {Y}}=(Y_{1},\dots ,Y_{r})}
dos vectors aleatoris tal que el vector
(
X
,
Y
)
{\displaystyle ({\boldsymbol {X}},{\boldsymbol {Y}})}
té funció generatriu de moments definida en un entorn de zero. Aleshores
X
i
Y
{\displaystyle {\boldsymbol {X}}\ {\text{i}}\ {\boldsymbol {Y}}}
són independents si i només si
M
(
X
,
Y
)
(
s
1
,
…
,
s
d
,
t
1
,
…
,
t
r
)
=
M
X
(
s
1
,
…
,
s
d
)
M
Y
(
t
1
,
…
,
t
r
)
.
{\displaystyle M_{({\boldsymbol {X,Y}})}(s_{1},\dots ,s_{d},t_{1},\dots ,t_{r})=M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})\,M_{\boldsymbol {Y}}(t_{1},\dots ,t_{r}).}
Moments [9] . Si un vector aleatori
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
té funció generatriu de moments en un entorn de
(
0
,
…
,
0
)
{\displaystyle (0,\dots ,0)}
, aleshores té moments de tots els ordres i
E
(
X
1
n
1
⋯
X
d
n
d
)
=
∂
n
1
+
⋯
+
n
d
∂
s
1
n
1
⋯
∂
s
d
n
d
M
X
(
s
1
…
,
s
d
)
|
s
1
=
0
,
…
,
s
d
=
0
.
{\displaystyle E(X_{1}^{n_{1}}\cdots X_{d}^{n_{d}})={\frac {\partial ^{n_{1}+\cdots +n_{d}}}{\partial s_{1}^{n_{1}}\cdots \partial s_{d}^{n_{d}}}}\,M_{\boldsymbol {X}}(s_{1}\dots ,s_{d}){\Big \vert }_{s_{1}=0,\dots ,s_{d}=0}.}
Exemples
Vector multinomial
X
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})}
. La funció generatriu és
M
X
(
s
1
,
…
,
s
d
)
=
(
p
1
e
s
1
+
⋯
p
d
e
s
d
)
n
,
s
1
,
…
,
s
d
∈
R
.
{\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})={\big (}p_{1}e^{s_{1}}+\cdots p_{d}e^{s_{d}}{\big )}^{n},\ s_{1},\dots ,s_{d}\in \mathbb {R} .}
Vector normal multidimensional
X
∼
N
(
0
,
I
d
)
{\displaystyle {\boldsymbol {X}}\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{d})}
.
M
X
(
s
1
,
…
,
s
d
)
=
e
(
s
1
2
+
⋯
+
s
d
2
)
/
2
,
s
1
,
…
,
s
d
∈
R
.
{\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=e^{(s_{1}^{2}+\cdots +s_{d}^{2})/2},\ s_{1},\dots ,s_{d}\in \mathbb {R} .}
Vectors aleatoris sense funció generatriu de moments. Segons hem comentat, un vector aleatori amb funció generatriu de moments en un entorn de
(
0
,
…
,
0
)
{\displaystyle (0,\dots ,0)}
té moments de tots els ordres. Per tant, qualsevol vector que contingui alguna component que no tingui moments de qualsevol ordre no tindrà funció generatriu de moments. Per exemple, una distribució
t
{\displaystyle t}
-multidimensional [13] .
Funció generatriu de probabilitats
modifica
Sigui
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
un vector aleatori que només prengui valors naturals (zero inclòs), amb funció de probabilitats
p
X
{\displaystyle p_{\boldsymbol {X}}}
. S'anomena funció generatriu de de probabilitats [5] a la funció
G
X
(
s
1
,
…
,
s
d
)
=
E
[
s
1
X
1
⋯
s
d
X
d
]
=
∑
x
1
≥
0
,
…
,
x
d
≥
0
s
1
x
1
⋯
s
d
x
d
p
X
(
x
1
,
…
,
x
d
)
.
{\displaystyle G_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=E[s_{1}^{X_{1}}\cdots s_{d}^{X_{d}}]=\sum _{x_{1}\geq 0,\dots ,x_{d}\geq 0}s_{1}^{x_{1}}\cdots s_{d}^{x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}).}
(Amb el conveni
0
0
=
1
{\displaystyle 0^{0}=1}
). La sèrie de la dreta és una sèrie de potències multidimensional, que és absolutament convergent per a
(
s
1
,
…
,
s
d
)
∈
[
−
1
,
1
]
d
{\displaystyle (s_{1},\dots ,s_{d})\in [-1,1]^{d}}
, ja que
0
≤
∑
x
1
,
…
,
x
d
|
s
1
x
1
⋯
s
d
x
d
p
X
(
x
1
,
…
,
x
d
)
|
≤
∑
x
1
,
…
,
x
d
p
X
(
x
1
,
…
,
x
d
)
=
1
,
{\displaystyle 0\leq \sum _{x_{1},\dots ,x_{d}}{\big \vert }s_{1}^{x_{1}}\cdots s_{d}^{x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}){\big \vert }\leq \sum _{x_{1},\dots ,x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})=1,}
. A vegades la regió de convergència és més gran que
[
−
1
,
1
]
d
{\displaystyle [-1,1]^{d}}
. Alguns autors defineixen aquesta funció per al camp complex, ja que la sèrie és absolutament convergent per a
z
=
(
z
1
,
…
,
z
d
)
∈
C
d
{\displaystyle {\boldsymbol {z}}=(z_{1},\dots ,z_{d})\in \mathbb {C} ^{d}}
, amb
|
z
1
|
≤
1
,
…
,
|
z
d
|
≤
1
{\displaystyle \vert z_{1}\vert \leq 1,\dots ,\vert z_{d}\vert \leq 1}
i potser en conjunts més grans de
C
d
{\displaystyle \mathbb {C} ^{d}}
.
La funció generatriu de probabilitats està relacionada amb la funció generatriu de moments per la fórmula:
M
X
(
s
1
,
…
,
s
d
)
=
G
X
(
e
s
1
,
…
,
e
s
d
)
.
{\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=G_{\boldsymbol {X}}(e^{s_{1}},\dots ,e^{s_{d}}).}
Aquesta funció s'utilitza molt en situacions on intervenen vectors aleatoris que només prenen valors naturals, com els processos de ramificació [14] .
Propietats [14] .
1. La funció
G
X
{\displaystyle G_{\boldsymbol {X}}}
és contínua i infinitament diferenciable en
(
−
1
,
1
)
d
{\displaystyle (-1,1)^{d}}
.
2. Fórmula d'inversió i unicitat. La funció de probabilitat del vector
X
{\displaystyle {\boldsymbol {X}}}
es pot recuperar a partir de la funció generatriu de probabilitat:
p
X
(
x
1
,
…
,
x
d
)
=
1
x
1
!
⋯
x
d
!
∂
x
1
+
⋯
+
x
d
G
X
(
s
1
,
…
,
s
d
)
∂
s
1
x
1
⋯
∂
s
d
x
d
|
s
1
=
0
,
…
,
s
d
=
0
,
(
x
1
,
…
,
x
d
)
∈
N
d
.
{\displaystyle p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})={\frac {1}{x_{1}!\cdots x_{d}!}}\,{\frac {\partial ^{x_{1}+\cdots +x_{d}}G_{\boldsymbol {X}}(s_{1},\dots ,s_{d})}{\partial s_{1}^{x_{1}}\cdots \partial s_{d}^{x_{d}}}}{\big \vert }_{s_{1}=0,\dots ,s_{d}=0},\quad (x_{1},\dots ,x_{d})\in \mathbb {N} ^{d}.}
En conseqüència, la funció generatriu de probabilitats determina la distribució del vector
X
{\displaystyle {\boldsymbol {X}}}
.
3. Moments factorials . Per a
x
∈
R
{\displaystyle x\in \mathbb {R} }
i
k
∈
N
{\displaystyle k\in \mathbb {N} }
, designem per
x
k
_
{\displaystyle x^{\underline {k}}}
el factorial decreixent [15] :
x
k
_
=
x
(
x
−
1
)
⋯
(
x
−
k
+
1
)
.
{\displaystyle x^{\underline {k}}=x(x-1)\cdots (x-k+1).}
Noteu que si
x
∈
N
{\displaystyle x\in \mathbb {N} }
i
k
≥
x
+
1
{\displaystyle k\geq x+1}
, llavors
x
k
_
=
0
{\displaystyle x^{\underline {k}}=0}
.
S'anomena moment factorial [16] d'ordre
(
n
1
,
…
,
n
d
)
{\displaystyle (n_{1},\dots ,n_{d})}
del vector
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
a
μ
(
n
1
,
…
,
n
d
)
′
=
E
[
X
1
n
_
1
…
X
d
n
_
d
]
.
{\displaystyle \mu '_{{\boldsymbol {(}}n_{1},\dots ,n_{d})}=E[X_{1}^{{\underline {n}}_{1}}\dots X_{d}^{{\underline {n}}_{d}}].}
Aleshores , aquesta esperança és finita si i només si [14]
lim
s
1
↑
1
,
…
,
s
d
↑
1
∂
n
1
+
⋯
+
n
d
G
(
s
1
,
…
,
s
d
)
∂
s
1
n
1
⋯
∂
s
1
n
1
<
∞
,
{\displaystyle \lim _{s_{1}\uparrow 1,\dots ,s_{d}\uparrow 1}{\frac {\partial ^{n_{1}+\cdots +n_{d}}G(s_{1},\dots ,s_{d})}{\partial s_{1}^{n_{1}}\cdots \partial s_{1}^{n_{1}}}}<\infty ,}
i en aquest cas,
μ
(
n
1
,
…
,
n
d
)
′
=
lim
s
1
↑
1
,
…
,
s
d
↑
1
∂
n
1
+
⋯
+
n
d
G
(
s
1
,
…
,
s
d
)
∂
s
1
n
1
⋯
∂
s
1
n
1
.
{\displaystyle \mu '_{(n_{1},\dots ,n_{d})}=\lim _{s_{1}\uparrow 1,\dots ,s_{d}\uparrow 1}{\frac {\partial ^{n_{1}+\cdots +n_{d}}G(s_{1},\dots ,s_{d})}{\partial s_{1}^{n_{1}}\cdots \partial s_{1}^{n_{1}}}}.}
4. Suma de vectors aleatoris independents. Siguin
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
i
Y
=
(
Y
1
,
…
,
Y
d
)
{\displaystyle {\boldsymbol {Y}}=(Y_{1},\dots ,Y_{d})}
dos vectors aleatoris que només prenen valors naturals. Aleshores
G
X
+
Y
(
s
)
=
G
X
(
s
)
G
Y
(
s
)
.
{\displaystyle G_{{\boldsymbol {X}}+{\boldsymbol {Y}}}({\boldsymbol {s}})=G_{\boldsymbol {X}}({\boldsymbol {s}})\,G_{\boldsymbol {Y}}({\boldsymbol {s}}).}
Exemple. Vector multinomial
X
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})}
. La funció generatriu de probabilitat és
G
X
(
s
1
,
…
,
s
d
)
=
(
p
1
s
1
+
⋯
p
d
s
d
)
n
,
s
1
,
…
,
s
d
∈
R
.
{\displaystyle G_{\boldsymbol {X}}(s_{1},\dots ,s_{d})={\big (}p_{1}{s_{1}}+\cdots p_{d}{s_{d}}{\big )}^{n},\ s_{1},\dots ,s_{d}\in \mathbb {R} .}
Funcions d'un vector aleatori amb densitat
modifica
Les transformacions d'un vector aleatori són especialment importants tant en la teoria com en les aplicacions, i és molt convenient disposar d'eines per determinar la distribució del vector transformat a partir de l'inicial . Si
X
{\displaystyle {\boldsymbol {X}}}
és un vector aleatori
d
{\displaystyle d}
-dimensional amb funció de densitat i
h
:
R
d
→
R
d
{\displaystyle h:\mathbb {R} ^{d}\to \mathbb {R} ^{d}}
és una bona funció, aleshores
Y
=
h
(
X
)
{\displaystyle {\boldsymbol {Y}}=h({\boldsymbol {X}})}
també té funció de densitat i hi ha fórmules per calcular-la. De fet, si el vector
X
{\displaystyle {\boldsymbol {X}}}
està concentrat en un subconjunt
U
{\displaystyle U}
, és a dir, si
P
(
X
∈
U
)
=
1
{\displaystyle P({\boldsymbol {X}}\in U)=1}
, aleshores la funció
h
{\displaystyle {\boldsymbol {h}}}
només ha d'estar definida en aquest conjunt.
Propietat. [17] Sigui
X
{\displaystyle {\boldsymbol {X}}}
un vector aleatori amb funció de densitat conjunta
f
X
(
x
)
{\displaystyle f_{\boldsymbol {X}}({\boldsymbol {x}})}
. Suposem que
P
(
X
∈
U
)
=
1
{\displaystyle P({\boldsymbol {X}}\in U)=1}
on
U
{\displaystyle U}
és un conjunt obert de
R
d
{\displaystyle \mathbb {R} ^{d}}
. Sigui
h
=
(
h
(
1
)
,
…
,
h
(
d
)
)
:
U
→
V
,
{\displaystyle h=(h^{(1)},\dots ,h^{(d)}):U\to V,}
on
V
{\displaystyle V}
és un obert de
R
d
{\displaystyle \mathbb {R} ^{d}}
,
h
{\displaystyle h}
bijectiva de classe
C
1
{\displaystyle {\cal {C}}^{1}}
, amb determinant jacobià no nul sobre
U
{\displaystyle U}
:
J
h
(
x
1
,
…
,
x
d
)
:=
det
(
∂
h
(
i
)
∂
x
j
)
i
,
j
=
1
,
…
,
d
≠
0
,
∀
(
x
1
,
…
,
x
d
)
∈
U
.
{\displaystyle J_{\boldsymbol {h}}(x_{1},\dots ,x_{d}):={\text{det}}{\Big (}{\partial h^{(i)} \over \partial x_{j}}{\Big )}_{i,j=1,\dots ,d}\neq 0,\ \forall (x_{1},\dots ,x_{d})\in U.}
Designem la inversa de
h
{\displaystyle h}
per
g
=
(
g
(
1
)
,
…
,
g
(
d
)
)
{\displaystyle g=(g^{(1)},\dots ,g^{(d)})}
. Aleshores el vector aleatori
Y
=
h
(
X
)
{\displaystyle {\boldsymbol {Y}}=h({\boldsymbol {X}})}
és absolutament continu amb densitat
f
Y
(
y
)
=
{
f
X
(
g
(
y
)
)
|
J
g
(
y
)
|
,
si
y
∈
V
,
0
,
en cas contrari.
{\displaystyle f_{\boldsymbol {Y}}({\boldsymbol {y}})={\begin{cases}f_{X}{\big (}g({\boldsymbol {y}}){\big )}\vert J_{g}({\boldsymbol {y}})\vert ,&{\text{ si }}{\boldsymbol {y}}\in V,\\0,&{\text{en cas contrari.}}\end{cases}}}
Exemple. Vector aleatori normal multidimensional. En aquest exemple escriurem tots els vectors en columna. Sigui
X
=
(
X
1
,
…
,
X
d
)
′
∼
N
(
0
,
I
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{d})}
un vector aleatori normal multidimensional com el que hem introduït anteriorment. Considerem una matriu
d
×
d
{\displaystyle d\times d}
definida positiva
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
i un vector
μ
∈
R
d
{\displaystyle {\boldsymbol {\mu }}\in \mathbb {R} ^{d}}
. Existeix [18] una única matriu definida positiva [19]
Σ
1
/
2
{\displaystyle {\boldsymbol {\Sigma }}^{1/2}}
tal que
(
Σ
1
/
2
)
2
=
Σ
{\displaystyle ({\boldsymbol {\Sigma }}^{1/2})^{2}={\boldsymbol {\Sigma }}}
. Definim el vector
Y
{\displaystyle {\boldsymbol {Y}}}
per
Y
=
Σ
1
/
2
X
+
μ
.
{\displaystyle {\boldsymbol {Y}}={\boldsymbol {\Sigma }}^{1/2}{\boldsymbol {X}}+{\boldsymbol {\mu }}.}
Així, l'aplicació que estem considerant és
h
:
R
d
→
R
d
{\displaystyle h:\mathbb {R} ^{d}\to \mathbb {R} ^{d}}
donada per
h
(
x
)
=
Σ
1
/
2
x
+
μ
.
{\displaystyle h({\boldsymbol {x}})={\boldsymbol {\Sigma }}^{1/2}{\boldsymbol {x}}+{\boldsymbol {\mu }}.}
Noteu que
U
=
V
=
R
d
{\displaystyle U=V=\mathbb {R} ^{d}}
.
L'aplicació inversa és
g
(
y
)
=
h
−
1
(
y
)
=
Σ
−
1
/
2
(
y
−
μ
)
,
{\displaystyle g({\boldsymbol {y}})=h^{-1}({\boldsymbol {y}})={\boldsymbol {\Sigma }}^{-1/2}({\boldsymbol {y}}-{\boldsymbol {\mu }}),}
on
Σ
−
1
/
2
{\displaystyle {\boldsymbol {\Sigma }}^{-1/2}}
és la matriu inversa de
Σ
1
/
2
{\displaystyle {\boldsymbol {\Sigma }}^{1/2}}
. La matriu jacobiana de
g
{\displaystyle g}
és
Σ
−
1
/
2
{\displaystyle {\boldsymbol {\Sigma }}^{-1/2}}
, que té determinant diferent de zero a tot
R
d
{\displaystyle \mathbb {R} ^{d}}
. La densitat de
X
{\displaystyle {\boldsymbol {X}}}
és
f
(
x
)
=
1
(
2
π
)
d
/
2
e
−
(
x
1
2
+
⋯
+
x
d
2
)
/
2
=
1
(
2
π
)
d
/
2
e
−
x
′
x
/
2
.
{\displaystyle f({\boldsymbol {x}})={\frac {1}{(2\pi )^{d/2}}}\,e^{-(x_{1}^{2}+\cdots +x_{d}^{2})/2}={\frac {1}{(2\pi )^{d/2}}}\,e^{-{\boldsymbol {x}}'{\boldsymbol {x}}/2}.}
Llavors, la densitat de
Y
{\displaystyle {\boldsymbol {Y}}}
és
f
Y
(
y
)
=
1
(
2
π
)
d
/
2
e
(
y
−
μ
)
′
Σ
−
1
/
2
Σ
−
1
/
2
(
y
−
μ
)
|
det
Σ
−
1
/
2
|
=
1
(
2
π
)
d
/
2
(
det
Σ
)
1
/
2
e
(
y
−
μ
)
′
Σ
−
1
(
y
−
μ
)
.
{\displaystyle f_{\boldsymbol {Y}}({\boldsymbol {y}})={\frac {1}{(2\pi )^{d/2}}}\,e^{({\boldsymbol {y}}-{\boldsymbol {\mu }})^{\prime }{\boldsymbol {\Sigma }}^{-1/2}{\boldsymbol {\Sigma }}^{-1/2}({\boldsymbol {y}}-{\boldsymbol {\mu }})}\,\vert {\text{det}}\,{\boldsymbol {\Sigma }}^{-1/2}\vert ={\frac {1}{(2\pi )^{d/2}({\text{det}}\,{\boldsymbol {\Sigma }})^{1/2}}}\,e^{({\boldsymbol {y}}-{\boldsymbol {\mu }})^{\prime }{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {y}}-{\boldsymbol {\mu }})}.}
Es diu que
Y
{\displaystyle {\boldsymbol {Y}}}
té una llei normal multidimensional
Y
∼
N
d
(
μ
,
Σ
)
{\displaystyle {\boldsymbol {Y}}\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})}
. D'acord amb les propietats que hem vist sobre el vector d'esperances i la matriu de variàncies-covariàncies tenim que
E
[
Y
]
=
Σ
1
/
2
E
[
X
]
+
μ
=
μ
{\displaystyle E[{\boldsymbol {Y}}]={\boldsymbol {\Sigma }}^{1/2}\,E[{\boldsymbol {X}}]+{\boldsymbol {\mu }}={\boldsymbol {\mu }}}
i
V
(
Y
)
=
Σ
1
/
2
V
(
X
)
Σ
1
/
2
=
Σ
.
{\displaystyle {\boldsymbol {V}}({\boldsymbol {Y}})={\boldsymbol {\Sigma }}^{1/2}{\boldsymbol {V}}({\boldsymbol {X}}){\boldsymbol {\Sigma }}^{1/2}={\boldsymbol {\Sigma }}.}
Extensió. La propietat anterior es pot estendre al cas que la funció
h
{\displaystyle h}
es pugui descomposar en una funció bijectiva a trossos. Concretament tenim [20] : Sigui
X
{\displaystyle {\boldsymbol {X}}}
un vector aleatori
d
{\displaystyle d}
-dimensional, amb funció de densitat conjunta
f
X
(
x
)
{\displaystyle f_{\boldsymbol {X}}({\boldsymbol {x}})}
. Suposem que
P
{
X
∈
U
}
=
1
{\displaystyle P\{{\boldsymbol {X}}\in U\}=1}
amb
U
=
U
1
∪
⋯
∪
U
k
{\displaystyle U=U_{1}\cup \cdots \cup U_{k}}
, on
U
i
{\displaystyle U_{i}}
són oberts de
R
d
{\displaystyle \mathbb {R} ^{d}}
disjunts dos a dos. Sigui
h
:
U
⟶
R
d
,
{\textstyle h:\,U\longrightarrow \mathbb {R} ^{d},}
tal que les restriccions
h
i
:
U
i
⟶
V
i
{\displaystyle h_{i}:U_{i}\longrightarrow V_{i}}
són bijectives de classe
C
1
{\displaystyle {\cal {C}}^{1}}
amb determinant jacobià no nul (els conjunts
V
1
,
…
,
V
k
{\displaystyle V_{1},\dots ,V_{k}}
no cal que siguin disjunts dos a dos i, de fet, poden ser iguals). Designem per
g
i
:
V
i
⟶
U
i
{\displaystyle g_{i}:V_{i}\longrightarrow U_{i}}
la inversa de
h
i
{\displaystyle h_{i}}
. Aleshores el vector aleatori
Y
=
h
(
X
)
{\displaystyle {\boldsymbol {Y}}=h({\boldsymbol {X}})}
és absolutament continu amb densitat
f
Y
(
y
)
=
∑
i
=
1
k
f
X
(
g
i
(
y
)
|
J
g
i
(
y
)
|
1
V
i
(
y
)
,
{\displaystyle f_{\boldsymbol {Y}}({\boldsymbol {y}})=\sum _{i=1}^{k}f_{\boldsymbol {X}}{\big (}g_{i}({\boldsymbol {y}})\vert J_{g_{i}}({\boldsymbol {y}})\vert {\boldsymbol {1}}_{V_{i}}({\boldsymbol {y}}),}
on,
1
V
i
{\displaystyle {\boldsymbol {1}}_{V_{i}}}
és la funció indicador del conjunt
V
i
{\displaystyle V_{i}}
:
1
V
i
(
y
)
=
{
1
,
si
y
∈
V
i
,
0
,
en cas contrari.
{\displaystyle {\boldsymbol {1}}_{V_{i}}(y)={\begin{cases}1,&{\text{si }}y\in V_{i},\\0,&{\text{en cas contrari.}}\end{cases}}}
Sigui
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
un vector aleatori discret amb funció de probabilitat
p
X
{\displaystyle p_{\boldsymbol {X}}}
. Considerem una de les components del vector, per exemple, per simplificar les notacions, l'última,
X
d
{\displaystyle X_{d}}
, amb funció de probabilitat marginal
p
X
d
{\displaystyle p_{X_{d}}}
, i fixem
x
d
{\displaystyle x_{d}}
tal que
p
X
d
(
x
d
)
>
0
{\displaystyle p_{X_{d}}(x_{d})>0}
. S'anomena distribució de
(
X
1
,
…
,
X
d
−
1
)
{\displaystyle (X_{1},\dots ,X_{d-1})}
condicionada per
X
d
=
x
d
{\displaystyle X_{d}=x_{d}}
a la probabilitat donada per la funció de probabilitat
p
X
1
,
…
,
X
d
−
1
|
X
d
(
x
1
,
…
,
x
d
−
1
|
x
d
)
=
p
X
(
x
1
,
…
,
x
d
)
p
X
d
(
x
d
)
.
{\displaystyle p_{X_{1},\dots ,X_{d-1}\,\vert \,X_{d}}(x_{1},\dots ,x_{d-1}\vert x_{d})={\frac {p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})}{p_{X_{d}}(x_{d})}}.}
Més generalment, per a
2
≤
r
≤
d
,
{\displaystyle 2\leq r\leq d,}
podem considerar el vector
(
X
r
,
…
,
X
d
)
{\displaystyle (X_{r},\dots ,X_{d})}
(per simplificar les notacions); fixat
(
x
r
,
…
,
x
d
)
{\displaystyle (x_{r},\dots ,x_{d})}
tal que
p
X
r
,
…
,
X
d
(
x
r
,
…
,
x
d
)
>
0
{\displaystyle p_{X_{r},\dots ,X_{d}}(x_{r},\dots ,x_{d})>0}
, definim la distribució de
(
X
1
,
…
,
X
r
−
1
)
{\displaystyle (X_{1},\dots ,X_{r-1})}
condicionada per
X
r
=
x
r
,
…
,
X
d
=
x
d
{\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}}
a la probabilitat donada per la funció de probabilitat
p
X
1
,
…
,
X
r
−
1
|
X
r
,
…
,
X
d
(
x
1
,
…
,
x
r
−
1
|
X
r
=
x
r
,
…
,
x
d
)
=
p
X
(
x
1
,
…
,
x
d
)
p
X
r
,
…
,
X
d
(
x
r
,
…
,
x
d
)
.
{\displaystyle p_{X_{1},\dots ,X_{r-1}\,\vert \,X_{r},\dots ,X_{d}}(x_{1},\dots ,x_{r-1}\vert X_{r}=x_{r},\dots ,x_{d})={\frac {p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})}{p_{X_{r},\dots ,X_{d}}(x_{r},\dots ,x_{d})}}.}
Exemple . Considerem un vector multinomial
X
=
(
X
1
,
…
,
X
d
)
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})}
. Aleshores, fixat
k
∈
{
0
,
…
,
n
}
{\displaystyle k\in \{0,\dots ,n\}}
, la distribució de
(
X
1
,
…
,
X
d
−
1
)
{\displaystyle (X_{1},\dots ,X_{d-1})}
condicionada per
X
d
=
k
{\displaystyle X_{d}=k}
és
p
(
X
1
,
…
,
X
d
−
1
)
|
X
d
(
x
1
,
…
,
x
d
−
1
|
k
)
=
(
n
−
k
)
!
x
1
!
⋯
x
d
−
1
!
(
p
1
1
−
p
k
)
x
1
⋯
(
p
d
−
1
1
−
p
k
)
x
d
−
1
,
x
1
≥
0
,
…
,
x
d
−
1
≥
0
,
amb
x
1
+
⋯
+
x
d
−
1
=
n
−
k
.
{\displaystyle p_{(X_{1},\dots ,X_{d-1})\,\vert \,X_{d}}(x_{1},\dots ,x_{d-1}\vert k)={\frac {(n-k)!}{x_{1}!\cdots x_{d-1}!}}\,{\Big (}{\frac {p_{1}}{1-p_{k}}}{\Big )}^{x_{1}}\cdots {\Big (}{\frac {p_{d-1}}{1-p_{k}}}{\Big )}^{x_{d-1}},\quad x_{1}\geq 0,\dots ,x_{d-1}\geq 0,{\text{amb }}x_{1}+\cdots +x_{d-1}=n-k.}
Per tant,
(
X
1
,
…
,
X
d
−
1
)
{\displaystyle (X_{1},\dots ,X_{d-1})}
condicionat a
X
d
=
k
{\displaystyle X_{d}=k}
té una distribució multinomial
M
(
n
−
k
;
p
1
/
(
1
−
p
k
)
,
…
,
p
d
−
1
/
(
1
−
p
k
)
)
{\displaystyle {\mathcal {M}}{\big (}n-k;p_{1}/(1-p_{k}),\dots ,p_{d-1}/(1-p_{k}){\big )}}
.
En general [21] , fixats
x
r
≥
0
,
…
,
x
d
≥
0
,
{\displaystyle x_{r}\geq 0,\dots ,x_{d}\geq 0,}
tals que
x
r
+
⋯
+
x
d
≤
n
{\displaystyle x_{r}+\cdots +x_{d}\leq n}
, el vector
(
X
1
,
…
,
X
r
−
1
)
{\displaystyle (X_{1},\dots ,X_{r-1})}
condicionat per
X
r
=
x
r
,
…
,
X
d
=
x
d
{\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}}
té una distribució multinomial
M
(
n
−
m
;
p
1
∗
,
…
,
p
r
−
1
∗
)
{\displaystyle {\mathcal {M}}(n-m;p_{1}^{*},\dots ,p_{r-1}^{*})}
, on
m
=
x
r
+
⋯
+
x
d
{\displaystyle m=x_{r}+\cdots +x_{d}}
i
p
j
∗
=
p
j
/
(
p
1
+
⋯
+
p
r
−
1
)
,
j
=
1
,
…
,
r
−
1
{\displaystyle p_{j}^{*}=p_{j}/(p_{1}+\cdots +p_{r-1}),\quad j=1,\dots ,r-1}
.
Sigui
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
un vector aleatori amb funció de densitat conjunta
f
X
(
x
1
,
…
,
x
d
)
{\displaystyle f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})}
. Per a
2
≤
r
≤
d
,
{\displaystyle 2\leq r\leq d,}
fixats
x
r
,
…
,
x
d
{\displaystyle x_{r},\dots ,x_{d}}
tals que
f
X
r
,
…
,
x
d
(
x
r
,
…
,
x
d
)
>
0
{\displaystyle f_{X_{r},\dots ,x_{d}}(x_{r},\dots ,x_{d})>0}
, definim la densitat condicionada de
(
X
1
,
…
,
X
r
−
1
)
{\displaystyle (X_{1},\dots ,X_{r-1})}
condicionada per
X
r
=
x
r
,
…
,
X
d
=
x
d
{\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}}
f
X
1
,
…
,
X
r
−
1
|
X
r
,
…
,
X
d
(
x
1
,
…
,
x
r
−
1
|
x
r
,
…
,
x
d
)
=
f
X
(
x
1
,
…
,
x
d
)
f
X
r
,
…
,
X
d
(
x
r
,
…
,
x
d
)
.
{\displaystyle f_{X_{1},\dots ,X_{r-1}\,\vert \,X_{r},\dots ,X_{d}}(x_{1},\dots ,x_{r-1}\vert x_{r},\dots ,x_{d})={\frac {f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})}{f_{X_{r},\dots ,X_{d}}(x_{r},\dots ,x_{d})}}.}
Exemple. Vector normal multidimensional. . Sigui
X
=
(
X
1
,
…
,
X
d
)
′
∼
N
d
(
μ
,
Σ
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})}
un vector normal multidimensional (de nou aquí escriurem tots els vectors en columna), i
2
≤
r
≤
d
{\displaystyle 2\leq r\leq d}
. Escrivim
X
1
=
(
X
1
,
…
,
X
r
−
1
)
′
i
X
2
=
(
X
r
,
…
,
X
d
)
′
{\displaystyle {\boldsymbol {X}}_{1}=(X_{1},\dots ,X_{r-1})'\quad {\text{i}}\quad {\boldsymbol {X}}_{2}=(X_{r},\dots ,X_{d})'}
μ
1
=
E
[
X
1
]
=
(
μ
1
,
…
,
μ
r
−
1
)
′
i
μ
2
=
E
[
X
2
]
=
(
μ
r
,
…
,
μ
d
)
′
.
{\displaystyle {\boldsymbol {\mu }}_{1}=E[{\boldsymbol {X}}_{1}]=(\mu _{1},\dots ,\mu _{r-1})'\quad {\text{i}}\quad {\boldsymbol {\mu }}_{2}=E[{\boldsymbol {X}}_{2}]=(\mu _{r},\dots ,\mu _{d})'.}
D'altra banda, partim la matriu
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
de la següent manera:
Σ
=
(
Σ
11
Σ
12
Σ
21
Σ
22
)
,
{\displaystyle {\boldsymbol {\Sigma }}={\begin{pmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{12}\\\Sigma _{21}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},}
on
Σ
i
j
=
C
(
X
i
,
X
j
)
{\displaystyle {\boldsymbol {\Sigma }}_{ij}={\boldsymbol {C}}({\boldsymbol {X}}_{i},{\boldsymbol {X}}_{j})}
. Noteu que
Σ
21
=
Σ
12
′
{\displaystyle {\boldsymbol {\Sigma }}_{21}={\boldsymbol {\Sigma }}_{12}'}
. Aleshores [22] , la distribució
(
X
1
,
…
,
X
r
−
1
)
′
{\displaystyle (X_{1},\dots ,X_{r-1})'}
condicionada per
X
r
=
x
r
,
…
,
X
d
=
x
d
{\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}}
(escrivim
x
2
=
(
x
r
,
…
,
x
d
)
′
{\displaystyle {\boldsymbol {x}}_{2}=(x_{r},\dots ,x_{d})'}
) és normal mutidimensional
N
r
−
1
(
μ
∗
,
Σ
∗
)
{\displaystyle {\mathcal {N}}_{r-1}({\boldsymbol {\mu }}^{*},{\boldsymbol {\Sigma }}^{*})}
on
μ
∗
=
μ
1
+
Σ
12
Σ
22
−
1
(
x
2
−
μ
2
)
i
Σ
∗
=
Σ
11
−
Σ
12
Σ
22
−
1
Σ
21
.
{\displaystyle {\boldsymbol {\mu }}^{*}={\boldsymbol {\mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}({\boldsymbol {x}}_{2}-{\boldsymbol {\mu }}_{2})\quad {\text{i}}\quad {\boldsymbol {\Sigma }}^{*}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}.}
En particular, per a
d
=
2
{\displaystyle d=2}
, si posem
Var
(
X
1
)
=
σ
1
2
,
Var
(
X
2
)
=
σ
2
2
i
Cov
(
X
1
,
X
2
)
=
σ
12
,
{\displaystyle {\text{Var}}(X_{1})=\sigma _{1}^{2},\ {\text{Var}}(X_{2})=\sigma _{2}^{2}\ \ {\text{i}}\ \ {\text{Cov}}(X_{1},X_{2})=\sigma _{12},}
tenim que
X
1
{\displaystyle X_{1}}
condicionada per
X
2
=
x
2
{\displaystyle X_{2}=x_{2}}
té una distribució normal
N
(
μ
,
σ
2
)
{\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})}
on
μ
=
μ
1
+
σ
12
σ
2
2
(
x
2
−
μ
2
)
i
σ
2
=
σ
1
2
−
σ
12
2
σ
2
2
.
{\displaystyle \mu =\mu _{1}+{\frac {\sigma _{12}}{\sigma _{2}^{2}}}(x_{2}-\mu _{2})\quad {\text{i}}\quad \sigma ^{2}=\sigma _{1}^{2}-{\frac {\sigma _{12}^{2}}{\sigma _{2}^{2}}}.}
Aquests exemples tracten de vectors aleatoris bidimensionals, que habitualment és denoten per
(
X
,
Y
)
{\displaystyle (X,Y)}
en lloc de
(
X
1
,
X
2
)
{\displaystyle (X_{1},X_{2})}
.
Exemple 1. Vector aleatori bidimensional discret
modifica
Tirem una moneda tres cops. El model probabilístic que prendrem és
Ω
=
{
(cara,cara,cara), (creu, cara, cara),...
}
{\displaystyle \Omega ={\big \{}{\text{(cara,cara,cara), (creu, cara, cara),...}}{\big \}}}
, que té 8 elements;
A
{\displaystyle {\mathcal {A}}}
és la col.lecció de tots els subconjunts de
Ω
{\displaystyle \Omega }
, i
P
{\displaystyle P}
assigna a tots els resultats la mateixa probabilitat 1/8. Siguin
X
{\displaystyle X}
: nombre de cares que surt.
Y
{\displaystyle Y}
: diferència, en valor absolut, entre el nombre de cares i de creus.
Aleshores
X
{\displaystyle X}
pot prendre els valors 0, 1, 2 o 3, i
Y
{\displaystyle Y}
pot valer 1 o 3. Llavors, el vector
(
X
,
Y
)
{\displaystyle (X,Y)}
pot prendre els valors (0,1), (0,3), (2,1), (2,3), (3,1) o (3,3). El conjunt
S
=
{
(
0
,
1
)
,
(
0
,
3
)
,
(
2
,
1
)
,
(
2
,
3
)
,
(
3
,
1
)
,
(
3
,
3
)
}
{\displaystyle S={\big \{}(0,1),(0,3),(2,1),(2,3),(3,1),(3,3){\big \}}}
s'anomena el suport de la distribució del vector. Notem que
P
(
(
X
,
Y
)
∈
S
)
=
1.
{\displaystyle P{\big (}(X,Y)\in S{\big )}=1.}
Calculem les probabilitats que prengui cadascun dels valors del suport. Recordem que per alleugerir les fórmules s'utilitzen 'comes' en lloc d'interseccions):
P
(
(
X
,
Y
)
=
(
0
,
1
)
)
=
P
(
X
=
0
,
Y
=
1
)
=
P
(
{
X
=
0
}
∩
{
Y
=
1
}
)
=
P
(
∅
)
=
0
{\displaystyle P{\big (}(X,Y)=(0,1){\big )}=P{\big (}X=0,Y=1{\big )}=P{\big (}\{X=0\}\cap \{Y=1\}{\big )}=P(\emptyset )=0}
.
P
(
(
X
,
Y
)
=
(
0
,
3
)
)
=
P
(
(creu,creu,creu)
)
=
1
/
8
{\displaystyle P{\big (}(X,Y)=(0,3){\big )}=P{\big (}{\text{(creu,creu,creu)}}{\big )}=1/8}
P
(
(
X
,
Y
)
=
(
1
,
1
)
)
=
P
(
(cara,creu,creu), (creu,cara,creu), (creu,creu,cara)
)
=
3
/
8
,
{\displaystyle P{\big (}(X,Y)=(1,1){\big )}=P{\big (}{\text{(cara,creu,creu), (creu,cara,creu), (creu,creu,cara)}}{\big )}=3/8,}
(noteu que l'ordre en què surten els resultats s'ha de tenir en compte).
I així successivament. De fet, els punts (0,1), (1,3), (2,3) i (3,1) es poden treure del suport, ja que tenen probabilitat zero, i per a certes fórmules és convenient fer-ho per evitar expressions sense sentit. La funció
p
(
X
,
Y
)
(
x
,
y
)
=
P
(
X
=
x
,
Y
=
y
)
,
(
x
,
y
)
∈
S
{\displaystyle p_{(X,Y)}(x,y)=P(X=x,Y=y),\ (x,y)\in S}
s'anomena funció de probabilitat conjunta o funció de repartiment de massa del vector
(
X
,
Y
)
{\displaystyle (X,Y)}
. Quan hi ha un nombre petit de casos, com en aquest exemple, la funció de probabilitat s'acostuma a posar en una taula, anomenada taula de probabilitats conjuntes del vector i que determina la llei o distribució del vector.
X
0
1
2
3
1
0
3
/
8
3
/
8
0
Y
3
1
/
8
0
0
1
/
8
{\displaystyle {\begin{array}{cc|cccc}&&&X\\&&0&1&2&3\\\hline &1&0&3/8&3/8&0\\Y\\&3&1/8&0&0&1/8\\\hline \end{array}}}
Distribucions marginals
A partir d'aquesta taula, sumant per files o columnes, es dedueixen les funcions de probabilitat de les variables
X
{\displaystyle X}
i
Y
{\displaystyle Y}
, que denotem per
p
X
{\displaystyle p_{X}}
i
p
Y
{\displaystyle p_{Y}}
i que s'anomenen distribucions marginals de
X
{\displaystyle X}
i de
Y
{\displaystyle Y}
respectivament, o taules de probabilitats marginals :
x
0
1
2
3
p
X
(
x
)
1
/
8
0
0
1
/
8
y
1
3
p
Y
(
y
)
3
/
4
1
/
4
{\displaystyle {\begin{array}{c|ccccc}\hline x&0&1&2&3\\\hline p_{X}(x)&1/8&0&0&1/8\\\hline \end{array}}\qquad \qquad {\begin{array}{c|ccc}\hline y&1&3\\\hline p_{Y}(y)&3/4&1/4\\\hline \end{array}}}
Independència de variables aleatòries Recordem que dues variables aleatòries
X
{\displaystyle X}
i
Y
{\displaystyle Y}
es diu que són independents si per a qualsevol
A
,
B
⊂
R
{\displaystyle A,B\subset \mathbb {R} }
(en rigor, conjunts de Bore l
A
,
B
∈
B
(
R
)
{\displaystyle A,B\in {\mathcal {B}}(\mathbb {R} )}
) , els esdeveniments
{
X
∈
A
}
{\displaystyle \{X\in A\}}
i
{
Y
∈
B
}
{\displaystyle \{Y\in B\}}
són independents, això és,
P
(
X
∈
A
,
Y
∈
B
)
=
P
(
X
∈
A
)
P
(
Y
∈
B
)
.
{\displaystyle P{\big (}X\in A,Y\in B)=P(X\in A)\,P(Y\in B).}
Quan ambdues variables són discretes, aquesta condició es redueix a una sobre la funció de probabilitat conjunta: Les variables
X
{\displaystyle X}
i
Y
{\displaystyle Y}
són independents si i només si
p
(
X
,
Y
)
(
x
,
y
)
=
p
X
(
x
)
p
Y
(
y
)
,
∀
(
x
,
y
)
∈
S
.
{\displaystyle p_{(X,Y)}(x,y)=p_{X}(x)\,p_{Y}(y),\quad \forall (x,y)\in S.}
A l'exemple és evident que aquesta propietat no es compleix: per exemple,
p
(
X
,
Y
)
(
0
,
1
)
=
0
≠
p
X
(
0
)
p
Y
(
1
)
=
3
32
.
{\displaystyle p_{(X,Y)}(0,1)=0\neq p_{X}(0)\,p_{Y}(1)={\frac {3}{32}}.}
Distribucions condicionades
Atès que l'esdeveniment
{
Y
=
1
}
{\displaystyle \{Y=1\}}
(obtenir exactament una cara) té probabilitat estrictament positiva, podem calcular les probabilitat condicionada:
P
(
X
=
0
|
Y
=
1
)
=
P
(
X
=
0
,
Y
=
1
)
P
(
Y
=
1
)
=
0.
{\displaystyle P(X=0\,\vert \,Y=1)={\frac {P(X=0,Y=1)}{P(Y=1)}}=0.}
Anàlogament,
P
(
X
=
1
|
Y
=
1
)
=
1
/
2
,
P
(
X
=
2
|
Y
=
1
)
=
1
/
2
i
P
(
X
=
3
|
Y
=
1
)
=
0.
{\displaystyle P(X=1\,\vert \,Y=1)=1/2,\quad P(X=2\,\vert \,Y=1)=1/2\quad {\text{i}}\quad P(X=3\,\vert \,Y=1)=0.}
Per tant, fixat
Y
=
1
{\displaystyle Y=1}
, tenim definida una probabilitat sobre el conjunt
{
0
,
1
,
2
,
3
}
{\displaystyle \{0,1,2,3\}}
, de fet, només cal considerar el conjunt
{
1
,
2
}
{\displaystyle \{1,2\}}
, que s'anomena la distribució de
X
{\displaystyle X}
condicionada per
Y
=
1
{\displaystyle Y=1}
, per a la qual es dóna la funció de probabilitat condicionada
p
X
|
Y
(
1
|
1
)
=
1
2
i
p
X
|
Y
(
2
|
1
)
=
1
2
,
{\displaystyle p_{X\vert Y}(1|1)={\frac {1}{2}}\quad {\text{i}}\quad p_{X\vert Y}(2|1)={\frac {1}{2}},}
i que es pot representar per la taula
x
1
2
p
X
|
Y
(
x
|
1
)
1
/
2
1
/
2
{\displaystyle {\begin{array}{c|cc}\hline x&1&2\\\hline p_{X\vert Y}(x|1)&1/2&1/2\\\hline \end{array}}}
Anàlogament, tenim la distribució de condicionada per
Y
=
3
{\displaystyle Y=3}
donada a la següent taula:
x
0
3
p
X
|
Y
(
x
|
3
)
1
/
2
1
/
2
{\displaystyle {\begin{array}{c|cc}\hline x&0&3\\\hline p_{X\vert Y}(x|3)&1/2&1/2\\\hline \end{array}}}
Esperança d'un vector. Es defineix l'esperança del vector
(
X
,
Y
)
{\displaystyle (X,Y)}
com el vector
E
[
(
X
,
Y
)
]
=
(
E
[
X
]
,
E
[
Y
]
)
{\displaystyle {\boldsymbol {E}}[(X,Y)]=(E[X],E[Y])}
. Concretament, atès que
E
[
X
]
=
0
⋅
1
8
+
1
⋅
3
8
+
2
⋅
3
8
+
0
⋅
1
8
=
9
8
i
E
[
Y
]
=
1
⋅
3
4
+
3
⋅
1
4
=
3
2
,
{\displaystyle E[X]=0\cdot {\frac {1}{8}}+1\cdot {\frac {3}{8}}+2\cdot {\frac {3}{8}}+0\cdot {\frac {1}{8}}={\frac {9}{8}}\quad {\text{i}}\quad E[Y]=1\cdot {\frac {3}{4}}+3\cdot {\frac {1}{4}}={\frac {3}{2}},}
tenim que
E
[
(
X
,
Y
)
]
=
(
9
/
8
,
3
/
2
)
{\displaystyle E[(X,Y)]=(9/8,3/2)}
.
Matriu de variàncies-covariàncies d'un vector .
La matriu
V
(
(
X
,
Y
)
)
=
(
Var
(
X
)
Cov
(
X
,
Y
)
Cov
(
X
,
Y
)
Var
(
Y
)
)
{\displaystyle {\boldsymbol {V}}{\big (}(X,Y){\big )}={\begin{pmatrix}{\text{Var}}(X)&{\text{Cov}}(X,Y)\\{\text{Cov}}(X,Y)&{\text{Var}}(Y)\end{pmatrix}}}
s'anomena matriu de variàncies-covariàncies o matriu de dispersió del vector
(
X
,
Y
)
{\displaystyle (X,Y)}
. Tenim que
Var
(
X
)
=
E
[
X
2
]
−
(
E
[
X
]
)
2
=
15
8
−
81
64
=
39
64
.
{\displaystyle {\text{Var}}(X)=E[X^{2}]-{\big (}E[X]{\big )}^{2}={\frac {15}{8}}-{\frac {81}{64}}={\frac {39}{64}}.}
De la mateixa manera es calcula que
Var
(
Y
)
=
3
/
2
{\displaystyle {\text{Var}}(Y)=3/2}
. Per calcular la covariància farem servir que
Cov
(
X
,
Y
)
=
E
[
X
Y
]
−
E
[
X
]
E
[
Y
]
.
{\displaystyle {\text{Cov}}(X,Y)=E[XY]-E[X]E[Y].}
Ara, per obtenir
E
[
X
Y
]
{\displaystyle E[XY]}
, necessitem utilitzar la funció de probabilitat conjunta de
(
X
,
Y
)
{\displaystyle (X,Y)}
:
E
[
X
Y
]
=
0
⋅
1
⋅
0
+
1
⋅
1
⋅
1
8
+
2
⋅
1
⋅
3
8
+
⋯
=
7
4
,
{\displaystyle E[XY]=0\cdot 1\cdot 0+1\cdot 1\cdot {\frac {1}{8}}+2\cdot 1\cdot {\frac {3}{8}}+\cdots ={\frac {7}{4}},}
d'on,
Cov
(
X
,
Y
)
=
1
/
16
{\displaystyle {\text{Cov}}(X,Y)=1/16}
. Així, la matriu de variàncies-covariàncies és
V
(
(
X
,
Y
)
)
=
(
39
64
1
4
1
4
3
2
)
{\displaystyle {\boldsymbol {V}}{\big (}(X,Y){\big )}={\begin{pmatrix}{\tfrac {39}{64}}&{\tfrac {1}{4}}\\{\tfrac {1}{4}}&{\tfrac {3}{2}}\end{pmatrix}}}
Exemple 2. Vector aleatori bidimensional continu
modifica
De manera anàloga al cas d'una variable aleatòria absolutament contínua, es diu que un vector
(
X
,
Y
)
{\displaystyle (X,Y)}
és absolutament continu si existeix una funció
f
(
X
,
Y
)
:
R
2
→
R
{\displaystyle f_{(X,Y)}:\mathbb {R} ^{2}\to \mathbb {R} }
, anomenada funció de densitat (conjunta), que compleix
1.
f
(
X
,
Y
)
(
x
,
y
)
≥
0
,
∀
(
x
,
y
)
∈
R
2
.
{\displaystyle f_{(X,Y)}(x,y)\geq 0,\ \ \forall (x,y)\in \mathbb {R} ^{2}.}
2.
∫
−
∞
∞
∫
−
∞
∞
f
(
X
,
Y
)
(
x
,
y
)
d
x
d
y
=
1.
{\displaystyle \int _{-\infty }^{\infty }\int _{-\infty }^{\infty }f_{(X,Y)}(x,y)\,dx\,dy=1.}
3. Per qualsevol
B
⊂
R
2
{\displaystyle B\subset \mathbb {R} ^{2}}
(en rigor, conjunt de Borel de
R
2
{\displaystyle \mathbb {R} ^{2}}
,
P
(
(
X
,
Y
)
∈
B
)
=
∬
B
f
(
X
,
Y
)
(
x
,
y
)
d
x
d
y
.
{\displaystyle P{\big (}(X,Y)\in B{\big )}=\iint _{B}f_{(X,Y)}(x,y)\,dx\,dy.}
Figura 1. Triangle
T
{\displaystyle T}
Com exemple, sigui
(
X
,
Y
)
{\displaystyle (X,Y)}
un vector aleatori bidimensional amb distribució uniforme en el triangle
T
{\displaystyle T}
de vèrtexs els punts (0,0), (1,0) i (1,1) (vegeu la Figura 1). La funció de densitat conjunta és
f
(
X
,
Y
)
(
x
,
y
)
=
{
2
,
si
(
x
,
y
)
∈
T
,
0
,
en cas contrari.
{\displaystyle f_{(X,Y)}(x,y)={\begin{cases}2,&{\text{si}}\ (x,y)\in T,\\0,&{\text{en cas contrari.}}\end{cases}}}
La funció de densitat (marginal) de
Y
{\displaystyle Y}
es calcula per la fórmula:
f
Y
(
y
)
=
∫
−
∞
∞
f
(
X
,
Y
)
(
x
,
y
)
d
x
{\displaystyle f_{Y}(y)=\int _{-\infty }^{\infty }f_{(X,Y)}(x,y)\ dx}
Ara cal distingir dos casos:
1. Fixada
y
∉
(
0
,
1
)
{\displaystyle y\notin (0,1)}
, aleshores
f
(
X
,
Y
)
(
x
,
y
)
=
0
,
∀
x
{\displaystyle f_{(X,Y)}(x,y)=0,\ \forall x}
. És evident que
f
Y
(
y
)
=
0.
{\displaystyle f_{Y}(y)=0.}
2. Fixada
y
∈
(
0
,
1
)
{\displaystyle y\in (0,1)}
,
f
(
X
,
Y
)
(
x
,
y
)
=
{
2
,
si
x
∈
(
y
,
1
)
,
0
,
en cas contrari.
{\displaystyle f_{(X,Y)}(x,y)={\begin{cases}2,&{\text{si}}\ x\in (y,1),\\0,&{\text{en cas contrari.}}\end{cases}}}
Llavors
f
Y
(
y
)
=
∫
−
∞
∞
f
(
X
,
Y
)
(
x
,
y
)
d
x
=
∫
y
1
2
d
x
=
2
(
1
−
y
)
.
{\displaystyle f_{Y}(y)=\int _{-\infty }^{\infty }f_{(X,Y})(x,y)\,dx=\int _{y}^{1}2\,dx=2(1-y).}
Figura 2. Densitat marginal de la variable Y
Ajuntant ambdós casos tenim, vegeu la Figura 2,
f
Y
(
y
)
=
{
2
(
1
−
y
)
,
si
y
∈
(
0
,
1
)
,
0
,
en cas contrari.
{\displaystyle f_{Y}(y)={\begin{cases}2(1-y),&{\text{si}}\ y\in (0,1),\\0,&{\text{en cas contrari.}}\end{cases}}}
Figura 3. Densitat marginal variable X
De manera anàloga s'obté que la densitat marginal de
X
{\displaystyle X}
és, vegeu la Figura 3,
f
X
(
x
)
=
∫
−
∞
∞
f
(
X
,
Y
)
(
x
,
y
)
d
y
=
{
2
x
,
si
x
∈
(
0
,
1
)
,
0
,
en cas contrari.
{\displaystyle f_{X}(x)=\int _{-\infty }^{\infty }f_{(X,Y)}(x,y)\,dy={\begin{cases}2x,&{\text{si}}\ x\in (0,1),\\0,&{\text{en cas contrari.}}\end{cases}}}
Ara podem calcular la densitat condicionada
f
X
|
Y
(
x
|
y
)
{\displaystyle f_{X|Y}(x|y)}
, que només es calculara per a
y
∈
(
0
,
1
)
{\displaystyle y\in (0,1)}
f
X
|
Y
(
x
|
y
)
=
f
(
X
,
Y
)
(
x
,
y
)
f
Y
(
y
)
=
{
1
1
−
y
,
quan
x
∈
(
y
,
1
)
,
0
,
en cas contrari
.
{\displaystyle f_{X|Y}(x|y)={\frac {f_{(X,Y)}(x,y)}{f_{Y}(y)}}={\begin{cases}{\dfrac {1}{1-y}},&{\text{quan}}\ x\in (y,1),\\0,&{\text{en cas contrari}}.\end{cases}}}
Figura 3. Funció de densitat condicionada
Vegeu la Figura 4. Noteu que els papers de
x
{\displaystyle x}
i de
y
{\displaystyle y}
són completament diferents. Fixada la
y
∈
(
0
,
1
)
{\displaystyle y\in (0,1)}
tenim una funció de densitat en
x
{\displaystyle x}
. De fet, en aquest cas, es tracta de la densitat d'una distribució uniforme en l'interval
(
y
,
1
)
.
{\displaystyle (y,1).}
Per obtenir l'esperança del vector
(
X
,
Y
)
{\displaystyle (X,Y)}
s'ha de calcular l'esperança de cada component utilitzant les fórmules corresponents al cas absolutament contínu:
E
[
X
]
=
∫
−
∞
∞
x
f
X
(
x
)
d
x
=
2
∫
0
1
x
2
d
x
=
2
3
.
{\displaystyle E[X]=\int _{-\infty }^{\infty }xf_{X}(x)\,dx=2\int _{0}^{1}x^{2}\,dx={\frac {2}{3}}.}
També,
E
[
Y
]
=
2
/
3
{\displaystyle E[Y]=2/3}
. Així,
E
[
X
]
=
(
2
/
3
,
2
/
3
)
{\displaystyle E[{\boldsymbol {X}}]=(2/3,2/3)}
.
El moment de segon ordre de
X
{\displaystyle X}
és:
E
[
X
2
]
=
∫
−
∞
∞
x
2
f
X
(
x
)
d
x
=
2
∫
0
1
x
3
d
x
=
1
2
.
{\displaystyle E[X^{2}]=\int _{-\infty }^{\infty }x^{2}f_{X}(x)\,dx=2\int _{0}^{1}x^{3}\,dx={\frac {1}{2}}.}
D'on
Var
(
X
)
=
E
[
X
2
]
−
(
E
[
X
]
)
2
=
1
2
−
4
9
=
1
18
.
{\displaystyle {\text{Var}}(X)=E[X^{2}]-{\big (}E[X]{\big )}^{2}={\frac {1}{2}}-{\frac {4}{9}}={\frac {1}{18}}.}
I el mateix dóna
Var
(
Y
)
{\displaystyle {\text{Var}}(Y)}
.
Finalment, per calcular la covariància,
E
[
X
Y
]
=
∫
−
∞
∞
∫
−
∞
∞
x
y
f
(
X
,
Y
)
(
x
,
y
)
d
x
d
y
=
∬
T
x
y
d
x
d
y
=
∫
x
=
0
1
∫
y
=
0
x
x
y
d
x
d
y
=
1
6
.
{\displaystyle E[XY]=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }xy\,f_{(X,Y)}(x,y)\,dx\,dy=\iint _{T}xy\,dx\,dy=\int _{x=0}^{1}\int _{y=0}^{x}xy\,dx\,dy={\frac {1}{6}}.}
Aleshores,
Cov
(
X
,
Y
)
=
E
[
X
Y
]
−
E
[
X
]
E
[
Y
]
=
1
6
−
4
9
=
−
5
18
.
{\displaystyle {\text{Cov}}(X,Y)=E[XY]-E[X]\,E[Y]={\frac {1}{6}}-{\frac {4}{9}}=-{\frac {5}{18}}.}
Per tant, la matriu de variàncies covariàncies dóna
V
(
(
X
,
Y
)
)
=
(
1
18
−
5
18
−
5
18
1
18
)
{\displaystyle {\boldsymbol {V}}{\big (}(X,Y){\big )}={\begin{pmatrix}~~~{\tfrac {1}{18}}&-{\tfrac {5}{18}}\\-{\tfrac {5}{18}}&~~~{\tfrac {1}{18}}\end{pmatrix}}}
↑ 1,0 1,1 1,2 Sanz , Marta. Probabilitats . Barcelona: Edicions Universitat de Barcelona, 1999, p. 66-68. ISBN 84-8338-091-9 .
↑ Anderson , T. W.. An introduction to multivariate statistical analysis . 3rd ed. Hoboken, N.J.: Wiley-Interscience, 2003. ISBN 0-471-36091-0 .
↑ Forbes , C.; Evans , M.; Hastings , N.; Peacock , B. Statistical distributions. . 4th ed.. Oxford: Wiley-Blackwell, 2010, pp.135-136. ISBN 978-0-470-62724-2 .
↑ Sanz , Marta. Probabilitats . Barcelona: Edicions Universitat de Barcelona, 1999, p. 90. ISBN 84-8338-091-9 .
↑ 5,0 5,1 Johnson , Norman Lloyd. Discrete multivariate distributions . New York: Wiley, 1997, p. 2-3. ISBN 0-471-12844-9 .
↑ Cuppens , Roger. Decomposition of multivariate probabilities . New York: Academic Press, 1975, p. 52. ISBN 0-12-199450-3 .
↑ Seber , G. A. F.. Linear regression analysis . 2nd ed. Hoboken, N.J.: Wiley-Interscience, 2003, p. 5-8. ISBN 0-471-41540-5 .
↑ Sato , Ken-iti. Lévy processes and infinitely divisible distributions . Cambridge, U.K.: Cambridge University Press, 1999, p. 9. ISBN 0-521-55302-4 .
↑ 9,0 9,1 Athreya , Krishna B. Measure theory and probability theory . New York: Springer, 2006, p. 198-199. ISBN 0-387-32903-X .
↑ 10,0 10,1 Hoffmann-Jørgensen , J. Probability with a view toward statistics . New York, NY: Chapman & Hall, 1994. ISBN 0-412-05221-0 .
↑ 11,0 11,1 11,2 Seber , G. A. F.. Linear regression analysis . 2nd ed. Hoboken, N.J.: Wiley-Interscience, 2003, p. 13-14. ISBN 0-471-41540-5 .
↑ Debnath , Joyati; Dahiya , R.S. «Theorems on multidimensional laplace transform for solution of boundary value problems » (en anglès). Computers & Mathematics with Applications , 18, 12, 1989, pàg. 1033–1056. DOI : 10.1016/0898-1221(89)90031-X .
↑ Anderson , T. W.. An introduction to multivariate statistical analysis . 3rd ed. Hoboken, N.J.: Wiley-Interscience, 2003, p. 55. ISBN 0-471-36091-0 .
↑ 14,0 14,1 14,2 Kimmel , Marek. Branching processes in biology . New York: Springer, 2002, p. Appendix A. ISBN 0-387-95340-X .
↑ NIST handbook of mathematical functions . Cambridge: Cambridge University Press, 2010, p. Item 26.1.1. ISBN 978-0-521-19225-5 .
↑ Johnson , Norman Lloyd. Discrete multivariate distributions . New York: Wiley, 1997, p. 4. ISBN 0-471-12844-9 .
↑ Sanz , Marta. Probabilitats . Barcelona: Edicions Universitat de Barcelona, 1999, p. 73. ISBN 84-8338-091-9 .
↑ Seber , G. A. F.. A matrix handbook for statisticians . Hoboken, N.J.: Wiley-Interscience, 2008, p. 225, propietat 10.32. ISBN 978-0-470-22678-0 .
↑ Per definició, les matrius definides positives són simètriques
↑ Per un resultat semblant vegeuCasella , George. Statistical inference . 2nd ed. Australia: Thomson Learning, 2002, p. 185. ISBN 0-534-24312-6 .
↑ Johnson , Norman Lloyd. Discrete multivariate distributions . New York: Wiley, 1997, p. 35. ISBN 0-471-12844-9 .
↑ Seber , G. A. F.. A matrix handbook for statisticians . Hoboken, N.J.: Wiley-Interscience, 2008, p. 439. ISBN 978-0-470-22678-0 .
Johnson , N. L.; Kotz , S.; Kemp , A. W.. Univariate discrete distributions. . 2nd ed.. New York: Wiley, 1992. ISBN 0-471-54897-9 .
Johnson , N. L.; Kotz , S.; Balakrihsnan , N. Continuous univariate distributions, Vol 1 . 2nd ed. New York: Wiley, ©1994-©1995. ISBN 0-471-58495-9 .
Johnson , N. L.; Kotz , S.; Balakrihsnan , N. Continuous univariate distributions, Vol2 . 2nd ed. New York: Wiley, ©1994-©1995. ISBN 0-471-58495-9 .
Kotz , S.; Balakrihsnan , N.; Johnson , N. L.. Continuous multivariate distributions. Vol. 1, Models and applications. . 2nd ed.. New York: Wiley, 2000. ISBN 0-471-65403-5 .
Si tenim
−
∞
≤
a
<
b
≤
∞
,
−
∞
≤
c
<
d
≤
∞
{\displaystyle -\infty \leq a<b\leq \infty ,-\infty \leq c<d\leq \infty }
,
P
(
(
X
,
Y
)
∈
B
)
=
∬
B
f
X
(
x
,
y
)
d
x
d
y
.
{\displaystyle P{\big (}(X,Y)\in B{\big )}=\iint _{B}f_{\boldsymbol {X}}(x,y)\,dx\,dy.}
P
(
(
X
,
Y
)
∈
(
a
,
b
)
×
(
c
,
d
)
)
=
∫
a
b
∫
c
d
f
X
(
x
,
y
)
d
x
d
y
.
{\displaystyle P{\big (}(X,Y)\in (a,b)\times (c,d){\big )}=\int _{a}^{b}\int _{c}^{d}f_{\boldsymbol {X}}(x,y)\,dx\,dy.}
Vector d'esperances i matriu de variàncies-covariàncies
modifica
Considerem un vector aleatori
X
=
(
X
1
,
…
,
X
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})}
tal que totes les seves components tinguin esperança. Aleshores es defineix el vector d'esperances de
X
{\displaystyle {\boldsymbol {X}}}
per
E
[
X
]
=
(
E
[
X
1
]
,
…
,
E
[
X
d
]
)
.
{\displaystyle E[{\boldsymbol {X}}]={\big (}E[X_{1}],\dots ,E[X_{d}]{\big )}.}
Si el vector aleatori s'escriu en columna, aleshores el vector d'esperances també. De fet, de seguida veurem que és més pràctic escriure els vectors en columna, tal com es fa habitualment en Àlgebra lineal.
Propietats
Si
a
=
(
a
1
,
…
,
a
d
)
∈
R
d
{\displaystyle {\boldsymbol {a}}=(a_{1},\dots ,a_{d})\in \mathbb {R} ^{d}}
, aleshores
E
[
a
]
=
a
.
{\displaystyle E[{\boldsymbol {a}}]=a.}
Siguin
X
{\displaystyle {\boldsymbol {X}}}
i
Y
{\displaystyle {\boldsymbol {Y}}}
dos vectors aleatoris
d
{\displaystyle d}
-dimensionals amb esperances finites, i
A
{\displaystyle {\boldsymbol {A}}}
i
B
{\displaystyle {\boldsymbol {B}}}
dues matrius d'ordre
n
×
d
{\displaystyle n\times d}
. Aleshores
E
[
A
X
′
+
B
Y
′
]
=
A
E
[
X
′
]
+
B
E
[
Y
′
]
,
{\displaystyle E[{\boldsymbol {AX'}}+{\boldsymbol {BY'}}]={\boldsymbol {A}}\,E[{\boldsymbol {X}}']+{\boldsymbol {B}}\,E[{\boldsymbol {Y}}'],}
on
C
′
{\displaystyle {\boldsymbol {C}}'}
designa la transposada de la matriu (o vector)
C
{\displaystyle {\boldsymbol {C}}}
.
Si totes les components del vector
X
{\displaystyle {\boldsymbol {X}}}
tenen variància, aleshores es defineix la seva matriu de variàncies-covariàncies o matriu de dispersió :
V
(
X
)
=
(
Var
(
X
1
)
Cov
(
X
1
,
X
2
)
⋯
Cov
(
X
1
,
X
d
)
Cov
(
X
2
,
X
1
)
Var
(
X
2
)
⋯
Cov
(
X
2
,
X
d
)
⋮
⋮
⋮
Cov
(
X
d
,
X
1
)
Cov
(
X
d
,
X
2
)
⋯
Var
(
X
d
)
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\begin{pmatrix}{\text{Var}}(X_{1})&{\text{Cov}}(X_{1},X_{2})&\cdots &{\text{Cov}}(X_{1},X_{d})\\{\text{Cov}}(X_{2},X_{1})&{\text{Var}}(X_{2})&\cdots &{\text{Cov}}(X_{2},X_{d})\\\vdots &\vdots &&\vdots \\{\text{Cov}}(X_{d},X_{1})&{\text{Cov}}(X_{d},X_{2})&\cdots &{\text{Var}}(X_{d})\end{pmatrix}}}
Atès que
Var
(
X
j
)
=
Cov
(
X
j
,
X
j
)
{\displaystyle {\text{Var}}(X_{j})={\text{Cov}}(X_{j},X_{j})}
, aquesta matriu també s'escriu
V
(
X
)
=
(
Cov
(
X
i
,
X
j
)
)
i
=
1
,
…
,
d
j
=
1
,
…
,
d
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\big (}{\text{Cov}}(X_{i},X_{j}){\big )}_{i=1,\dots ,d \atop j=1,\dots ,d}}
Donat que
Cov
(
X
i
,
X
j
)
=
Cov
(
X
j
,
X
i
)
{\displaystyle {\text{Cov}}(X_{i},X_{j})={\text{Cov}}(X_{j},X_{i})}
, la matriu
V
(
X
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})}
es simètrica.
La matriu
V
(
X
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})}
és semidefinida positiva, ja que per qualsevol
x
=
(
x
1
,
…
,
x
d
)
∈
R
d
{\displaystyle {\boldsymbol {x}}=(x_{1},\dots ,x_{d})\in \mathbb {R} ^{d}}
,
x
V
(
X
)
x
′
=
∑
i
,
j
=
1
d
x
i
x
j
Cov
(
X
i
,
X
j
)
=
Var
(
∑
i
=
1
d
X
i
)
≥
0.
{\displaystyle {\boldsymbol {x}}{\boldsymbol {V}}({\boldsymbol {X}}){\boldsymbol {x}}'=\sum _{i,j=1}^{d}x_{i}x_{j}{\text{Cov}}(X_{i},X_{j})={\text{Var}}(\sum _{i=1}^{d}X_{i})\geq 0.}
A més,
det
V
(
X
)
=
0
{\displaystyle {\text{det}}\,{\boldsymbol {V}}({\boldsymbol {X}})=0}
si i només si hi ha una relació lineal entre les variables
X
1
,
…
,
X
d
{\displaystyle X_{1},\dots ,X_{d}}
, això és, existeixen escalars
λ
1
,
…
,
λ
d
+
1
∈
R
{\displaystyle \lambda _{1},\dots ,\lambda _{d+1}\in \mathbb {R} }
, no tots nuls, tals que
λ
1
X
1
+
⋯
+
λ
d
X
d
=
λ
d
+
1
,
q.s.
{\displaystyle \lambda _{1}X_{1}+\cdots +\lambda _{d}X_{d}=\lambda _{d+1},\quad {\text{q.s.}}}
3. Si
A
{\displaystyle {\boldsymbol {A}}}
és una matriu
n
×
d
{\displaystyle n\times d}
, aleshores
V
(
A
X
′
)
=
A
V
(
X
′
)
A
′
.
{\displaystyle {\boldsymbol {V}}({\boldsymbol {AX'}})={\boldsymbol {A}}\,{\boldsymbol {V}}({\boldsymbol {X}}'){\boldsymbol {A}}'.}
1. Sigui
X
=
(
X
1
,
…
,
X
d
)
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})}
. Aleshores, donat que cada component
X
j
{\displaystyle X_{j}}
té una distribució binomial
B
(
n
,
p
j
)
{\displaystyle B(n,p_{j})}
, tenim que
E
[
X
]
=
(
n
p
1
,
…
,
n
p
d
)
{\displaystyle E[{\boldsymbol {X}}]=(np_{1},\dots ,np_{d})}
També tenim que
Var
(
X
j
)
=
n
p
j
(
1
−
p
j
)
.
{\displaystyle {\text{Var}}(X_{j})=np_{j}(1-p_{j}).}
Per calcular les covariàncies cal utilitzar la marginal de
(
X
i
,
X
j
)
{\displaystyle (X_{i},X_{j})}
. Concretament s'obté
Cov
(
X
i
,
X
j
)
=
−
n
p
i
p
j
,
i
≠
j
.
{\displaystyle {\text{Cov}}(X_{i},X_{j})=-np_{i}p_{j},\quad i\neq j.}
Així,
V
(
X
)
=
(
n
p
1
(
1
−
p
1
)
−
n
p
1
p
2
⋯
−
n
p
1
p
d
−
n
p
1
p
2
n
p
2
(
1
−
p
2
)
⋯
−
n
p
2
p
d
⋮
⋮
⋱
⋮
−
n
p
1
p
d
−
n
p
2
p
d
⋯
n
p
d
(
1
−
p
d
)
)
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\begin{pmatrix}np_{1}(1-p_{1})&-np_{1}p_{2}&\cdots &-np_{1}p_{d}\\-np_{1}p_{2}&np_{2}(1-p_{2})&\cdots &-np_{2}p_{d}\\\vdots &\vdots &\ddots &\vdots \\-np_{1}p_{d}&-np_{2}p_{d}&\cdots &np_{d}(1-p_{d})\end{pmatrix}}}
2. En el cas del vector normal multidimensional,
E
[
X
]
=
(
0
…
,
0
)
{\displaystyle E[{\boldsymbol {X}}]=(0\dots ,0)}
,
Var
(
X
j
)
=
1
{\displaystyle {\text{Var}}(X_{j})=1}
i
Cov
(
X
i
,
X
j
)
=
0
,
i
≠
j
{\displaystyle {\text{Cov}}(X_{i},X_{j})=0,\quad i\neq j}
. Llavors,
V
(
X
)
=
I
d
.
{\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\boldsymbol {I}}_{d}.}