Distribució multinomialParàmetres
n
≥
1
{\displaystyle n\geq 1}
nombre de repeticions,
p
1
,
…
,
p
k
∈
(
0
,
1
)
{\displaystyle p_{1},\dots ,p_{k}\in (0,1)}
, amb
∑
i
=
1
k
p
i
=
1
{\displaystyle \sum _{i=1}^{k}p_{i}=1}
, probabilitats dels diferents resultatsSuport
(
x
1
,
…
,
x
k
)
∈
{
0
,
1
,
…
,
n
}
k
{\displaystyle (x_{1},\dots ,x_{k})\in \{0,1,\dots ,n\}^{k}}
, amb
∑
i
=
1
k
x
i
=
n
{\displaystyle \sum _{i=1}^{k}x_{i}=n}
Esperança matemàtica
E
(
X
i
)
=
n
p
i
{\displaystyle \operatorname {E} (X_{i})=np_{i}}
Variància
Var
(
X
i
)
=
n
p
i
(
1
−
p
i
)
{\displaystyle \operatorname {Var} (X_{i})=np_{i}(1-p_{i})}
Cov
(
X
i
,
X
j
)
=
−
n
p
i
p
j
,
i
≠
j
{\displaystyle \operatorname {Cov} (X_{i},X_{j})=-np_{i}p_{j},\ i\neq j}
Entropia
−
log
(
n
!
)
−
n
∑
i
=
1
k
p
i
log
(
p
i
)
+
∑
i
=
1
k
∑
x
i
=
0
n
(
n
x
i
)
p
i
x
i
(
1
−
p
i
)
n
−
x
i
log
(
x
i
!
)
{\displaystyle -\log(n!)-n\sum _{i=1}^{k}p_{i}\log(p_{i})+\sum _{i=1}^{k}\sum _{x_{i}=0}^{n}{\binom {n}{x_{i}}}p_{i}^{x_{i}}(1-p_{i})^{n-x_{i}}\log(x_{i}!)}
FGM
(
∑
j
=
1
k
p
j
e
t
j
)
n
,
(
t
1
,
…
,
t
k
)
∈
R
k
{\displaystyle {\Big (}\sum _{j=1}^{k}p_{j}e^{t_{j}}{\Big )}^{n},\ (t_{1},\dots ,t_{k})\in \mathbb {R} ^{k}}
FC
(
∑
j
=
1
k
p
j
e
i
t
j
)
n
,
(
t
1
,
…
,
t
k
)
∈
R
k
{\displaystyle {\Big (}\sum _{j=1}^{k}p_{j}e^{it_{j}}{\Big )}^{n},\ (t_{1},\dots ,t_{k})\in \mathbb {R} ^{k}}
FGP
(
∑
j
=
1
k
p
j
z
j
)
n
,
(
z
1
,
…
,
z
k
)
∈
C
k
{\displaystyle {\big (}\sum _{j=1}^{k}p_{j}z_{j}{\big )}^{n},\ (z_{1},\dots ,z_{k})\in \mathbb {C} ^{k}}
Considerem un experiment aleatori que pot tenir
k
{\displaystyle k}
resultats diferents, que designarem per
R
1
,
…
,
R
k
{\displaystyle R_{1},\dots ,R_{k}}
, mútuament excloents, amb probabilitats respectives
p
1
,
…
,
p
k
∈
(
0
,
1
)
{\displaystyle p_{1},\dots ,p_{k}\in (0,1)}
tals que
p
1
+
⋯
+
p
k
=
1
{\displaystyle p_{1}+\cdots +p_{k}=1}
. Fem
n
{\displaystyle n}
repeticions independents i denotem per
X
1
{\displaystyle X_{1}}
el nombre de vegades que obtenim el resultat
R
1
{\displaystyle R_{1}}
, per
X
2
{\displaystyle X_{2}}
el nombre de vegades que obtenim el resultat
R
2
{\displaystyle R_{2}}
, i així successivament. Aleshores la probabilitat d'obtenir
x
1
{\displaystyle x_{1}}
vegades el resultat
R
1
{\displaystyle R_{1}}
,
x
2
{\displaystyle x_{2}}
vegades resultat
R
2
{\displaystyle R_{2}}
, etc., amb
x
1
+
⋯
+
x
k
=
n
{\displaystyle x_{1}+\cdots +x_{k}=n}
, és
P
(
X
1
=
x
1
,
…
,
X
k
=
x
k
)
=
n
!
x
1
!
⋯
x
k
!
p
1
x
1
⋯
p
k
x
k
.
{\displaystyle P(X_{1}=x_{1},\dots ,X_{k}=x_{k})={\frac {n!}{x_{1}!\cdots x_{k}!}}\,p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}.}
Cal recordar que a l'expressió de l'esquerra, les comes indiquen interseccions, així,
P
(
X
1
=
x
1
,
…
,
X
k
=
x
k
)
=
P
(
{
X
1
=
x
1
}
∩
⋯
∩
{
X
k
=
x
k
}
)
.
{\displaystyle P(X_{1}=x_{1},\dots ,X_{k}=x_{k})=P{\big (}\{X_{1}=x_{1}\}\cap \cdots \cap \{X_{k}=x_{k}\}{\big )}.}
Es diu que el vector
X
=
(
X
1
,
…
,
X
k
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{k})}
segueix una distribució multinomial
de paràmetres
n
,
p
1
,
…
,
p
k
{\displaystyle n,p_{1},\dots ,p_{k}}
, i s'escriu
X
∼
M
(
n
;
p
1
,
…
,
p
k
)
{\displaystyle {\boldsymbol {X}}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{k})}
. Cal notar que cada component
X
i
{\displaystyle X_{i}}
té una distribució binomial de paràmetres
n
{\displaystyle n}
i
p
i
{\displaystyle p_{i}}
,
X
i
∼
B
(
n
,
p
i
)
{\displaystyle X_{i}\sim B(n,p_{i})}
. De fet, una distribució multinomial és una extensió de la distribució binomial quan hi ha més de dos resultats possibles.
Exemple. Tenim una urna amb 4 boles blanques, 3 vermelles i 3 grogues. Traiem
n
=
4
{\displaystyle n=4}
boles amb reemplaçament, és a dir, traiem una bola, anotem el color, la retornem a l'urna, en traiem una altra, la retornem, i així successivament fins que hem tret quatre boles. Designem per:
X
1
{\displaystyle X_{1}}
: nombre de boles blanques que traiem.
X
2
{\displaystyle X_{2}}
: nombre de boles vermelles que traiem.
X
3
{\displaystyle X_{3}}
: el nombre de boles grogues que traiem.
Tenim que
p
1
=
0
′
4
{\displaystyle p_{1}=0'4}
,
p
2
=
0
′
3
{\displaystyle p_{2}=0'3}
i
p
3
=
0
′
3
{\displaystyle p_{3}=0'3}
. Llavors, la probabilitat de treure 1 bola blanca, 1 vermella i 2 grogues és
P
(
X
1
=
1
,
X
2
=
1
,
X
3
=
2
)
=
(
4
!
1
!
1
!
2
!
)
0
′
4
1
0
′
3
1
0
′
3
2
=
0
′
1296.
{\displaystyle P(X_{1}=1,X_{2}=1,X_{3}=2)={\binom {4!}{1!\,1!\,2!}}\,0'4^{1}\,0'3^{1}\,0'3^{2}=0'1296.}
Coeficients multinomials. Recordem que
(
n
x
,
…
,
x
k
)
=
n
!
x
1
!
⋯
x
k
!
{\displaystyle {\binom {n}{x,\dots ,x_{k}}}={\frac {n!}{x_{1}!\cdots x_{k}!}}}
s'anomena coeficient multinomial [ 3] . Aquest coeficient intervé en generalització de la fórmula del binomi de Newton quan hi ha més de dos sumands:
(
a
1
+
a
2
+
⋯
+
a
k
)
n
=
∑
(
n
x
1
,
…
,
x
k
)
a
1
x
1
⋯
a
k
x
k
,
(
∗
)
{\displaystyle (a_{1}+a_{2}+\cdots +a_{k})^{n}=\sum {\binom {n}{x_{1},\dots ,x_{k}}}a_{1}^{x_{1}}\cdots a_{k}^{x_{k}},\qquad (*)}
on la suma es fa sobre totes les
k
{\displaystyle k}
-ples
(
x
1
,
…
,
x
k
)
∈
{
0
,
1
,
…
,
n
}
k
{\displaystyle (x_{1},\dots ,x_{k})\in \mathbb {\{} 0,1,\dots ,n\}^{k}}
tals que
x
1
+
⋯
+
x
k
=
n
{\displaystyle x_{1}+\cdots +x_{k}=n}
. La fórmula (*) intervé a l'estudi de moltes propietats d'aquesta distribució.
Comentari sobre la nomenclatura. Atès que
X
1
+
⋯
+
X
k
=
n
{\displaystyle X_{1}+\cdots +X_{k}=n}
i que els paràmetres són redundants, ja que
p
1
+
⋯
+
p
k
=
1
{\displaystyle p_{1}+\cdots +p_{k}=1}
, alguns autors, per exemple Wilks [ 4] , proposen una notació alternativa: diuen que un vector
(
X
1
,
…
,
X
k
)
{\displaystyle (X_{1},\dots ,X_{k})}
segueix una distribució multinomial de paràmetres
n
,
p
1
,
…
,
p
k
{\displaystyle n,p_{1},\dots ,p_{k}}
, on
p
1
,
…
,
p
k
∈
(
0
,
1
)
,
amb
p
1
+
⋯
+
p
k
<
1
{\displaystyle p_{1},\dots ,p_{k}\in (0,1),\ {\text{amb}}\ p_{1}+\cdots +p_{k}<1}
, si la funció de probabilitat és
P
(
X
1
=
x
1
,
…
,
X
k
=
x
k
)
=
n
!
x
1
!
⋯
x
k
!
(
n
−
∑
i
=
1
k
x
i
)
!
p
1
x
1
⋯
p
k
x
k
(
1
−
∑
i
=
1
k
p
i
)
n
−
∑
i
=
1
k
x
i
,
{\displaystyle P(X_{1}=x_{1},\dots ,X_{k}=x_{k})={\frac {n!}{x_{1}!\cdots x_{k}!(n-\sum _{i=1}^{k}x_{i})!}}\,p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}(1-\sum _{i=1}^{k}p_{i})^{n-\sum _{i=1}^{k}x_{i}},}
on
∑
i
=
1
k
x
i
≤
n
{\displaystyle \sum _{i=1}^{k}x_{i}\leq n}
. Seber [ 5] , quan
∑
i
=
1
k
p
i
=
1
{\displaystyle \sum _{i=1}^{k}p_{i}=1}
, diu que és la forma singular de la distribució multinomial , mentre que si
∑
i
=
1
k
p
i
<
1
{\displaystyle \sum _{i=1}^{k}p_{i}<1}
és la formulació no singular. La notació que utilitzem en aquest article és la més habitual, però és recomanable comprovar quina definició de distribució multinomial s'està utilitzant.
Esperança, variància i covariància
modifica
L'esperança de cada component és
E
[
X
j
]
=
n
p
j
,
j
=
1
,
…
,
k
.
{\displaystyle E[X_{j}]=np_{j},\ j=1,\dots ,k.}
La variància és
Var
(
X
j
)
=
n
p
j
(
1
−
p
j
)
,
j
=
1
,
…
,
k
.
{\displaystyle {\text{Var}}(X_{j})=np_{j}(1-p_{j}),\ j=1,\dots ,k.}
Ambdues propietats es dedueixen del fet que
X
j
{\displaystyle X_{j}}
té una distribució binomial
B
(
n
,
p
j
)
{\displaystyle B(n,p_{j})}
.
Per a
i
≠
j
{\displaystyle i\neq j}
, la covariància és (vegeu la demostració després de la funció característica)
Cov
(
X
i
,
X
j
)
=
−
n
p
i
p
j
.
{\displaystyle {\text{Cov}}(X_{i},X_{j})=-np_{i}p_{j}.}
D'aquí resulta que el coeficient de correlació entre
X
i
{\displaystyle X_{i}}
i
X
j
{\displaystyle X_{j}}
és
ρ
(
X
i
,
X
j
)
=
Cov
(
X
i
,
X
j
)
Var
(
X
i
)
Var
(
X
j
)
=
−
p
i
p
j
(
1
−
p
i
)
(
1
−
p
j
)
,
{\displaystyle \rho (X_{i},X_{j})={\frac {{\text{Cov}}(X_{i},X_{j})}{\sqrt {{\text{Var}}(X_{i}){\text{Var}}(X_{j})}}}=-{\sqrt {\frac {p_{i}p_{j}}{(1-p_{i})(1-p_{j})}}},}
que és independent de
n
{\displaystyle n}
.
La matriu de variàncies-covariàncies és
n
Σ
{\displaystyle n{\boldsymbol {\Sigma }}}
, on
Σ
=
(
p
1
(
1
−
p
1
)
−
p
1
p
2
⋯
−
p
1
p
k
−
p
1
p
2
p
2
(
1
−
p
2
)
⋯
−
p
2
p
k
⋮
⋮
⋮
−
p
1
p
k
−
p
2
p
k
⋯
p
k
(
1
−
p
k
)
)
{\displaystyle {\boldsymbol {\Sigma }}={\begin{pmatrix}p_{1}(1-p_{1})&-p_{1}p_{2}&\cdots &-p_{1}p_{k}\\-p_{1}p_{2}&p_{2}(1-p_{2})&\cdots &-p_{2}p_{k}\\\vdots &\vdots &&\vdots \\-p_{1}p_{k}&-p_{2}p_{k}&\cdots &p_{k}(1-p_{k})\end{pmatrix}}}
que té rang
k
−
1
{\displaystyle k-1}
.
Escriptura compacta de la matriu
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
La matriu
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
es pot escriure de la següent forma:
Σ
=
Diag
(
p
)
−
p
′
p
,
{\displaystyle {\boldsymbol {\Sigma }}={\text{Diag}}\ ({\boldsymbol {p}})-{\boldsymbol {p}}'{\boldsymbol {p}},}
on
p
=
(
p
1
,
…
,
p
k
)
{\displaystyle {\boldsymbol {p}}=(p_{1},\dots ,p_{k})}
(en aquest article escriurem tots els vectors en fila),
Diag
(
p
)
{\displaystyle {\text{Diag}}\ ({\boldsymbol {p}})}
és una matriu diagonal on a la diagonal principal hi
p
1
,
…
,
p
k
{\displaystyle p_{1},\dots ,p_{k}}
, i per una matriu (o vector)
B
{\displaystyle {\boldsymbol {B}}}
, denotarem per
B
′
{\displaystyle {\boldsymbol {B}}'}
la seva transposada .
Càlcul del rang de la matriu
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
El determinant d'aquesta matriu és zero
[ 6] degut fet que hi ha una relació lineal entre les variables
X
1
,
…
,
X
k
{\displaystyle X_{1},\dots ,X_{k}}
, concretament, que
X
1
+
⋯
+
X
k
=
n
{\displaystyle X_{1}+\cdots +X_{k}=n}
. Per calcular el rang de la matriu utilitzarem la següent propietat: Siguin
b
1
,
…
,
b
n
∈
R
{\displaystyle b_{1},\dots ,b_{n}\in \mathbb {R} }
. Aleshores
|
b
1
(
1
−
b
1
)
−
b
1
b
2
⋯
−
b
1
b
n
−
b
1
b
2
b
2
(
1
−
b
2
)
⋯
−
b
2
b
n
⋮
⋮
⋮
−
b
1
b
n
−
b
2
b
n
⋯
b
n
(
1
−
b
n
)
|
=
b
1
⋯
b
n
(
1
−
∑
i
=
1
n
b
i
)
.
{\displaystyle {\begin{vmatrix}b_{1}(1-b_{1})&-b_{1}b_{2}&\cdots &-b_{1}b_{n}\\-b_{1}b_{2}&b_{2}(1-b_{2})&\cdots &-b_{2}b_{n}\\\vdots &\vdots &&\vdots \\-b_{1}b_{n}&-b_{2}b_{n}&\cdots &b_{n}(1-b_{n})\end{vmatrix}}=b_{1}\cdots b_{n}(1-\sum _{i=1}^{n}b_{i}).}
Aquesta propietat pot obtenir-se com a conseqüència de resultats generals sobre matrius amb estructura (o patró)
[ 7] . Una demostració directe és la següent: traient factor comú
b
1
{\displaystyle b_{1}}
a la primera fila,
b
2
{\displaystyle b_{2}}
a la segona , etc., tenim que
|
b
1
(
1
−
b
1
)
−
b
1
b
2
⋯
−
b
1
b
n
−
b
1
b
2
b
2
(
1
−
b
2
)
⋯
−
b
2
b
n
⋮
⋮
⋮
−
b
1
b
n
−
b
2
b
n
⋯
b
n
(
1
−
p
n
)
|
=
b
1
⋯
b
n
|
1
−
b
1
−
b
2
⋯
−
b
n
−
b
1
1
−
b
2
⋯
−
b
n
⋮
⋮
⋮
−
b
1
−
b
2
⋯
1
−
p
n
|
.
{\displaystyle {\begin{vmatrix}b_{1}(1-b_{1})&-b_{1}b_{2}&\cdots &-b_{1}b_{n}\\-b_{1}b_{2}&b_{2}(1-b_{2})&\cdots &-b_{2}b_{n}\\\vdots &\vdots &&\vdots \\-b_{1}b_{n}&-b_{2}b_{n}&\cdots &b_{n}(1-p_{n})\end{vmatrix}}=b_{1}\cdots b_{n}\,{\begin{vmatrix}1-b_{1}&-b_{2}&\cdots &-b_{n}\\-b_{1}&1-b_{2}&\cdots &-b_{n}\\\vdots &\vdots &&\vdots \\-b_{1}&-b_{2}&\cdots &1-p_{n}\end{vmatrix}}.}
i per inducció es demostra que
|
1
−
b
1
−
b
2
⋯
−
b
n
−
b
1
1
−
b
2
⋯
−
b
n
⋮
⋮
⋮
−
b
1
−
b
2
⋯
1
−
p
n
|
=
1
−
∑
i
=
1
n
b
i
.
{\displaystyle {\begin{vmatrix}1-b_{1}&-b_{2}&\cdots &-b_{n}\\-b_{1}&1-b_{2}&\cdots &-b_{n}\\\vdots &\vdots &&\vdots \\-b_{1}&-b_{2}&\cdots &1-p_{n}\end{vmatrix}}=1-\sum _{i=1}^{n}b_{i}.}
Ara s'aplica aquest resultat a la matriu
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
i s'obté
det
Σ
=
0
{\displaystyle {\text{det}}\,{\boldsymbol {\Sigma }}=0}
, tal com ja sabíem. A l'aplicar-la al seu menor
Σ
∗
=
(
p
1
(
1
−
p
1
)
−
p
1
p
2
⋯
−
p
1
p
k
−
1
−
p
1
p
2
p
2
(
1
−
p
2
)
⋯
−
p
2
p
k
−
1
⋮
⋮
⋮
−
p
1
p
k
−
1
−
p
2
p
k
−
1
⋯
p
k
−
1
(
1
−
p
k
−
1
)
)
{\displaystyle {\boldsymbol {\Sigma }}_{*}={\begin{pmatrix}p_{1}(1-p_{1})&-p_{1}p_{2}&\cdots &-p_{1}p_{k-1}\\-p_{1}p_{2}&p_{2}(1-p_{2})&\cdots &-p_{2}p_{k-1}\\\vdots &\vdots &&\vdots \\-p_{1}p_{k-1}&-p_{2}p_{k-1}&\cdots &p_{k-1}(1-p_{k-1})\end{pmatrix}}}
tenim
det
Σ
∗
≠
0
{\displaystyle {\text{det}}\ {\boldsymbol {\Sigma }}_{*}\neq 0}
.
Funció característica i funció generatriu de moments
modifica
La funció característica del vector
X
=
(
X
1
,
…
,
X
k
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{k})}
és
φ
(
t
1
,
…
,
t
k
)
=
E
[
e
i
(
t
1
X
1
+
⋯
+
t
k
X
k
)
]
=
(
p
1
e
i
t
1
+
⋯
+
p
k
e
i
t
k
)
n
,
t
1
,
…
,
t
k
∈
R
.
{\displaystyle \varphi (t_{1},\dots ,t_{k})=E[e^{i(t_{1}X_{1}+\cdots +t_{k}X_{k})}]={\big (}p_{1}e^{it_{1}}+\cdots +p_{k}e^{it_{k}}{\big )}^{n},\ t_{1},\dots ,t_{k}\in \mathbb {R} .}
La funció generatriu de moments és
L
(
t
1
,
…
,
t
k
)
==
E
[
e
t
1
X
1
+
⋯
+
t
k
X
k
]
=
(
p
1
e
t
1
+
⋯
+
p
k
e
t
k
)
n
,
t
1
,
…
,
t
k
∈
R
.
{\displaystyle L(t_{1},\dots ,t_{k})==E[e^{t_{1}X_{1}+\cdots +t_{k}X_{k}}]={\big (}p_{1}e^{t_{1}}+\cdots +p_{k}e^{t_{k}}{\big )}^{n},\ t_{1},\dots ,t_{k}\in \mathbb {R} .}
La funció generatriu de probabilitats és
G
(
z
1
,
…
,
z
k
)
=
E
[
z
1
e
X
1
⋯
z
k
X
k
]
=
(
p
1
z
1
+
⋯
+
p
k
z
k
)
,
z
1
,
…
,
z
k
∈
C
.
{\displaystyle G(z_{1},\dots ,z_{k})=E{\big [}z_{1}e^{X_{1}}\cdots z_{k}^{X_{k}}{\big ]}={\big (}p_{1}z_{1}+\cdots +p_{k}z_{k}),\ z_{1},\dots ,z_{k}\in \mathbb {C} .}
Càcul de la funció característica
Per a
t
1
,
…
,
t
k
{\displaystyle t_{1},\dots ,t_{k}}
,
φ
(
t
1
,
…
,
t
k
)
=
E
(
e
i
∑
j
=
1
k
t
j
X
j
)
=
∑
x
1
,
…
,
x
k
∈
{
0
,
…
,
n
}
,
∑
j
=
1
k
x
j
=
n
n
!
x
1
!
⋯
x
k
!
e
i
∑
j
=
1
k
t
j
x
j
p
1
x
1
⋯
p
k
x
k
=
∑
x
1
,
…
,
x
k
∈
{
0
,
…
,
n
}
,
∑
j
=
1
k
x
j
=
n
n
!
x
1
!
⋯
x
k
!
(
p
1
e
i
t
1
)
x
1
⋯
(
p
k
e
i
t
k
)
x
k
=
(
p
1
e
i
t
1
+
⋯
+
p
k
e
i
t
k
)
n
,
{\displaystyle {\begin{aligned}\varphi (t_{1},\dots ,t_{k})&=E(e^{i\sum _{j=1}^{k}t_{j}X_{j}})=\sum _{x_{1},\dots ,x_{k}\in \{0,\dots ,n\}, \atop \sum _{j=1}^{k}x_{j}=n}{\frac {n!}{x_{1}!\cdots x_{k}!}}\,e^{i\sum _{j=1}^{k}t_{j}x_{j}}p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}\\&=\sum _{x_{1},\dots ,x_{k}\in \{0,\dots ,n\}, \atop \sum _{j=1}^{k}x_{j}=n}{\frac {n!}{x_{1}!\cdots x_{k}!}}\,{\big (}p_{1}e^{it_{1}}{\big )}^{x_{1}}\cdots {\big (}p_{k}e^{it_{k}})^{x_{k}}={\big (}p_{1}e^{it_{1}}+\dots +p_{k}e^{it_{k}}{\big )}^{n},\end{aligned}}}
on a l'última igualtat hem aplicat la fórmula (*).
Càlcul de la covariància entre dues components
Per buscar
Cov
(
X
1
,
X
2
)
{\displaystyle {\text{Cov}}(X_{1},X_{2})}
, calculem
E
[
X
1
X
2
]
{\displaystyle E[X_{1}X_{2}]}
, la qual cosa es pot fer a partir de la funció característica
[ 8] : atès que totes les components del vector
X
=
(
X
1
,
…
,
X
k
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{k})}
són positives i estan afitades per
n
{\displaystyle n}
, existeixen els moments de tots els ordres i per
n
1
,
…
,
n
k
≥
0
{\displaystyle n_{1},\dots ,n_{k}\geq 0}
,
E
(
X
1
n
1
⋯
X
k
n
k
)
=
1
i
n
1
+
⋯
n
k
∂
n
1
+
⋯
+
n
k
∂
t
1
n
1
⋯
∂
t
k
n
k
φ
(
t
1
…
,
t
k
)
|
t
1
=
0
,
…
,
t
k
=
0
.
{\displaystyle E(X_{1}^{n_{1}}\cdots X_{k}^{n_{k}})={\frac {1}{i^{n_{1}+\cdots n_{k}}}}\,{\frac {\partial ^{n_{1}+\cdots +n_{k}}}{\partial t_{1}^{n_{1}}\cdots \partial t_{k}^{n_{k}}}}\,\varphi (t_{1}\dots ,t_{k}){\Big \vert }_{t_{1}=0,\dots ,t_{k}=0}.}
Aleshores,
∂
2
∂
t
1
∂
t
2
φ
(
t
1
,
…
,
t
k
)
=
−
n
(
n
−
1
)
(
p
1
e
i
t
1
+
⋯
+
p
k
e
i
t
k
)
n
−
2
p
1
p
2
e
i
t
1
e
i
t
2
,
{\displaystyle {\frac {\partial ^{2}}{\partial t_{1}\partial t_{2}}}\varphi (t_{1},\dots ,t_{k})=-n(n-1)(p_{1}e^{it_{1}}+\cdots +p_{k}e^{it_{k}})^{n-2}p_{1}p_{2}e^{it_{1}}e^{it_{2}},}
d'on
E
(
X
1
X
2
)
=
n
(
n
−
1
)
p
1
p
2
.
{\displaystyle E(X_{1}X_{2})=n(n-1)p_{1}p_{2}.}
D'aquí,
Cov
(
X
1
,
X
2
)
=
E
[
X
1
X
2
]
−
E
[
X
1
]
E
[
X
2
]
=
n
(
n
−
1
)
p
1
p
2
−
n
2
p
1
p
2
=
−
n
p
1
p
2
.
{\displaystyle {\text{Cov}}(X_{1},X_{2})=E[X_{1}X_{2}]-E[X_{1}]\,E[X_{2}]=n(n-1)p_{1}p_{2}-n^{2}p_{1}p_{2}=-n\,p_{1}p_{2}.}
Siguin
X
=
(
X
1
,
…
,
X
d
)
∼
M
(
n
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})\sim M(n;p_{1},\dots ,p_{d})}
i
Y
=
(
Y
1
,
…
,
Y
d
)
∼
M
(
m
;
p
1
,
…
,
p
d
)
{\displaystyle {\boldsymbol {Y}}=(Y_{1},\dots ,Y_{d})\sim M(m;p_{1},\dots ,p_{d})}
independents. Aleshores
X
+
Y
∼
M
(
n
+
m
;
p
1
,
…
,
p
k
)
{\displaystyle {\boldsymbol {X}}+{\boldsymbol {Y}}\sim M(n+m;p_{1},\dots ,p_{k})}
. Es diu que la distribució multinomial és reproductiva respecte de
n
{\displaystyle n}
[ 4] . També s'escriu
M
(
n
;
p
1
,
…
,
p
k
)
∗
M
(
m
;
p
1
,
…
,
p
k
)
=
M
(
n
+
m
;
p
1
,
…
,
p
k
)
,
{\displaystyle M(n;p_{1},\dots ,p_{k})*M(m;p_{1},\dots ,p_{k})=M(n+m;p_{1},\dots ,p_{k}),}
on
∗
{\displaystyle *}
designa la convolució de probabilitats.
Prova
Aquesta propietat es deriva del fet que la funció característica de la suma de dos vectors aleatoris independents és igual al producte de les funcions característiques
[ 8] .
La distribució multinomial és asimptòticament normal
modifica
Com a conseqüència del teorema central del límit multidimensional, si considerem una successió
X
n
=
(
X
n
1
,
…
,
X
n
k
)
∼
M
(
n
;
p
1
,
…
,
p
k
)
{\displaystyle {\boldsymbol {X}}_{n}={\big (}X_{n1},\dots ,X_{nk}{\big )}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{k})}
,
n
≥
1
{\displaystyle n\geq 1}
, aleshores
1
n
(
X
n
−
n
p
)
⟶
n
→
∞
D
N
(
0
,
Σ
)
,
{\displaystyle {\frac {1}{\sqrt {n}}}{\Big (}{\boldsymbol {X}}_{n}-n{\boldsymbol {p}}{\Big )}\mathrel {\mathop {\longrightarrow } \limits _{n\to \infty }^{\mathcal {D}}} {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {\Sigma }}),}
on
p
=
(
p
1
,
…
,
p
k
)
{\displaystyle {\boldsymbol {p}}=(p_{1},\dots ,p_{k})}
,
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
és la matriu que hem introduït abans i
N
(
0
,
Σ
)
{\displaystyle {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {\Sigma }})}
és una distribució normal multidimensional centrada amb matriu de variàncies covariàncies
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
. Normalment, aquesta propietat s'escriu en components suprimint el subíndex
n
{\displaystyle n}
de les variables
X
n
1
,
…
,
X
n
k
{\displaystyle X_{n1},\dots ,X_{nk}}
:
1
n
(
X
1
−
n
p
1
,
…
,
X
k
−
n
p
k
)
⟶
n
→
∞
D
N
(
0
,
Σ
)
.
(
∗
∗
)
{\displaystyle {\frac {1}{\sqrt {n}}}{\big (}X_{1}-np_{1},\dots ,X_{k}-np_{k}{\big )}\mathrel {\mathop {\longrightarrow } \limits _{n\to \infty }^{\mathcal {D}}} {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {\Sigma }}).\qquad (**)}
Prova
Considerem els vectors aleatoris
k
{\displaystyle k}
-dimensionals
Y
1
,
Y
2
,
…
{\displaystyle {\boldsymbol {Y}}_{1},{\boldsymbol {Y}}_{2},\dots }
, amb distribució
Y
j
=
{
(
1
,
0
,
…
,
0
)
si a la
j
-èssima repetició s'onté el resultat
R
1
(
0
,
1
,
…
,
0
)
si a la
j
-èssima repetició s'onté el resultat
R
2
⋮
(
0
,
0
,
…
,
1
)
si a la
j
-èssima repetició s'onté el resultat
R
k
{\displaystyle Y_{j}={\begin{cases}(1,0,\dots ,0)&{\text{si a la }}j{\text{-èssima repetició s'onté el resultat }}R_{1}\\(0,1,\dots ,0)&{\text{si a la }}j{\text{-èssima repetició s'onté el resultat }}R_{2}\\\qquad \vdots &\\(0,0,\dots ,1)&{\text{si a la }}j{\text{-èssima repetició s'onté el resultat }}R_{k}\end{cases}}}
Aquests vectors són independents, ja que es refereixen a repeticions diferents, i tots tenen distribució
M
(
1
;
p
1
,
…
,
p
k
)
{\displaystyle {\cal {M}}(1;p_{1},\dots ,p_{k})}
. El vector d'esperances és
E
[
Y
]
=
p
=
(
p
1
,
…
,
p
k
)
{\displaystyle E[{\boldsymbol {Y}}]={\boldsymbol {p}}=(p_{1},\dots ,p_{k})}
i la matriu de variàncies-covariàncies
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
. Pel teorema central del límit multidimensional,
1
n
(
∑
j
=
1
n
Y
n
−
n
p
)
⟶
n
→
∞
D
N
(
0
,
Σ
)
,
{\displaystyle {\frac {1}{\sqrt {n}}}{\Big (}\sum _{j=1}^{n}{\boldsymbol {Y}}_{n}-n{\boldsymbol {p}}{\Big )}\mathrel {\mathop {\longrightarrow } \limits _{n\to \infty }^{\mathcal {D}}} {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {\Sigma }}),}
Per la propietat reproductiva que hem vist abans,
∑
j
=
1
n
Y
j
∼
M
(
n
;
p
1
,
…
,
p
k
)
,
{\displaystyle \sum _{j=1}^{n}{\boldsymbol {Y}}_{j}\sim {\cal {M}}(n;p_{1},\dots ,p_{k}),}
d'on resulta la propietat demanada.
La distribució χ2 entra en escena
modifica
Tenim la convergència:
∑
i
=
1
k
(
X
i
−
n
p
i
)
2
n
p
i
⟶
n
→
∞
D
χ
2
(
k
−
1
)
,
{\displaystyle \sum _{i=1}^{k}{\frac {(X_{i}-np_{i})^{2}}{np_{i}}}\mathrel {\mathop {\longrightarrow } \limits _{n\to \infty }^{\mathcal {D}}} \chi ^{2}(k-1),}
on
χ
2
(
k
−
1
)
{\displaystyle \chi ^{2}(k-1)}
és una distribució
χ
2
{\displaystyle \chi ^{2}}
-quadrat amb
k
−
1
{\displaystyle k-1}
graus de llibertat. Aquest resultat és molt important ja que en ell reposen el test de la
χ
2
{\displaystyle \chi ^{2}}
de Pearson i va ser demostrar per Pearson l'any 1900 [ 9] [ 10] .
Prova
Sigui
V
=
(
V
1
,
…
,
V
k
)
∼
N
(
0
,
Σ
k
)
{\displaystyle {\boldsymbol {V}}=(V_{1},\dots ,V_{k})\sim {\cal {N}}(0,{\boldsymbol {\Sigma }}_{k})}
i designem per
C
{\displaystyle C}
la matriu diagonal
C
=
(
1
/
p
1
0
⋯
0
0
1
/
p
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
1
/
p
k
)
.
{\displaystyle C={\begin{pmatrix}1/p_{1}&0&\cdots &0\\0&1/p_{2}&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &1/p_{k}\end{pmatrix}}.}
De (**) i del fet que la funció
R
k
→
R
x
↦
x
C
x
′
{\displaystyle {\begin{aligned}&\mathbb {R} ^{k}\to \mathbb {R} \\&\ {\boldsymbol {x}}\mapsto {\boldsymbol {xCx}}^{\prime }\end{aligned}}}
és contínua [ 11] , es dedueix que
X
C
X
′
=
∑
i
=
1
k
(
X
i
−
n
p
i
)
2
n
p
i
⟶
n
→
∞
D
V
C
V
′
,
{\displaystyle {\boldsymbol {XCX}}'=\sum _{i=1}^{k}{\frac {(X_{i}-np_{i})^{2}}{np_{i}}}\mathrel {\mathop {\longrightarrow } \limits _{n\to \infty }^{\mathcal {D}}} {\boldsymbol {V}}{\boldsymbol {C}}{\boldsymbol {V}}',}
on, per una matriu (o vector)
B
{\displaystyle {\boldsymbol {B}}}
, denotem per
B
′
{\displaystyle {\boldsymbol {B}}'}
la seva transposada . Notem que
V
C
V
′
=
∑
i
=
1
k
V
i
2
p
i
,
{\displaystyle {\boldsymbol {VCV}}^{\prime }=\sum _{i=1}^{k}{\frac {V_{i}^{2}}{p_{i}}},}
i, d'altra banda, que
∑
i
=
1
k
V
i
2
p
i
(
1
−
p
i
)
{\displaystyle \sum _{i=1}^{k}{\frac {V_{i}^{2}}{p_{i}(1-p_{i})}}}
és una suma de normals estàndards
N
(
0
,
1
)
{\displaystyle {\mathcal {N}}(0,1)}
al quadrat, però que no són independents tal com mostra la matriu
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
. Però hi ha indicis per conjecturar que
V
C
V
′
{\displaystyle {\boldsymbol {VCV}}^{\prime }}
tindrà una llei
χ
2
(
k
−
1
)
{\displaystyle \chi ^{2}(k-1)}
. Aquesta propietat pot deduir-se de resultats generals sobre formes quadràtiques de variables normals [ 12] [ 13] , però és interessant fer-ne una demostració directa per tal de veure les sorprenents cancel·lacions que tenen lloc.. Amb aquest objectiu retornem a
V
=
(
V
1
,
…
,
V
k
)
∼
N
(
0
,
Σ
)
{\displaystyle {\boldsymbol {V}}=(V_{1},\dots ,V_{k})\sim {\cal {N}}(0,{\boldsymbol {\Sigma }})}
. Atès que
det
Σ
=
0
{\displaystyle {\text{det}}\,{\boldsymbol {\Sigma }}=0}
, existeix una relació lineal entre les variables
V
1
,
…
,
V
k
{\displaystyle V_{1},\dots ,V_{k}}
[ 6] . La relació és
V
1
+
⋯
+
V
k
=
0
{\displaystyle V_{1}+\cdots +V_{k}=0}
ja que de la convergència (**) es dedueix [ 11] que
1
n
∑
i
=
1
k
(
X
i
−
n
p
i
)
⟶
n
→
∞
D
∑
i
=
1
k
V
i
.
{\displaystyle {\frac {1}{\sqrt {n}}}\sum _{i=1}^{k}{\big (}X_{i}-np_{i}{\big )}\mathrel {\mathop {\longrightarrow } \limits _{n\to \infty }^{\mathcal {D}}} \sum _{i=1}^{k}V_{i}.}
Però
1
n
∑
i
=
1
k
(
X
i
−
n
p
i
)
=
n
(
1
n
∑
i
=
1
k
X
i
−
∑
i
=
1
k
p
i
)
=
0.
{\displaystyle {\frac {1}{\sqrt {n}}}\sum _{i=1}^{k}{\big (}X_{i}-np_{i}{\big )}={\sqrt {n}}\,{\Big (}{\frac {1}{n}}\sum _{i=1}^{k}X_{i}-\sum _{i=1}^{k}p_{i}{\Big )}=0.}
Escrivim
V
∗
=
(
V
1
,
…
,
V
k
−
1
)
∼
N
(
0
,
Σ
∗
)
{\displaystyle {\boldsymbol {V}}_{*}=(V_{1},\dots ,V_{k-1})\sim {\cal {N}}(0,{\boldsymbol {\Sigma }}_{*})}
, on
Σ
∗
{\displaystyle {\boldsymbol {\Sigma }}_{*}}
és la matriu que hem introduït anteriorment, i considerem la matriu amb
k
{\displaystyle k}
files i
k
−
1
{\displaystyle k-1}
columnes
A
=
(
1
0
⋯
0
0
1
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
1
1
1
⋯
1
)
⏟
k
−
1
columnes
}
k
files
{\displaystyle A=\color {blue}\underbrace {\!\!\!\!\!\color {black}\left({\begin{matrix}1&0&\cdots &0\\0&1&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &1\\1&1&\cdots &1\end{matrix}}\right)\!\!\!\!\!} _{\displaystyle {k-1\ {\text{columnes}}}}\left.{\begin{matrix}\\[5pt]\\\\\\\\\end{matrix}}\right\}k\ {\text{files}}}
Tenim que
V
′
=
A
V
∗
′
.
{\displaystyle {\boldsymbol {V}}'={\boldsymbol {A}}{\boldsymbol {V}}_{*}'.}
Aleshores,
V
C
V
′
=
V
∗
A
′
C
A
V
∗
′
.
{\displaystyle {\boldsymbol {VCV}}^{\prime }={\boldsymbol {V_{*}A'CAV_{*}^{\prime }}}.}
Però
A
′
C
A
=
(
1
/
p
1
+
1
/
p
k
1
/
p
k
⋯
1
/
p
k
1
/
p
k
1
/
p
2
+
1
/
p
k
⋯
1
/
p
k
⋮
⋮
⋱
⋮
1
/
p
k
1
/
p
k
⋯
1
/
p
k
−
1
+
1
/
p
k
)
=
Σ
∗
−
1
,
{\displaystyle {\boldsymbol {A'CA}}={\begin{pmatrix}1/p_{1}+1/p_{k}&1/p_{k}&\cdots &1/p_{k}\\1/p_{k}&1/p_{2}+1/p_{k}&\cdots &1/p_{k}\\\vdots &\vdots &\ddots &\vdots \\1/p_{k}&1/p_{k}&\cdots &1/p_{k-1}+1/p_{k}\\\end{pmatrix}}={\boldsymbol {\Sigma }}_{*}^{-1},}
on l'última igualtat es comprova multiplicant la matriu del mig per
Σ
∗
{\displaystyle {\boldsymbol {\Sigma }}_{*}}
[ 14] [ 15] . D'altra banda, la matriu
Σ
∗
−
1
{\displaystyle {\boldsymbol {\Sigma }}_{*}^{-1}}
és definida positiva[ 16] , i llavors té una matriu arrel quadrada [ 17] que designarem per
Σ
∗
−
1
/
2
{\displaystyle \Sigma _{*}^{-1/2}}
, que també és definida positiva; la notació és consistent ja que
(
Σ
∗
−
1
)
1
/
2
=
(
Σ
∗
1
/
2
)
−
1
{\displaystyle {\boldsymbol {(}}\Sigma _{*}^{-1})^{1/2}={\boldsymbol {(}}\Sigma _{*}^{1/2})^{-1}}
. Llavors,
V
C
V
′
=
V
∗
Σ
−
1
V
∗
′
=
V
∗
Σ
−
1
/
2
Σ
−
1
/
2
V
∗
′
.
{\displaystyle {\boldsymbol {VCV}}'={\boldsymbol {V}}_{*}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {V}}_{*}'={\boldsymbol {V}}_{*}{\boldsymbol {\Sigma }}^{-1/2}\Sigma ^{-1/2}{\boldsymbol {V}}_{*}'.}
Però per les propietats de les lleis normals multidimensionals,
V
∗
Σ
∗
−
1
/
2
∼
N
(
0
,
I
k
−
1
)
{\displaystyle {\boldsymbol {V}}_{*}\Sigma _{*}^{-1/2}\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{k-1})}
, on
I
k
−
1
{\displaystyle {\boldsymbol {I}}_{k-1}}
és la matriu identitat de dimensió
k
−
1
{\displaystyle k-1}
. Si escrivim
Z
=
(
Z
1
,
…
,
Z
k
−
1
)
=
V
∗
Σ
∗
−
1
/
2
∼
N
(
0
,
I
k
−
1
)
{\displaystyle {\boldsymbol {Z}}=(Z_{1},\dots ,Z_{k-1})={\boldsymbol {V}}_{*}\Sigma _{*}^{-1/2}\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{k-1})}
finalment tindrem,
V
C
V
′
==
Z
Z
′
=
∑
i
=
1
k
Z
i
2
∼
χ
2
(
k
−
1
)
.
{\displaystyle {\boldsymbol {VCV}}'=={\boldsymbol {Z}}\,{\boldsymbol {Z}}'=\sum _{i=1}^{k}Z_{i}^{2}\sim \chi ^{2}(k-1).}
.
Relació amb les distribucions de Poisson
modifica
Siguin
Y
1
,
…
,
Y
k
{\displaystyle Y_{1},\dots ,Y_{k}}
variables independents, amb distribucions de Poisson
Y
1
∼
P
o
i
s
(
λ
1
)
,
…
,
Y
k
∼
P
o
i
s
(
λ
k
)
{\displaystyle Y_{1}\sim Pois(\lambda _{1}),\dots ,Y_{k}\sim Pois(\lambda _{k})}
. Aleshores la distribució de
(
Y
1
,
…
,
Y
k
)
{\displaystyle (Y_{1},\dots ,Y_{k})}
condicionada a
Y
1
+
⋯
+
Y
k
=
n
{\displaystyle Y_{1}+\cdots +Y_{k}=n}
és una distribució multinomial
M
(
n
,
λ
1
/
λ
∗
,
…
,
λ
k
/
λ
∗
)
{\displaystyle {\mathcal {M}}(n,\lambda _{1}/\lambda ^{*},\dots ,\lambda _{k}/\lambda ^{*})}
on
λ
∗
=
∑
i
=
1
k
λ
i
{\displaystyle \lambda ^{*}=\sum _{i=1}^{k}\lambda _{i}}
.
Prova de la
χ
2
{\displaystyle \chi ^{2}}
de Pearson
↑ Olver , F.W.J; Lozier , D.W.; Boisvert , R. F.; Clark , C.W.. NIST handbook of mathematical functions . Cambridge: Cambridge University Press, 2010, p. Fórmula 26.4.9. ISBN 978-0-521-19225-5 .
↑ 4,0 4,1 Wilks , S. S.. Mathematical statistics . New York: Wiley, 1962, p. 139. ISBN 0-471-94644-3 .
↑ Seber , G. A. F.. Statistical models for proportions and probabilities , 2013, pp. 28 i 31. ISBN 978-3-642-39041-8 .
↑ 6,0 6,1 Seber , G. A. F.. A matrix handbook for statisticians . Hoboken, N.J.: Wiley-Interscience, 2008, p. 428, item 20.3. ISBN 978-0-470-22678-0 .
↑ Franklin A. , Graybill. Matrices with applications in statistics , 1983, p. 203. ISBN 0-534-98038-4 .
↑ 8,0 8,1 Sato , Ken-iti. Lévy processes and infinitely divisible distributions . Cambridge, U.K.: Cambridge University Press, 1999, p. 9. ISBN 0-521-55302-4 .
↑ Pearson , Karl «On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling ». Philosophical Magazine , vol. 50, 302, 1900, pàg. 157–175. DOI : 10.1080/14786440009463897 .
↑ Vegeu l'interessant treball de W. G. Cochran on explica de forma molt clara l'article de Pearson: Cochran , William G. «The $\chi^2$ Test of Goodness of Fit ». The Annals of Mathematical Statistics , 23, 3, 9-1952, pàg. 315–345. DOI : 10.1214/aoms/1177729380 . ISSN : 0003-4851 .
↑ 11,0 11,1 Serfling , Robert J. Approximation theorems of mathematical statistics . New York: Wiley, 2002, p. 25. ISBN 0-471-21927-4 .
↑ Serfling , Robert J. Approximation theorems of mathematical statistics . New York: Wiley, 2002, p. 130. ISBN 0-471-21927-4 .
↑ Seber , G. A. F.. Statistical models for proportions and probabilities , 2013, p. 30-31. ISBN 978-3-642-39041-8 .
↑ És un resultat general sobre matrius amb estructura, vegeu: Franklin A. , Graybill. Matrices with applications in statistics , 1983, p. 187. ISBN 0-534-98038-4 .
↑ tots aquests càlculs es poden simplificar escrivint de manera compacta totes les matrius, tal com hem fet abans amb la matriu
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
a l'apartat de Propietats
↑ Per definició, una matriu definida positiva és simètrica
↑ Totes les propietats de les matrius definides positives que utilitzem es troben a Seber , G. A. F.. A matrix handbook for statisticians . Hoboken, N.J.: Wiley-Interscience, 2008, p. 220-221. ISBN 978-0-470-22678-0 .
Johnson , N. L.; Kotz , S.; Balakrihsnan , N. Discrete Multivariate Distributions . New York: Wiley, 1997. ISBN 0-471-12844-1 .
Forbes , C.; Evans , M.; Hastings , N.; Peacock , B. Statistical distributions. . 4th ed.. Oxford: Wiley-Blackwell, 2010, pp.135-136. ISBN 978-0-470-62724-2 .
Per a
j
=
1
,
…
,
k
−
1
{\displaystyle j=1,\dots ,k-1}
, la funció de probabilitat marginal del vector
(
X
1
,
…
,
X
j
)
{\displaystyle (X_{1},\dots ,X_{j})}
és
P
(
X
1
=
x
1
,
…
,
X
j
=
x
j
)
=
n
!
x
1
!
⋯
x
j
!
(
n
−
∑
i
=
1
j
x
i
)
!
p
1
x
1
⋯
p
j
x
j
(
1
−
∑
i
=
1
j
p
i
)
n
−
∑
i
=
1
j
x
i
,
{\displaystyle P(X_{1}=x_{1},\dots ,X_{j}=x_{j})={\frac {n!}{x_{1}!\cdots x_{j}!(n-\sum _{i=1}^{j}x_{i})!}}\,p_{1}^{x_{1}}\cdots p_{j}^{x_{j}}(1-\sum _{i=1}^{j}p_{i})^{n-\sum _{i=1}^{j}x_{i}},}
on
(
x
1
,
…
,
x
j
)
∈
{
0
,
1
,
…
,
n
}
j
{\displaystyle (x_{1},\dots ,x_{j})\in \mathbb {\{} 0,1,\dots ,n\}^{j}}
amb
∑
i
=
1
j
x
i
≤
n
{\displaystyle \sum _{i=1}^{j}x_{i}\leq n}
. En particular, per a
j
=
1
{\displaystyle j=1}
, tenim
P
(
X
1
=
x
1
)
=
n
!
x
1
!
(
n
−
x
1
)
!
p
1
x
1
(
1
−
p
1
)
n
−
x
1
,
x
1
∈
{
0
,
1
,
…
,
n
}
,
{\displaystyle P(X_{1}=x_{1})={\frac {n!}{x_{1}!(n-x_{1})!}}\,p_{1}^{x_{1}}(1-p_{1})^{n-x_{1}},\ x_{1}\in \{0,1,\dots ,n\},}
és a dir, es tracta d'una distribució binomial
B
(
n
,
p
1
)
{\displaystyle B(n,p_{1})}
.
Fórmules anàlogues es dedueixen per a les marginals
(
X
i
1
,
…
X
i
j
)
{\displaystyle (X_{i_{1}},\dots X_{i_{j}})}
, amb
i
1
,
…
,
i
j
{\displaystyle i_{1},\dots ,i_{j}}
distints.
Siguin
x
1
,
…
,
x
k
∈
{
0
,
…
,
n
}
{\displaystyle x_{1},\dots ,x_{k}\in \{0,\dots ,n\}}
tals que
∑
i
=
1
j
x
j
≤
n
{\displaystyle \sum _{i=1}^{j}x_{j}\leq n}
; escrivim
m
=
n
−
∑
i
=
1
j
x
j
{\displaystyle m=n-\sum _{i=1}^{j}x_{j}}
. Aleshores
P
(
X
1
=
x
1
,
…
,
X
j
=
x
j
)
=
∑
x
j
+
1
,
…
,
x
n
∈
{
0
,
…
,
m
}
,
∑
u
=
j
+
1
k
x
u
=
m
n
!
x
1
!
⋯
x
k
!
p
1
x
1
⋯
p
k
x
k
=
n
!
x
1
!
⋯
x
j
!
m
!
p
1
x
1
⋯
p
j
x
j
∑
x
j
+
1
,
…
,
x
n
∈
{
0
,
…
,
m
}
,
∑
u
=
j
+
1
k
x
u
=
m
m
!
x
j
+
1
!
⋯
x
k
!
p
j
+
1
x
1
⋯
p
k
x
k
=
n
!
x
1
!
⋯
x
j
!
m
!
p
1
x
1
⋯
p
j
x
j
(
p
j
+
1
+
⋯
+
p
k
)
m
=
n
!
x
1
!
⋯
x
j
!
m
!
p
1
x
1
⋯
p
j
x
j
(
1
−
p
1
−
⋯
−
p
j
)
m
.
{\displaystyle {\begin{aligned}P(X_{1}=x_{1},\dots ,X_{j}=x_{j})&=\sum _{x_{j+1},\dots ,x_{n}\in \{0,\dots ,m\}, \atop \sum _{u=j+1}^{k}x_{u}=m}{\frac {n!}{x_{1}!\cdots x_{k}!}}\,p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}\\&={\frac {n!}{x_{1}!\cdots x_{j}!\,m!}}\,p_{1}^{x_{1}}\cdots p_{j}^{x_{j}}\sum _{x_{j+1},\dots ,x_{n}\in \{0,\dots ,m\}, \atop \sum _{u=j+1}^{k}x_{u}=m}{\frac {m!}{x_{j+1}!\cdots x_{k}!}}\,p_{j+1}^{x_{1}}\cdots p_{k}^{x_{k}}\\&={\frac {n!}{x_{1}!\cdots x_{j}!\,m!}}\,p_{1}^{x_{1}}\cdots p_{j}^{x_{j}}(p_{j+1}+\cdots +p_{k})^{m}={\frac {n!}{x_{1}!\cdots x_{j}!\,m!}}\,p_{1}^{x_{1}}\cdots p_{j}^{x_{j}}(1-p_{1}-\cdots -p_{j})^{m}.\end{aligned}}}
Càlcul de l'esperança, la variància i la covariància
En particular, tal com hem dit,
X
j
∼
B
(
n
,
p
j
)
{\displaystyle X_{j}\sim B(n,p_{j})}
. D'aquí resulta que
E
[
X
j
]
=
n
p
j
{\displaystyle E[X_{j}]=np_{j}}
i
Var
(
X
j
)
=
n
p
j
(
1
−
p
j
)
{\displaystyle {\text{Var}}(X_{j})=np_{j}(1-p_{j})}
.
Per buscar
Cov
(
X
1
,
X
2
)
{\displaystyle {\text{Cov}}(X_{1},X_{2})}
, calculem
E
[
X
1
X
2
]
{\displaystyle E[X_{1}X_{2}]}
:
E
[
X
1
X
2
]
=
∑
x
1
=
0
,
…
,
n
x
2
=
0
,
…
,
n
x
1
+
x
2
≤
n
x
1
x
2
n
!
x
1
!
x
2
!
(
n
−
x
1
−
x
2
)
!
p
1
x
1
p
2
x
2
(
1
−
p
1
−
p
2
)
n
−
x
1
−
x
2
=
p
1
p
2
∑
x
1
=
1
,
…
,
n
x
2
=
1
,
…
,
n
x
1
+
x
2
≤
n
n
!
x
1
!
x
2
!
(
n
−
x
1
−
x
2
)
!
p
1
x
1
−
1
p
2
x
2
−
1
(
1
−
p
1
−
p
2
)
n
−
x
1
−
x
2
=
p
1
p
2
∑
x
1
=
0
,
…
,
n
−
1
x
2
=
0
,
…
,
n
−
1
x
1
+
x
2
≤
n
−
2
n
!
(
x
1
−
1
)
!
(
x
2
−
1
)
!
(
n
−
2
−
x
1
−
x
2
)
!
p
1
x
1
p
2
x
2
(
1
−
p
1
−
p
2
)
n
−
2
−
x
1
−
x
2
=
n
!
(
n
−
2
)
!
p
1
p
2
(
p
1
+
p
2
+
1
−
p
1
−
p
2
)
n
−
2
=
n
(
n
−
1
)
p
1
p
2
.
{\displaystyle {\begin{aligned}E[X_{1}X_{2}]&=\sum _{x_{1}=0,\dots ,n \atop {x_{2}=0,\dots ,n \atop x_{1}+x_{2}\leq n}}x_{1}x_{2}{\frac {n!}{x_{1}!\,x_{2}!\,(n-x_{1}-x_{2})!}}\,p_{1}^{x_{1}}p_{2}^{x_{2}}(1-p_{1}-p_{2})^{n-x_{1}-x_{2}}\\&=p_{1}p_{2}\sum _{x_{1}=1,\dots ,n \atop {x_{2}=1,\dots ,n \atop x_{1}+x_{2}\leq n}}{\frac {n!}{x_{1}!\,x_{2}!\,(n-x_{1}-x_{2})!}}\,p_{1}^{x_{1}-1}p_{2}^{x_{2}-1}(1-p_{1}-p_{2})^{n-x_{1}-x_{2}}\\&=p_{1}p_{2}\sum _{x_{1}=0,\dots ,n-1 \atop {x_{2}=0,\dots ,n-1 \atop x_{1}+x_{2}\leq n-2}}{\frac {n!}{(x_{1}-1)!\,(x_{2}-1)!\,(n-2-x_{1}-x_{2})!}}\,p_{1}^{x_{1}}p_{2}^{x_{2}}(1-p_{1}-p_{2})^{n-2-x_{1}-x_{2}}\\&={\frac {n!}{(n-2)!}}\,p_{1}p_{2}\,(p_{1}+p_{2}+1-p_{1}-p_{2})^{n-2}=n(n-1)\,p_{1}p_{2}.\end{aligned}}}
Aleshores,
Cov
(
X
1
,
X
2
)
=
E
[
X
1
X
2
]
−
E
[
X
1
]
E
[
X
2
]
=
−
n
p
1
p
2
.
{\displaystyle {\text{Cov}}(X_{1},X_{2})=E[X_{1}X_{2}]-E[X_{1}]\,E[X_{2}]=-n\,p_{1}p_{2}.}
La distribució condicionada de
(
X
1
,
…
,
X
j
)
{\displaystyle (X_{1},\dots ,X_{j})}
respecte
X
j
+
1
=
x
j
+
1
,
…
,
X
k
=
x
k
{\displaystyle X_{j+1}=x_{j+1},\dots ,X_{k}=x_{k}}
és una multinomial
M
(
n
−
n
∗
,
p
1
/
p
∗
,
…
,
p
j
/
p
∗
)
{\displaystyle {\mathcal {M}}(n-n^{*},p_{1}/p^{*},\dots ,p_{j}/p^{*})}
on
n
∗
=
∑
i
=
j
+
1
k
x
j
{\displaystyle n^{*}=\sum _{i=j+1}^{k}x_{j}}
i
p
∗
=
∑
i
=
1
j
p
i
{\displaystyle p^{*}=\sum _{i=1}^{j}p_{i}}
.