Si el vector pd1 es distribueix segons una distribució gaussiana multivariant mitja zero i matriu de covariànciaN(p01, pIp) i mMp és una matriu pxp amb una distribució de Wishart amb matriu escala unitat i m graus de llibertat W(pIp, m), llavors m(1d'pM– 1pd1) segueix una distribució T² de Hotelling amb paràmetre de dimensionalitat p i m graus de llibertat.[2]
Si s'utilitza la notació per representar una variable aleatòria amb distribució T quadrat de Hotelling amb paràmetres p i m llavors, si una variable aleatòria X segueix una distribució T quadrat de Hotelling,
L'estadístic T² de Hotelling és una generalització de l'estadístic t de Student que s’utilitza en proves d’hipòtesis multivariants i es defineix com:[1]
Sigui una p-variable normal amb mitja i covariància . Siguin
n variables aleatòries independents, que es poden representar com a vectors columnes de valors reals i
la mitja mostral.
Es pot demostrar que
on és la distribució khi quadrat amb p graus de llibertat.
Per mostrar-ho partim del fet que i deduïm la funció característica de la variable aleatòria tal com segueix,
Ara bé, sovint és desconeguda i volem fer proves d’hipòtesi sobre la posició .
la covariància mostral. Es pot demostrar que (aquí la trasposta es representa com a apòstrofe) és una matriu positiva (semi) definida i segueix una distribució de Wishart p-variada amb n – 1 graus de llibertat.[3] L'estadístic T² de Hotelling es defineix, doncs, com a:[4]
i, com abans,
és a dir
on Fp; n – p es la distribució F amb paràmetres p i n – p. Per calcular un valor P cal multiplicar l'estadistic t² per l’anterior constant i fer servir la distribució F.
La distribució no nul·la d’aquest estadístic es la distribució F no central (el quocient entre una variable aleatòria khi quadrat no central i una variable aleatòria khi quadrat central independent)
amb
on és el vector diferència entre les mitjanes poblacionals.
S’han proposat proves més robustos i potents que la prova de Hotelling per a dues mostres, veure per exemple les proves basades en la distància emtre punts que es poden aplicar també quan el nombre de variables és comparable o fins i tot més gran que el nombre d’objectes.[5][6]
En el cas de dues variables la fórmula es simplifica i permet visualitzar com la correlació entre les variables influeix sobre . Si es defineix
i
llavors
Si les diferències entre dos files del vector tenen el mateix signe llavors, en general és més petit a mesura que es més positiu. Si les diferències son de signe oposat és més gran a mesura que és més positiu.
Distribució lambda de Wilks (en estadística multivariant λ de Wilks és a T² de Hotelling com F de Snedecor és a t d'Student en estadística univariada).
↑ 1,01,11,2Hotelling, H «The generalization of Student's ratio». Annals of Mathematical Statistics, 2(3), 1931, pàg. 360 - 378. DOI: 10.1214/aoms/1177732979.
↑Weisstein, E. W. CRC Concise Encyclopedia of Mathematics. 2ª Ed. Boca Raton (FL): Chapman & Hall/CRC, 2003.
↑ 3,03,1Mardia, K. V.; Kent, J. T.; Bibby, J. M. Multivariate Analysis. New York (NY): Academic Press, 1979. ISBN 0-12-471250-9.
↑«Hotelling's T Square». Engineering Statistics Handbook. [Consulta: 3 febrer 2016].
↑Marozzi, M. «Multivariate tests based on interpoint distances with application to magnetic resonance imaging». A: Statistical Methods in Medical Research, 2014. DOI10.1177/0962280214529104.
↑Marozzi, M. «"Multivariate multidistance tests for high-dimensional low sample size case-control studies». A: Statistics in Medicine. 34, 2015. DOI10.1002/sim.6418.