Diferència entre revisions de la pàgina «Bigrama»

323 bytes afegits ,  fa 8 mesos
cap resum d'edició
(Creada per traducció de la pàgina «Bigrama»)
 
Un '''bigrama''' o '''digrama''' és un grup de dues lletres, dues síl·labes, o dues paraules. Els bigrames són utilitzats comunment com a base per a l'anàlisi estadística de text simple. S'utilitzen en un dels [[Model de llenguatge|models de llenguatge]] més exitosos per al [[Reconeixement de la parla|reconeixement de veu]].<ref>Michael Collins. ''A new statistical parser based on bigram lexical dependencies''. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.</ref> Es tracta d'un cas especial del [[N-grama]].
 
Els Bigrames ajuden a proporcionar la probabilitat condicional d'una paraula donada la paraula precedent, quan la relació de la [[Probabilitat condicionada|probabilitat condicional]] s'aplica:
 
És a dir, la probabilitat <math> P() </math> d'una paraula <math>W_n</math>, donada la paraula precedent <math>W_{n-1}</math>, és igual a la probabilitat del seu bigrama, o la co-ocurrència de les dues paraules <math>P(W_{n-1},W_n)</math>, dividit per la probabilitat de la paraula precedent.
 
== Aplicacions ==
 
Els bigrames de paraules s'usen en [[Model de llenguatge|models de llenguatge]] per a reconeixement de llenguatge natural.
 
Els bigrames de lletres es poden usar per a la identificació de l'idioma d'un text. També poden ser usats per a fer un criptoanàlisi d'un text xifrat.
 
 
== Referències ==
416

modificacions