Usuari:Rguigo/proves/Estadistic codificant

Un estadistic codificant es una funcio que calcula un valor real relacionat amb la probabilitat que una sequencia de DNA donada codifiqui per una proteina (o per un fragment d'una proteina). Les regions del genoma que codifiquen per proteines exhibeixen biaxos caracteristics en la composicio de la sequencia de DNA. Aquest biax es consequencia del biax (1) en l'us d'aminoacids en proteines reals i (2) en l'us de codons sinonims. Els estadistics codificants mesuren aquest biaix, i contribueixen a discriminar entre regions codificants i no codificants.

La majoria dels estadistics codificants mesuren directament o indirecta el biax en l'us dels codons (o dels di-codons), el biax en la composicio de nucleotids entre posicions dins dels codons, o la periodicitat (correlacio) en la ocurrencia dels nucleotids, o una barreja de totes elles. Desde principis dels anys 1980, un gran nombre d'estadistics codificants han estat desenvolupats (Gelfand, 1995). Fickett i Tung (1992) van demostrar que totes aquestes mesures poden reduir-se essencialment a unes poques que son independents: la transformada de Fourier de la sequencia de DNA, la longitud del marc obert de lectura (Open Reading Frame, ORF) mes llarga, el nombre de repeticions d'un unic nucleotide o d'un conjunt de nucleotids i les frequencies dels hexamers.

Hom pot distingir entre mesures que depenen d'un model de DNA codificant, i mesures que no hi depenen. (Guigo 1998). El model de DNA codificant es usualment probabilistic, per exemple, la distribucio de probabilitat de codons o dicodons en sequencies codificants, o models de Markov mes complexos.

is usually probabilistic, i.e., the probability distribution of codons or dicodons in coding sequences, or more complex Markov models. To estimate the model, a

set of previously known coding sequences from the genome of the species under consideration is required. This model is often very species specific. Under the model one can compute the probability of a DNA sequence given that the sequence codes for a protein. The probability of the DNA sequence can also be computed under the alternative noncoding model. Often the log-likelihood ratio of these two probabilities is taken as the coding measure. Examples of model-dependent coding measures are codon usage (Staden and McLachlan, 1982), amino acid usage (McCaldon and Argos, 1988), codon preference (Gribskov et al., 1984), hexamer usage (Claverie et al., 1990), codon prototype (Mural et al., 1991), and heterogeneous Markov models (Borodovsky and McIninch, 1993).

In contrast, model-independent measures do not require a set of previously known coding sequences from the species genome under study. They capture intrinsic bias in coding regions, which is very general, but they do not measure the direction of this bias, which is very species specific. Examples of model-independent measures are position asymmetry (Fickett, 1982), periodic asymmetry (Konopka, 1990), average mutual information (Herzel and Grosse, 1995), and the Fourier spectrum (Silverman and Linsker, 1986). Model-independent coding measures are useful when no previous coding sequences are known for a given genome. Because the signal they produce is weaker than that produced by model-dependent measures, usually longer sequences are required to obtain discrimination. This limits their utility mostly to prokaryotic genomes where genes are continuous ORFs.

Typically, coding statistics are computed on a sliding window along the query genomic sequence. This generates a profile in which peaks tend to correspond to coding regions and valleys to noncoding ones. Nowadays, coding statistics are used within ab initio gene prediction programs that resolve the limits between peaks and valleys at legal splice junctions. Fifth-order Markov models are among the most popular coding statistics used within gene prediction programs.

Two popular coding region identification programs are TestCode (Fickett, 1982) and GRAIL (Uberbacher and Mural, 1991).