Format FASTA: diferència entre les revisions

Contingut suprimit Contingut afegit
c -> ç
més info
Línia 1:
En [[bioinformàtica]], el '''format FASTA''' és un [[format de fitxer]] basat en [[Text pla|text]] de representació de seqüències tant [[nucleòtid|nucleotídiques]] com [[pèptid|peptídiques]], en què els nucleòtids i els [[aminoàcid]]s es representen usant un codi d'una sola lletra. Aquest format<ref>{{Ref-web|url = http://blast.ncbi.nlm.nih.gov/blastcgihelp.shtml|títol = Query Input and database selection - NCBI BLAST|consulta = 2015-02-27|llengua = en|editor = |data = }}</ref> també permet que les seqüències estiguin encapçalades pel nom de la seqüència o comentaris. El format FASTA es va originar pel paquet de software [[FASTA]], però avui en dia és un estàndard en el camp de la bioinformàtica.
 
La simplicitat del format FASTA fa que sigui fàcil manipular les seqüències usant eines de processament de text i [[llenguatge script|llenguatges script]] com ara [[Python]], [[Ruby]] io [[Perl]].
 
== Descripció ==
Una seqüència en format FASTA comença amb una capçalera de descripció d'una sola línia amb el símbol '>' al principi. La paraula que en segueix, que no ha de tenir espais, acostuma a ser l'[[identificador]] de la seqüencia. Per altra banda, l'[[NCBI]] defineix un estàndard d'identificadors únics en aquesta capçalera de descripció, que programes com el ''makeblastdb'' del BLAST utilitzen per indexar fitxers amb múltiples seqüències.
 
És habitual que la seqüencia biològica que en segueix contingui no més 80 [[caràcter]]s per línia.
 
== Exemple ==
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGF
 
L'[[extensió de fitxer]] que conté les seqüències acostuma a ser: .fa, .fasta o variacions similars.
 
==Enllaços externs==