Format FASTQ

Format FASTQ
Tipus	format de fitxer i textual data format (en)
Extensió	fastq i fq
MIME	text/plain
Magic number	405345515F4944
Desenvolupador	Wellcome Sanger Institute (en)
Extensió de	format FASTA

El format FASTQ és un format de text pla utilitzat per emmagatzemar seqüències biològiques (normalment de nucleòtids) juntament amb llurs puntuacions de qualitat. Tant la lletra de la seqüència com la puntuació de qualitat estan codificades amb un únic caràcter ASCII per brevetat. Va ser dissenyat originalment al Wellcome Trust Sanger Institute per tal d'empaquetar les seqüències FASTA juntament amb les dades de qualitat.

Actualment podríem considerar que és l'estàndard de facto per tal d'emmagatzemar dades d'instruments de seqüenciació massiva.^[1]

Format modifica

Un fitxer de format FASTQ normalment utilitza 4 línies per cada seqüència biològica.

La 1a comença amb el caràcter '@' i tot seguit un identificador. Opcionalment una descripció de l'estil de les que trobem en la línia de títol del format FASTA.
La 2a conté totes les lletres de la seqüència.
La 3a comença amb el caràcter '+' i, de forma opcional, li segueix el mateix identificador de seqüència i descripció que la 1a línia de nou.
La 4a codifica els valors de qualitat de la seqüència de la 2a línia. Aquesta ha de tenir per tant la mateixa longitud que la 2a línia.

Un exemple de seqüència en format FASTQ té l'aspecte següent:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+* ''))**55CCF>>>>>>CCCCCCC65

En la 4a línia, el caràcter '!' representa la menor qualitat possible mentre que '~' la major. Els caràcters ASCII que codifiquen de menor a major qualitat possible d'esquerra a dreta són:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Un altre exemple del Sequence Read Archive amb una descripció que conté informació del sequenciador utilitzat i la longitud de la seqüència:

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

Referències modifica

↑ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. «The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants». Nucleic Acids Research, 38, 6, 2009, pàg. 1767–1771. DOI: 10.1093/nar/gkp1137. PMC: 2847217. PMID: 20015970.

[Cock2009-1] Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. «The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants». Nucleic Acids Research, 38, 6, 2009, pàg. 1767–1771. DOI: 10.1093/nar/gkp1137. PMC: 2847217. PMID: 20015970.

[1]

Tipus	format de fitxer i textual data format ^(en)
Extensió	`fastq` i `fq`
MIME	`text/plain`
Magic number	405345515F4944
Desenvolupador	Wellcome Sanger Institute ^(en)
Extensió de	format FASTA