El format FASTQ és un format de text pla utilitzat per emmagatzemar seqüències biològiques (normalment de nucleòtids) juntament amb llurs puntuacions de qualitat. Tant la lletra de la seqüència com la puntuació de qualitat estan codificades amb un únic caràcter ASCII per brevetat. Va ser dissenyat originalment al Wellcome Trust Sanger Institute per tal d'empaquetar les seqüències FASTA juntament amb les dades de qualitat.

Infotaula de format de fitxerFormat FASTQ
Tipusfitxer de text
Extensiófastq i fq
MIMEtext/plain
Modifica les dades a Wikidata

Actualment podríem considerar que és l'estàndard de facto per tal d'emmagatzemar dades d'instruments de seqüenciació massiva.[1]

FormatModifica

Un fitxer de format FASTQ normalment utilitza 4 línies per cada seqüència biològica.

  • La 1a comença amb el caràcter '@' i tot seguit un identificador. Opcionalment una descripció de l'estil de les que trobem en la línia de títol del format FASTA.
  • La 2a conté totes les lletres de la seqüència.
  • La 3a comença amb el caràcter '+' i, de forma opcional, li segueix el mateix identificador de seqüència i descripció que la 1a línia de nou.
  • La 4a codifica els valors de qualitat de la seqüència de la 2a línia. Aquesta ha de tenir per tant la mateixa longitud que la 2a línia.

Un exemple de seqüència en format FASTQ té l'aspecte següent:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

En la 4a línia, el caràcter '!' representa la menor qualitat possible mentre que '~' la major. Els caràcters ASCII que codifiquen de menor a major qualitat possible d'esquerra a dreta són:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Un altre exemple del Sequence Read Archive amb una descripció que conté informació del sequenciador utilitzat i la longitud de la seqüència:

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

ReferènciesModifica

  1. Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. «The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants». Nucleic Acids Research, 38, 6, 2009, pàg. 1767–1771. DOI: 10.1093/nar/gkp1137. PMC: 2847217. PMID: 20015970.