Variant Call Format
El Variant Call Format (VCF) és un format de fitxer de text que s'utilitza en bioinformàtica per a emmagatzemar informació sobre les variacions en la seqüència dels gens. El format s'ha dissenyat sota l'aixopluc de grans projectes de seqüenciació de l'ADN i genotipatge, com ara el Projecte 1000 Genomes.
Tipus | format de fitxer ![]() |
---|---|
Extensió | vcf ![]() |
Desenvolupador | Projecte dels 1000 genomes ![]() |
Més informació | |
Wiki del format de fitxer | VCF ![]() |
PRONOM | fmt/905 ![]() |
Es va veure la necessitat d'un nou format, perquè altres formats ja existents per emmagatzemar dades genètiques, com ara el General Feature Format, en utilitzar-se per a diferents genomes inclourien masses dades redundants. Amb el VCF només es desarien les diferents variacions respecte a un genoma de referència.
A part, el Projecte 1000 Genomes ha desenvolupat les seves pròpies especificacions per a variacions estructurals, com ara duplicats, difícils d'acomodar en l'esquema existent.[1][2][3] També existeixen un grup d'eines per editar i manipular els fitxers VCF.[4]
Exemple
modifica##fileformat=VCFv4.0 ##fileDate=20110705 ##reference=1000GenomesPilot-NCBI37 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3 2 4370 rs6057 G A 29. NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,. 2 7330. T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3 2 110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 2 130237. T . 47. NS=2;DP=16;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2 2 134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
Enllaços externs
modifica- El format Genome Variation Format (GVF), una extensió basada en el format GFF3.
- Una explicació gràfica del format: http://vcftools.sourceforge.net/vcf-poster.pdf
- Eina gràfica gratuïta per inspeccionar, buscar, dividir i combinar fitxers VCF en OS X, disponible en: http://www.diploid.com/differ Arxivat 2015-02-18 a Wayback Machine.
Referències
modifica- ↑ «VCF Specification». [Consulta: 17 maig 2013].
- ↑ «Specifications of SAM/BAM and related high-throughput sequencing file formats». [Consulta: 24 juny 2014].
- ↑ «Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes». [Consulta: 1r febrer 2011].
- ↑ «VCFtools from SourceForge.net». [Consulta: 21 abril 2011].