Wariant formatu wywołania

Wariant formatu wywołania
Rozszerzenie nazwy pliku
vcf
Opracowany przez Narzędzia VCF
Najnowsze wydanie

4.3 13 stycznia 2021 r. ; 2 lata temu ( 2021-01-13 )
Typ formatu Format sekwencji genomowej
Przedłużony od Wartości oddzielone tabulatorami
Otwarty format ? Tak
Strona internetowa samtools .github .io /hts-specs /
BCF v VCF
Demonstracja różnicy między binarnymi formatami BCF i VCF.

Variant Call Format ( VCF ) określa format pliku tekstowego używanego w bioinformatyce do przechowywania odmian sekwencji genów . Format został opracowany wraz z pojawieniem się wielkoskalowych genotypowania i sekwencjonowania DNA , takich jak 1000 Genomes Project . Istniejące formaty danych genetycznych, takie jak ogólny format cech (GFF) przechowywał wszystkie dane genetyczne, z których większość jest zbędna, ponieważ będą współużytkowane przez genomy. Używając formatu wywołania wariantów, należy przechowywać tylko odmiany wraz z genomem referencyjnym.

Standard jest obecnie w wersji 4.3, chociaż projekt 1000 genomów opracował własną specyfikację dla zmian strukturalnych, takich jak duplikacje, które nie są łatwe do uwzględnienia w istniejącym schemacie. Istnieje również genomowego VCF ( gVCF ), który zawiera dodatkowe informacje o „blokach” pasujących do odniesienia i ich właściwościach. Dostępny jest również zestaw narzędzi do edycji i manipulowania plikami.

Przykład

##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig= ##phasing=częściowe ##INFO= ##INFORMACJE= ##INFORMACJE= ##INFORMACJE= ##INFORMACJE= ##INFORMACJE= ##FILTR= ##FILTR= ##FORMAT= ##FORMAT= ##FORMAT= ##FORMAT= #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 GA 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51 ,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . TA 3 q10 NS=3;DP=11;AF=0,017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 AG,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2 :0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

Nagłówek VCF

Nagłówek rozpoczyna plik i zawiera metadane opisujące treść pliku. Linie nagłówka są oznaczone jako rozpoczynające się od # . Specjalne słowa kluczowe w nagłówku są oznaczone ## . Zalecane słowa kluczowe to fileformat , fileDate i reference .

Nagłówek zawiera słowa kluczowe, które opcjonalnie semantycznie i składniowo opisują pola używane w treści pliku, w szczególności INFO, FILTER i FORMAT (patrz poniżej).

Kolumny VCF

Treść VCF następuje po nagłówku i jest podzielona tabulatorami na 8 obowiązkowych kolumn i nieograniczoną liczbę opcjonalnych kolumn, których można użyć do zapisania innych informacji o próbce (próbkach). Gdy używane są dodatkowe kolumny, pierwsza opcjonalna kolumna służy do opisania formatu danych w kolejnych kolumnach.

Nazwa Krótki opis (szczegóły w specyfikacji).
1 CHROM Nazwa sekwencji (zwykle chromosomu), na której wywoływana jest odmiana. Ta sekwencja jest zwykle nazywana „sekwencją referencyjną”, tj. sekwencją, względem której różni się dana próbka.
2 punkt sprzedaży Pozycja oparta na 1 wariacji w danej sekwencji.
3 ID Identyfikator odmiany, np. identyfikator dbSNP rs lub, jeśli jest nieznany, „.”. Wiele identyfikatorów należy oddzielić średnikami bez spacji.
4 REF Podstawa odniesienia (lub podstawy w przypadku indel ) w danej pozycji w danej sekwencji odniesienia.
5 ALT Lista alternatywnych alleli w tej pozycji.
6 JAKOŚĆ Wynik jakości powiązany z wnioskowaniem danych alleli.
7 FILTR Flaga wskazująca, który z danego zestawu filtrów wariacja się nie powiodła lub PASS, jeśli wszystkie filtry przeszły pomyślnie.
8 INFORMACJE Rozszerzalna lista par klucz-wartość (pól) opisujących odmianę. Poniżej znajdziesz niektóre typowe pola. Wiele pól jest oddzielonych średnikami z opcjonalnymi wartościami w formacie: <key>=<data>[,data] .
9 FORMAT (Opcjonalna) rozszerzalna lista pól do opisu próbek. Poniżej znajdziesz niektóre typowe pola.
+ PRÓBKI Dla każdej (nieobowiązkowej) próbki opisanej w pliku podane są wartości dla pól wymienionych w FORMACIE

Wspólne pola INFO

Dowolne klucze są dozwolone, chociaż następujące pola podrzędne są zarezerwowane (choć opcjonalne):

Nazwa Krótki opis
AA allel przodków
AC liczbę alleli w genotypach, dla każdego allelu ALT, w takiej samej kolejności, jak wymieniono
AF częstość alleli dla każdego allelu ALT w tej samej kolejności, jak wymieniono (użyj tego, gdy oszacowano na podstawie danych pierwotnych, a nie genotypów)
JAKIŚ całkowita liczba alleli w nazwanych genotypach
BQ Podstawowa jakość RMS na tej pozycji
CYGARO ciąg cygara opisujący sposób dopasowania alternatywnego allelu do allelu referencyjnego
DB członkostwo dbSNP
DP łączna głębokość próbek, np. DP=154
KONIEC pozycja końcowa wariantu opisanego w tym zapisie (do użytku z allelami symbolicznymi)
H2 członkostwo w hapmap2
H3 członkostwo w hapmap3
MQ Jakość odwzorowania RMS, np. MQ=52
MQ0 Liczba odczytów MAPQ == 0 obejmujących ten rekord
NS Liczba próbek z danymi
SB nachylenie nici w tej pozycji
SOMATYCZNY wskazuje, że zapis jest mutacją somatyczną, dla genomiki raka
ZATWIERDZONO potwierdzone eksperymentem kontrolnym
1000G przynależność do 1000 genomów

Wszelkie inne pola informacyjne są zdefiniowane w nagłówku .vcf.

Typowe pola FORMATU

Nazwa Krótki opis
OGŁOSZENIE Odczytaj głębokość dla każdego allelu
ADF Odczytaj głębokość dla każdego allelu na przedniej nici
ADR Odczytaj głębokość dla każdego allelu na odwrotnej nici
DP Głębokość odczytu
WE Oczekiwane alternatywne liczby alleli
FT Filtr wskazujący, czy ten genotyp został „nazwany”
GL Prawdopodobieństwo genotypu
lekarz ogólny Prawdopodobieństwa a posteriori genotypu
GQ Warunkowa jakość genotypu
GT Genotyp
kwatera główna Jakość haplotypu
MQ Jakość mapowania RMS
PL Prawdopodobieństwo genotypu w skali Phreda zaokrąglone do najbliższej liczby całkowitej
PQ Jakość fazowania
PS Zestaw faz

Wszelkie inne pola formatu są zdefiniowane w nagłówku .vcf.

Zobacz też

  • Format FASTA używany do reprezentowania sekwencji genomu.
  • Format FASTQ używany do reprezentowania odczytów sekwencera DNA wraz z wynikami jakości.
  • Format SAM używany do reprezentowania odczytów sekwencera genomu, które zostały dopasowane do sekwencji genomu.
  • Format GVF (Genome Variation Format), rozszerzenie oparte na formacie GFF3 .

Linki zewnętrzne