Wariant formatu wywołania
Rozszerzenie nazwy pliku |
vcf
|
---|---|
Opracowany przez | Narzędzia VCF |
Najnowsze wydanie | 4.3 13 stycznia 2021 r. |
Typ formatu | Format sekwencji genomowej |
Przedłużony od | Wartości oddzielone tabulatorami |
Otwarty format ? | Tak |
Strona internetowa |
Variant Call Format ( VCF ) określa format pliku tekstowego używanego w bioinformatyce do przechowywania odmian sekwencji genów . Format został opracowany wraz z pojawieniem się wielkoskalowych genotypowania i sekwencjonowania DNA , takich jak 1000 Genomes Project . Istniejące formaty danych genetycznych, takie jak ogólny format cech (GFF) przechowywał wszystkie dane genetyczne, z których większość jest zbędna, ponieważ będą współużytkowane przez genomy. Używając formatu wywołania wariantów, należy przechowywać tylko odmiany wraz z genomem referencyjnym.
Standard jest obecnie w wersji 4.3, chociaż projekt 1000 genomów opracował własną specyfikację dla zmian strukturalnych, takich jak duplikacje, które nie są łatwe do uwzględnienia w istniejącym schemacie. Istnieje również genomowego VCF ( gVCF ), który zawiera dodatkowe informacje o „blokach” pasujących do odniesienia i ich właściwościach. Dostępny jest również zestaw narzędzi do edycji i manipulowania plikami.
Przykład
##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig= ##phasing=częściowe ##INFO= ##INFORMACJE= ##INFORMACJE= ##INFORMACJE= ##INFORMACJE= ##INFORMACJE= ##FILTR= ##FILTR= ##FORMAT= ##FORMAT= ##FORMAT= ##FORMAT= #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 GA 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51 ,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . TA 3 q10 NS=3;DP=11;AF=0,017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 AG,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2 :0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
Nagłówek VCF
Nagłówek rozpoczyna plik i zawiera metadane opisujące treść pliku. Linie nagłówka są oznaczone jako rozpoczynające się od # . Specjalne słowa kluczowe w nagłówku są oznaczone ## . Zalecane słowa kluczowe to fileformat , fileDate i reference .
Nagłówek zawiera słowa kluczowe, które opcjonalnie semantycznie i składniowo opisują pola używane w treści pliku, w szczególności INFO, FILTER i FORMAT (patrz poniżej).
Kolumny VCF
Treść VCF następuje po nagłówku i jest podzielona tabulatorami na 8 obowiązkowych kolumn i nieograniczoną liczbę opcjonalnych kolumn, których można użyć do zapisania innych informacji o próbce (próbkach). Gdy używane są dodatkowe kolumny, pierwsza opcjonalna kolumna służy do opisania formatu danych w kolejnych kolumnach.
Nazwa | Krótki opis (szczegóły w specyfikacji). | |
---|---|---|
1 | CHROM | Nazwa sekwencji (zwykle chromosomu), na której wywoływana jest odmiana. Ta sekwencja jest zwykle nazywana „sekwencją referencyjną”, tj. sekwencją, względem której różni się dana próbka. |
2 | punkt sprzedaży | Pozycja oparta na 1 wariacji w danej sekwencji. |
3 | ID | Identyfikator odmiany, np. identyfikator dbSNP rs lub, jeśli jest nieznany, „.”. Wiele identyfikatorów należy oddzielić średnikami bez spacji. |
4 | REF | Podstawa odniesienia (lub podstawy w przypadku indel ) w danej pozycji w danej sekwencji odniesienia. |
5 | ALT | Lista alternatywnych alleli w tej pozycji. |
6 | JAKOŚĆ | Wynik jakości powiązany z wnioskowaniem danych alleli. |
7 | FILTR | Flaga wskazująca, który z danego zestawu filtrów wariacja się nie powiodła lub PASS, jeśli wszystkie filtry przeszły pomyślnie. |
8 | INFORMACJE | Rozszerzalna lista par klucz-wartość (pól) opisujących odmianę. Poniżej znajdziesz niektóre typowe pola. Wiele pól jest oddzielonych średnikami z opcjonalnymi wartościami w formacie: <key>=<data>[,data] . |
9 | FORMAT | (Opcjonalna) rozszerzalna lista pól do opisu próbek. Poniżej znajdziesz niektóre typowe pola. |
+ | PRÓBKI | Dla każdej (nieobowiązkowej) próbki opisanej w pliku podane są wartości dla pól wymienionych w FORMACIE |
Wspólne pola INFO
Dowolne klucze są dozwolone, chociaż następujące pola podrzędne są zarezerwowane (choć opcjonalne):
Nazwa | Krótki opis |
---|---|
AA | allel przodków |
AC | liczbę alleli w genotypach, dla każdego allelu ALT, w takiej samej kolejności, jak wymieniono |
AF | częstość alleli dla każdego allelu ALT w tej samej kolejności, jak wymieniono (użyj tego, gdy oszacowano na podstawie danych pierwotnych, a nie genotypów) |
JAKIŚ | całkowita liczba alleli w nazwanych genotypach |
BQ | Podstawowa jakość RMS na tej pozycji |
CYGARO | ciąg cygara opisujący sposób dopasowania alternatywnego allelu do allelu referencyjnego |
DB | członkostwo dbSNP |
DP | łączna głębokość próbek, np. DP=154 |
KONIEC | pozycja końcowa wariantu opisanego w tym zapisie (do użytku z allelami symbolicznymi) |
H2 | członkostwo w hapmap2 |
H3 | członkostwo w hapmap3 |
MQ | Jakość odwzorowania RMS, np. MQ=52 |
MQ0 | Liczba odczytów MAPQ == 0 obejmujących ten rekord |
NS | Liczba próbek z danymi |
SB | nachylenie nici w tej pozycji |
SOMATYCZNY | wskazuje, że zapis jest mutacją somatyczną, dla genomiki raka |
ZATWIERDZONO | potwierdzone eksperymentem kontrolnym |
1000G | przynależność do 1000 genomów |
Wszelkie inne pola informacyjne są zdefiniowane w nagłówku .vcf.
Typowe pola FORMATU
Nazwa | Krótki opis |
---|---|
OGŁOSZENIE | Odczytaj głębokość dla każdego allelu |
ADF | Odczytaj głębokość dla każdego allelu na przedniej nici |
ADR | Odczytaj głębokość dla każdego allelu na odwrotnej nici |
DP | Głębokość odczytu |
WE | Oczekiwane alternatywne liczby alleli |
FT | Filtr wskazujący, czy ten genotyp został „nazwany” |
GL | Prawdopodobieństwo genotypu |
lekarz ogólny | Prawdopodobieństwa a posteriori genotypu |
GQ | Warunkowa jakość genotypu |
GT | Genotyp |
kwatera główna | Jakość haplotypu |
MQ | Jakość mapowania RMS |
PL | Prawdopodobieństwo genotypu w skali Phreda zaokrąglone do najbliższej liczby całkowitej |
PQ | Jakość fazowania |
PS | Zestaw faz |
Wszelkie inne pola formatu są zdefiniowane w nagłówku .vcf.
Zobacz też
- Format FASTA używany do reprezentowania sekwencji genomu.
- Format FASTQ używany do reprezentowania odczytów sekwencera DNA wraz z wynikami jakości.
- Format SAM używany do reprezentowania odczytów sekwencera genomu, które zostały dopasowane do sekwencji genomu.
- Format GVF (Genome Variation Format), rozszerzenie oparte na formacie GFF3 .
- Global Alliance for Genomics and Health (GA4GH) , grupa prowadząca zarządzanie i rozwój formatu VCF. Specyfikacja VCF nie jest już obsługiwana przez projekt 1000 genomów.
Linki zewnętrzne
- Wyjaśnienie formatu w formie obrazkowej
- Ossola, Alexandra (20 marca 2015). „Wyścig, aby zbudować wyszukiwarkę dla swojego DNA” . widmo IEEE . Źródło 22 marca 2015 r .