Ogólny format funkcji

Ogólny format funkcji
Rozszerzenia nazw plików
.gff
Rodzaj mediów internetowych
tekst/gff3
Opracowany przez Sanger Center (v2), Sequence Ontology Project (v3)
Typ formatu Bioinformatyka
Przedłużony od Wartości oddzielone tabulatorami
Otwarty format ? Tak
Strona internetowa github .com /The-Sequence-Ontology /Specifications /blob /master /gff3 .md

W bioinformatyce ogólny format cech ( format wyszukiwania genów , ogólny format cech , GFF ) to format pliku używany do opisywania genów i innych cech sekwencji DNA , RNA i białek .

Wersje GFF

Istnieją następujące wersje GFF:

GFF2/GTF miał szereg braków, w szczególności to, że może reprezentować tylko dwupoziomowe hierarchie cech, a zatem nie może obsłużyć trzypoziomowej hierarchii gen → transkrypt → ekson. GFF3 rozwiązuje ten i inne niedociągnięcia. Na przykład obsługuje dowolnie wiele poziomów hierarchicznych i nadaje określone znaczenie niektórym znacznikom w polu atrybutów.

GTF jest identyczny z GFF, wersja 2 .

Ogólna struktura GFF

Wszystkie formaty GFF (GFF2, GFF3 i GTF) są rozdzielane tabulatorami z 9 polami w wierszu. Wszystkie mają tę samą strukturę pierwszych 7 pól, różnią się natomiast zawartością i formatem dziewiątego pola . Niektóre nazwy pól zostały zmienione w GFF3, aby uniknąć nieporozumień. Na przykład pole „sekwencja” było wcześniej określane jako „sekwencja”, co można pomylić z łańcuchem nukleotydów lub aminokwasów. Ogólna struktura jest następująca:

Ogólna struktura GFF3
Indeks pozycji Nazwa stanowiska Opis
1 nast Nazwa sekwencji, w której znajduje się obiekt.
2 źródło Słowo kluczowe identyfikujące źródło funkcji, np. program (np. Augustus lub RepeatMasker) lub organizację (np. TAIR ).
3 typ Nazwa typu cechy, na przykład „gen” lub „egzon”. W dobrze ustrukturyzowanym pliku GFF wszystkie cechy potomne zawsze podążają za swoimi rodzicami w jednym bloku (tak więc wszystkie egzony transkryptu są umieszczane po ich macierzystej linii „transkryptu” i przed jakąkolwiek inną nadrzędną linią transkrypcji). W GFF3 wszystkie funkcje i ich relacje powinny być zgodne ze standardami wydanymi przez Sequence Ontology Project .
4 początek Genomowy początek cechy, z przesunięciem o 1 zasadę . Kontrastuje to z innymi półotwartymi formatami sekwencji z przesunięciem 0, takimi jak BED .
5 koniec Genomowy koniec cechy, z przesunięciem o 1 zasadę . Jest to ta sama współrzędna końcowa, co w formatach sekwencji półotwartych z przesunięciem 0, takich jak BED . [ potrzebne źródło ]
6 wynik Wartość liczbowa, która ogólnie wskazuje na zaufanie źródła do obiektu z adnotacjami. Wartość „.” (kropka) służy do definiowania wartości pustej.
7 pasmo Pojedynczy znak wskazujący pasmo cechy; może przyjmować wartości „+” (dodatnie lub 5'->3'), „-”, (ujemne lub 3'->5'), „.” (nieokreślony).
8 faza faza funkcji CDS; może to być jedna z wartości 0, 1, 2 (dla funkcji CDS) lub „.” (za wszystko inne). Szczegółowe wyjaśnienie znajduje się w sekcji poniżej.
9 atrybuty Wszystkie inne informacje dotyczące tej funkcji. Format, struktura i zawartość tego pola najbardziej różnią się między trzema konkurencyjnymi formatami plików.

Pole ósme: faza funkcji CDS

Mówiąc najprościej, CDS oznacza „sekwencję kodowania”. Dokładne znaczenie tego terminu jest zdefiniowane przez Sequence Ontology (SO). Zgodnie ze GFF3 :

Dla cech typu „CDS” faza wskazuje, gdzie zaczyna się cecha w odniesieniu do ramki odczytu. Faza jest jedną z liczb całkowitych 0, 1 lub 2, wskazującą liczbę zasad, które należy usunąć z początku tej cechy, aby dotrzeć do pierwszej zasady następnego kodonu.

MetaDyrektywy

W plikach GFF można dołączyć dodatkowe metainformacje, które następują po dyrektywie ##. Te metainformacje mogą wyszczególniać wersję GFF, region sekwencji lub gatunek (pełną listę typów metadanych można znaleźć w specyfikacji Sequence Ontology ).

oprogramowanie GFF

Serwery

Serwery generujące ten format:

serwer Przykładowy plik
UniProt [1]

Klienci

Klienci korzystający z tego formatu:

Nazwa Opis Spinki do mankietów
GBprzeglądaj Przeglądarka genomu GMOD GBprzeglądaj
IGB Zintegrowana przeglądarka genomu Zintegrowana przeglądarka genomu
Jalview Edytor i przeglądarka dopasowywania wielu sekwencji Jalview
PASEK Podkreślenie cech sekwencji w wielu dopasowaniach. Przykładowe wyjście: [2] [3]
JPrzeglądaj JBrowse to szybka, przystosowana do osadzania przeglądarka genomów, zbudowana całkowicie z JavaScript i HTML5 JBrowse.org
ZENBU Współpracujący, omiczny system integracji danych i interaktywnej wizualizacji [4]

Walidacja

ramach projektu modENCODE dostępne jest narzędzie online do sprawdzania poprawności GFF3 z hojnymi limitami 286,10 MB i 15 milionami wierszy.

Kolekcja oprogramowania Genome Tools zawiera narzędzie gff3validator , którego można używać w trybie offline do sprawdzania poprawności i ewentualnie porządkowania plików GFF3. Dostępna jest również usługa walidacji online .

Zobacz też

  1. ^ Informacje GFF/GTF , z Ensembl
  2. ^ „Specyfikacja GFF3” . GitHub . 2018-11-24.
  3. Bibliografia _ _