Ogólny format funkcji
Rozszerzenia nazw plików |
.gff
|
---|---|
Rodzaj mediów internetowych |
tekst/gff3
|
Opracowany przez | Sanger Center (v2), Sequence Ontology Project (v3) |
Typ formatu | Bioinformatyka |
Przedłużony od | Wartości oddzielone tabulatorami |
Otwarty format ? | Tak |
Strona internetowa |
W bioinformatyce ogólny format cech ( format wyszukiwania genów , ogólny format cech , GFF ) to format pliku używany do opisywania genów i innych cech sekwencji DNA , RNA i białek .
Wersje GFF
Istnieją następujące wersje GFF:
-
General Feature Format Version 2 , ogólnie przestarzały
- Gene Transfer Format 2.2 , pochodna używana przez Ensembl
-
Generic Feature Format Version 3
- Genome Variation Format , z dodatkowymi pragmami i atrybutami dla funkcji sequence_alteration
GFF2/GTF miał szereg braków, w szczególności to, że może reprezentować tylko dwupoziomowe hierarchie cech, a zatem nie może obsłużyć trzypoziomowej hierarchii gen → transkrypt → ekson. GFF3 rozwiązuje ten i inne niedociągnięcia. Na przykład obsługuje dowolnie wiele poziomów hierarchicznych i nadaje określone znaczenie niektórym znacznikom w polu atrybutów.
GTF jest identyczny z GFF, wersja 2 .
Ogólna struktura GFF
Wszystkie formaty GFF (GFF2, GFF3 i GTF) są rozdzielane tabulatorami z 9 polami w wierszu. Wszystkie mają tę samą strukturę pierwszych 7 pól, różnią się natomiast zawartością i formatem dziewiątego pola . Niektóre nazwy pól zostały zmienione w GFF3, aby uniknąć nieporozumień. Na przykład pole „sekwencja” było wcześniej określane jako „sekwencja”, co można pomylić z łańcuchem nukleotydów lub aminokwasów. Ogólna struktura jest następująca:
Indeks pozycji | Nazwa stanowiska | Opis |
---|---|---|
1 | nast | Nazwa sekwencji, w której znajduje się obiekt. |
2 | źródło | Słowo kluczowe identyfikujące źródło funkcji, np. program (np. Augustus lub RepeatMasker) lub organizację (np. TAIR ). |
3 | typ | Nazwa typu cechy, na przykład „gen” lub „egzon”. W dobrze ustrukturyzowanym pliku GFF wszystkie cechy potomne zawsze podążają za swoimi rodzicami w jednym bloku (tak więc wszystkie egzony transkryptu są umieszczane po ich macierzystej linii „transkryptu” i przed jakąkolwiek inną nadrzędną linią transkrypcji). W GFF3 wszystkie funkcje i ich relacje powinny być zgodne ze standardami wydanymi przez Sequence Ontology Project . |
4 | początek | Genomowy początek cechy, z przesunięciem o 1 zasadę . Kontrastuje to z innymi półotwartymi formatami sekwencji z przesunięciem 0, takimi jak BED . |
5 | koniec | Genomowy koniec cechy, z przesunięciem o 1 zasadę . Jest to ta sama współrzędna końcowa, co w formatach sekwencji półotwartych z przesunięciem 0, takich jak BED . [ potrzebne źródło ] |
6 | wynik | Wartość liczbowa, która ogólnie wskazuje na zaufanie źródła do obiektu z adnotacjami. Wartość „.” (kropka) służy do definiowania wartości pustej. |
7 | pasmo | Pojedynczy znak wskazujący pasmo cechy; może przyjmować wartości „+” (dodatnie lub 5'->3'), „-”, (ujemne lub 3'->5'), „.” (nieokreślony). |
8 | faza | faza funkcji CDS; może to być jedna z wartości 0, 1, 2 (dla funkcji CDS) lub „.” (za wszystko inne). Szczegółowe wyjaśnienie znajduje się w sekcji poniżej. |
9 | atrybuty | Wszystkie inne informacje dotyczące tej funkcji. Format, struktura i zawartość tego pola najbardziej różnią się między trzema konkurencyjnymi formatami plików. |
Pole ósme: faza funkcji CDS
Mówiąc najprościej, CDS oznacza „sekwencję kodowania”. Dokładne znaczenie tego terminu jest zdefiniowane przez Sequence Ontology (SO). Zgodnie ze GFF3 :
Dla cech typu „CDS” faza wskazuje, gdzie zaczyna się cecha w odniesieniu do ramki odczytu. Faza jest jedną z liczb całkowitych 0, 1 lub 2, wskazującą liczbę zasad, które należy usunąć z początku tej cechy, aby dotrzeć do pierwszej zasady następnego kodonu.
MetaDyrektywy
W plikach GFF można dołączyć dodatkowe metainformacje, które następują po dyrektywie ##. Te metainformacje mogą wyszczególniać wersję GFF, region sekwencji lub gatunek (pełną listę typów metadanych można znaleźć w specyfikacji Sequence Ontology ).
oprogramowanie GFF
Serwery
Serwery generujące ten format:
serwer | Przykładowy plik |
---|---|
UniProt | [1] |
Klienci
Klienci korzystający z tego formatu:
Nazwa | Opis | Spinki do mankietów |
---|---|---|
GBprzeglądaj | Przeglądarka genomu GMOD | GBprzeglądaj |
IGB | Zintegrowana przeglądarka genomu | Zintegrowana przeglądarka genomu |
Jalview | Edytor i przeglądarka dopasowywania wielu sekwencji | Jalview |
PASEK | Podkreślenie cech sekwencji w wielu dopasowaniach. Przykładowe wyjście: [2] | [3] |
JPrzeglądaj | JBrowse to szybka, przystosowana do osadzania przeglądarka genomów, zbudowana całkowicie z JavaScript i HTML5 | JBrowse.org |
ZENBU | Współpracujący, omiczny system integracji danych i interaktywnej wizualizacji | [4] |
Walidacja
ramach projektu modENCODE dostępne jest narzędzie online do sprawdzania poprawności GFF3 z hojnymi limitami 286,10 MB i 15 milionami wierszy.
Kolekcja oprogramowania Genome Tools zawiera narzędzie gff3validator , którego można używać w trybie offline do sprawdzania poprawności i ewentualnie porządkowania plików GFF3. Dostępna jest również usługa walidacji online .
Zobacz też
- Rozproszony system adnotacji
- Wariant formatu wywołania
- Wyrównanie sekwencji
- ^ Informacje GFF/GTF , z Ensembl
- ^ „Specyfikacja GFF3” . GitHub . 2018-11-24.
- Bibliografia _ _