GeneMark
Oryginalni autorzy | Grupa bioinformatyczna Marka Borodowskiego |
---|---|
Deweloperzy | Georgia Institute of Technology |
Pierwsze wydanie | 1993 |
System operacyjny | Linux , Windows i Mac OS |
Licencja | Bezpłatna wersja binarna tylko do użytku akademickiego, non-profit lub rządu USA |
Strona internetowa | opal.biology.gatech.edu/GeneMark |
GeneMark to ogólna nazwa rodziny programów do przewidywania genów ab initio opracowanych w Georgia Institute of Technology w Atlancie . Opracowany w 1993 r., oryginalny GeneMark został użyty w 1995 r. jako podstawowe narzędzie do przewidywania genów do adnotacji pierwszego całkowicie zsekwencjonowanego genomu bakteryjnego Haemophilus influenzae , aw 1996 r. do pierwszego archeologicznego genomu Methanococcus jannaschii . Algorytm wprowadził niejednorodne trzyokresowe modele łańcuchów Markowa sekwencji DNA kodującej białka , które stały się standardem w przewidywaniu genów, a także Bayesowskie podejście do przewidywania genów w dwóch niciach DNA jednocześnie. Specyficzne dla gatunku parametry modeli oszacowano na podstawie zestawów treningowych sekwencji znanego typu (kodujących i niekodujących białek). Główny krok algorytmu oblicza dla danego fragmentu DNA późniejsze prawdopodobieństwa bycia „kodującym białko” (przenoszącym kod genetyczny ) w każdej z sześciu możliwych ramek odczytu (w tym trzech ramek w komplementarnej nici DNA) lub bycia „niekodującym” . Oryginalny GeneMark (opracowany przed erą HMM w bioinformatyce) to algorytm podobny do HMM; można go traktować jako przybliżenie znanego w teorii HMM algorytmu dekodowania a posteriori dla odpowiednio zdefiniowanego HMM.
Przewidywanie genów prokariotycznych
Algorytm GeneMark.hmm (1998) został zaprojektowany w celu poprawy dokładności przewidywania genów w znajdowaniu krótkich genów i startów genów. Pomysł polegał na zintegrowaniu modeli łańcuchów Markowa używanych w GeneMark w ramach ukrytego modelu Markowa , z przejściem między regionami kodującymi i niekodującymi formalnie interpretowanymi jako przejścia między stanami ukrytymi. Dodatkowo wykorzystano model miejsca wiązania rybosomu , aby poprawić dokładność przewidywania startu genu. Kolejnym krokiem było opracowanie samouczącego się narzędzia do przewidywania genów GeneMarkS (2001). GeneMarkS jest aktywnie używany przez społeczność genomiczną do identyfikacji genów w nowych prokariotycznych sekwencjach genomowych. GeneMarkS+, rozszerzenie GeneMarkS integrujące informacje o białkach homologicznych do przewidywania genów, jest wykorzystywane w potoku NCBI do adnotacji genomów prokariotycznych; rurociąg może opisywać do 2000 genomów dziennie ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).
Modele heurystyczne i przewidywanie genów w metagenomach i metatransciptomach
Dokładna identyfikacja specyficznych dla gatunku parametrów algorytmów GeneMark i GeneMark.hmm była kluczowym warunkiem dokonania dokładnych prognoz genetycznych. Postawiono jednak pytanie, motywowane badaniami genomów wirusowych, jak zdefiniować parametry do przewidywania genów w raczej krótkiej sekwencji, która nie ma dużego kontekstu genomicznego. W 1999 r. zajęto się tym zagadnieniem, opracowując „metodę heurystyczną” obliczeń parametrów jako funkcji zawartości sekwencji G+C. Od 2004 roku do wyszukiwania genów w sekwencjach metagenomicznych wykorzystywane są modele zbudowane metodą heurystyczną. Następnie analiza kilkuset genomów prokariotycznych doprowadziła w 2010 roku do opracowania bardziej zaawansowanej metody heurystycznej (zaimplementowanej w MetaGeneMark).
Przewidywanie genów eukariotycznych
W genomach eukariotycznych modelowanie granic eksonów z intronami i regionami międzygenowymi stanowi główne wyzwanie, któremu można sprostać dzięki zastosowaniu HMM. Architektura HMM eukariotycznego GeneMark.hmm obejmuje stany ukryte dla eksonów początkowych, wewnętrznych i końcowych, intronów , regionów międzygenowych i genów pojedynczych egzonów zlokalizowanych w obu niciach DNA. Wstępny eukariotyczny GeneMark.hmm potrzebował zestawów treningowych do oszacowania parametrów algorytmu. W 2005 roku powstała pierwsza wersja samouczącego się algorytmu GeneMark-ES. W 2008 roku algorytm GeneMark-ES został rozszerzony na genomy grzybów poprzez opracowanie specjalnego modelu intronu i bardziej złożonej strategii samokształcenia. Następnie, w 2014 r., do rodziny dodano algorytm GeneMark-ET, który rozszerzył samokształcenie o informacje ze zmapowanych do genomu niezłożonych odczytów RNA-Seq. Przewidywanie genów w transkryptach eukariotycznych można przeprowadzić za pomocą nowego algorytmu GeneMarkS-T (2015)
Rodzina programów przewidywania genów GeneMark
Bakterie, Archeony
- GeneMark
- GeneMark S
- GeneMarkS+
Metagenomy i metatranskryptomy
- MetaGeneMark
eukarionty
- GeneMark
- GeneMark.hmm
- GeneMark-ES: algorytm wyszukiwania genów dla genomów eukariotycznych, który przeprowadza automatyczne szkolenie w trybie ab initio bez nadzoru.
- GeneMark-ET: rozszerza GeneMark-ES o nowatorską metodę, która integruje dopasowanie odczytu RNA-Seq z procedurą samouczenia.
- GeneMark-EX: w pełni automatyczne zintegrowane narzędzie do adnotacji genomu, które wykazuje solidną wydajność w danych wejściowych o różnej wielkości, strukturze i jakości. Algorytm dobiera podejście do estymacji parametrów w zależności od objętości, jakości i cech danych wejściowych, wielkości zbioru danych RNA-seq, pozycji filogenetycznej gatunku, stopnia fragmentacji złożenia. Jest w stanie automatycznie modyfikować architekturę HMM, aby pasowała do cech danego genomu i integrować informacje o transkryptach i białkach w procesie przewidywania genów.
Wirusy, fagi i plazmidy
- Modele heurystyczne
Transkrypcje zebrane z odczytu RNA-Seq
- GeneMark ST
Zobacz też
- Borodovsky M. i McIninch J. „ GeneMark: równoległe rozpoznawanie genów dla obu nici DNA ” . Computers & Chemistry (1993) 17 (2): 123–133.
- Lukashin A. i Borodovsky M. „ GeneMark.hmm: nowe rozwiązania do wyszukiwania genów ” . Nucleic Acids Research (1998) 26 (4): 1107–1115. doi : 10.1093/nar/26.4.1107
- Besemer J. i Borodovsky M. „ Heurystyczne podejście do wyprowadzania modeli do wyszukiwania genów ” . Nucleic Acids Research (1999) 27 (19): 3911–3920. doi : 10.1093/nar/27.19.3911
- Besemer J., Lomsadze A. i Borodovsky M. „ GeneMarkS: samoucząca się metoda przewidywania startów genów w genomach drobnoustrojów. Implikacje dla znajdowania motywów sekwencji w regionach regulatorowych”. „ Nucleic Acids Research (2001) 29 (12): 2607 –2618. doi : 10.1093/nar/29.12.2607
- Mills R., Rozanov M., Lomsadze A., Tatusova T. i Borodovsky M. „ Poprawa adnotacji genów w kompletnych genomach wirusowych ” . Badania kwasów nukleinowych (2003) 31 (23): 7041–7055. doi : 10.1093/nar/gkg878
- Besemer J. i Borodovsky M. „ GeneMark: oprogramowanie internetowe do znajdowania genów u prokariotów, eukariotów i wirusów ” . Badania kwasów nukleinowych (2005) 33 (wydanie serwera internetowego): W451-454. doi : 10.1093/nar/gki487
- Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. i Borodovsky M. „ Identyfikacja genów w nowych genomach eukariotycznych za pomocą algorytmu samouczącego ” . Nucleic Acids Research (2005) 33 (20): 6494–6506. doi : 10.1093/nar/gki937
- Zhu W., Lomsadze A. i Borodovsky M. „ Identyfikacja genów Ab initio w sekwencjach metagenomicznych ” . Badania kwasów nukleinowych (2010) 38 (12): e132. doi : 10.1093/nar/gkq275