GeneMark

GeneMark
Oryginalni autorzy Grupa bioinformatyczna Marka Borodowskiego
Deweloperzy Georgia Institute of Technology
Pierwsze wydanie 1993
System operacyjny Linux , Windows i Mac OS
Licencja Bezpłatna wersja binarna tylko do użytku akademickiego, non-profit lub rządu USA
Strona internetowa opal.biology.gatech.edu/GeneMark

GeneMark to ogólna nazwa rodziny programów do przewidywania genów ab initio opracowanych w Georgia Institute of Technology w Atlancie . Opracowany w 1993 r., oryginalny GeneMark został użyty w 1995 r. jako podstawowe narzędzie do przewidywania genów do adnotacji pierwszego całkowicie zsekwencjonowanego genomu bakteryjnego Haemophilus influenzae , aw 1996 r. do pierwszego archeologicznego genomu Methanococcus jannaschii . Algorytm wprowadził niejednorodne trzyokresowe modele łańcuchów Markowa sekwencji DNA kodującej białka , które stały się standardem w przewidywaniu genów, a także Bayesowskie podejście do przewidywania genów w dwóch niciach DNA jednocześnie. Specyficzne dla gatunku parametry modeli oszacowano na podstawie zestawów treningowych sekwencji znanego typu (kodujących i niekodujących białek). Główny krok algorytmu oblicza dla danego fragmentu DNA późniejsze prawdopodobieństwa bycia „kodującym białko” (przenoszącym kod genetyczny ) w każdej z sześciu możliwych ramek odczytu (w tym trzech ramek w komplementarnej nici DNA) lub bycia „niekodującym” . Oryginalny GeneMark (opracowany przed erą HMM w bioinformatyce) to algorytm podobny do HMM; można go traktować jako przybliżenie znanego w teorii HMM algorytmu dekodowania a posteriori dla odpowiednio zdefiniowanego HMM.

Przewidywanie genów prokariotycznych

Algorytm GeneMark.hmm (1998) został zaprojektowany w celu poprawy dokładności przewidywania genów w znajdowaniu krótkich genów i startów genów. Pomysł polegał na zintegrowaniu modeli łańcuchów Markowa używanych w GeneMark w ramach ukrytego modelu Markowa , z przejściem między regionami kodującymi i niekodującymi formalnie interpretowanymi jako przejścia między stanami ukrytymi. Dodatkowo wykorzystano model miejsca wiązania rybosomu , aby poprawić dokładność przewidywania startu genu. Kolejnym krokiem było opracowanie samouczącego się narzędzia do przewidywania genów GeneMarkS (2001). GeneMarkS jest aktywnie używany przez społeczność genomiczną do identyfikacji genów w nowych prokariotycznych sekwencjach genomowych. GeneMarkS+, rozszerzenie GeneMarkS integrujące informacje o białkach homologicznych do przewidywania genów, jest wykorzystywane w potoku NCBI do adnotacji genomów prokariotycznych; rurociąg może opisywać do 2000 genomów dziennie ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Modele heurystyczne i przewidywanie genów w metagenomach i metatransciptomach

Dokładna identyfikacja specyficznych dla gatunku parametrów algorytmów GeneMark i GeneMark.hmm była kluczowym warunkiem dokonania dokładnych prognoz genetycznych. Postawiono jednak pytanie, motywowane badaniami genomów wirusowych, jak zdefiniować parametry do przewidywania genów w raczej krótkiej sekwencji, która nie ma dużego kontekstu genomicznego. W 1999 r. zajęto się tym zagadnieniem, opracowując „metodę heurystyczną” obliczeń parametrów jako funkcji zawartości sekwencji G+C. Od 2004 roku do wyszukiwania genów w sekwencjach metagenomicznych wykorzystywane są modele zbudowane metodą heurystyczną. Następnie analiza kilkuset genomów prokariotycznych doprowadziła w 2010 roku do opracowania bardziej zaawansowanej metody heurystycznej (zaimplementowanej w MetaGeneMark).

Przewidywanie genów eukariotycznych

W genomach eukariotycznych modelowanie granic eksonów z intronami i regionami międzygenowymi stanowi główne wyzwanie, któremu można sprostać dzięki zastosowaniu HMM. Architektura HMM eukariotycznego GeneMark.hmm obejmuje stany ukryte dla eksonów początkowych, wewnętrznych i końcowych, intronów , regionów międzygenowych i genów pojedynczych egzonów zlokalizowanych w obu niciach DNA. Wstępny eukariotyczny GeneMark.hmm potrzebował zestawów treningowych do oszacowania parametrów algorytmu. W 2005 roku powstała pierwsza wersja samouczącego się algorytmu GeneMark-ES. W 2008 roku algorytm GeneMark-ES został rozszerzony na genomy grzybów poprzez opracowanie specjalnego modelu intronu i bardziej złożonej strategii samokształcenia. Następnie, w 2014 r., do rodziny dodano algorytm GeneMark-ET, który rozszerzył samokształcenie o informacje ze zmapowanych do genomu niezłożonych odczytów RNA-Seq. Przewidywanie genów w transkryptach eukariotycznych można przeprowadzić za pomocą nowego algorytmu GeneMarkS-T (2015)


Rodzina programów przewidywania genów GeneMark

Bakterie, Archeony

  • GeneMark
  • GeneMark S
  • GeneMarkS+

Metagenomy i metatranskryptomy

  • MetaGeneMark

eukarionty

  • GeneMark
  • GeneMark.hmm
  • GeneMark-ES: algorytm wyszukiwania genów dla genomów eukariotycznych, który przeprowadza automatyczne szkolenie w trybie ab initio bez nadzoru.
  • GeneMark-ET: rozszerza GeneMark-ES o nowatorską metodę, która integruje dopasowanie odczytu RNA-Seq z procedurą samouczenia.
  • GeneMark-EX: w pełni automatyczne zintegrowane narzędzie do adnotacji genomu, które wykazuje solidną wydajność w danych wejściowych o różnej wielkości, strukturze i jakości. Algorytm dobiera podejście do estymacji parametrów w zależności od objętości, jakości i cech danych wejściowych, wielkości zbioru danych RNA-seq, pozycji filogenetycznej gatunku, stopnia fragmentacji złożenia. Jest w stanie automatycznie modyfikować architekturę HMM, aby pasowała do cech danego genomu i integrować informacje o transkryptach i białkach w procesie przewidywania genów.

Wirusy, fagi i plazmidy

  • Modele heurystyczne

Transkrypcje zebrane z odczytu RNA-Seq

  • GeneMark ST

Zobacz też

Linki zewnętrzne