GeneMark

GeneMark
Oryginalni autorzy	Grupa bioinformatyczna Marka Borodowskiego
Deweloperzy	Georgia Institute of Technology
Pierwsze wydanie	1993
System operacyjny	Linux , Windows i Mac OS
Licencja	Bezpłatna wersja binarna tylko do użytku akademickiego, non-profit lub rządu USA
Strona internetowa	opal.biology.gatech.edu/GeneMark

GeneMark to ogólna nazwa rodziny programów do przewidywania genów ab initio opracowanych w Georgia Institute of Technology w Atlancie . Opracowany w 1993 r., oryginalny GeneMark został użyty w 1995 r. jako podstawowe narzędzie do przewidywania genów do adnotacji pierwszego całkowicie zsekwencjonowanego genomu bakteryjnego Haemophilus influenzae , aw 1996 r. do pierwszego archeologicznego genomu Methanococcus jannaschii . Algorytm wprowadził niejednorodne trzyokresowe modele łańcuchów Markowa sekwencji DNA kodującej białka , które stały się standardem w przewidywaniu genów, a także Bayesowskie podejście do przewidywania genów w dwóch niciach DNA jednocześnie. Specyficzne dla gatunku parametry modeli oszacowano na podstawie zestawów treningowych sekwencji znanego typu (kodujących i niekodujących białek). Główny krok algorytmu oblicza dla danego fragmentu DNA późniejsze prawdopodobieństwa bycia „kodującym białko” (przenoszącym kod genetyczny ) w każdej z sześciu możliwych ramek odczytu (w tym trzech ramek w komplementarnej nici DNA) lub bycia „niekodującym” . Oryginalny GeneMark (opracowany przed erą HMM w bioinformatyce) to algorytm podobny do HMM; można go traktować jako przybliżenie znanego w teorii HMM algorytmu dekodowania a posteriori dla odpowiednio zdefiniowanego HMM.

Przewidywanie genów prokariotycznych

Algorytm GeneMark.hmm (1998) został zaprojektowany w celu poprawy dokładności przewidywania genów w znajdowaniu krótkich genów i startów genów. Pomysł polegał na zintegrowaniu modeli łańcuchów Markowa używanych w GeneMark w ramach ukrytego modelu Markowa , z przejściem między regionami kodującymi i niekodującymi formalnie interpretowanymi jako przejścia między stanami ukrytymi. Dodatkowo wykorzystano model miejsca wiązania rybosomu , aby poprawić dokładność przewidywania startu genu. Kolejnym krokiem było opracowanie samouczącego się narzędzia do przewidywania genów GeneMarkS (2001). GeneMarkS jest aktywnie używany przez społeczność genomiczną do identyfikacji genów w nowych prokariotycznych sekwencjach genomowych. GeneMarkS+, rozszerzenie GeneMarkS integrujące informacje o białkach homologicznych do przewidywania genów, jest wykorzystywane w potoku NCBI do adnotacji genomów prokariotycznych; rurociąg może opisywać do 2000 genomów dziennie ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Modele heurystyczne i przewidywanie genów w metagenomach i metatransciptomach

Dokładna identyfikacja specyficznych dla gatunku parametrów algorytmów GeneMark i GeneMark.hmm była kluczowym warunkiem dokonania dokładnych prognoz genetycznych. Postawiono jednak pytanie, motywowane badaniami genomów wirusowych, jak zdefiniować parametry do przewidywania genów w raczej krótkiej sekwencji, która nie ma dużego kontekstu genomicznego. W 1999 r. zajęto się tym zagadnieniem, opracowując „metodę heurystyczną” obliczeń parametrów jako funkcji zawartości sekwencji G+C. Od 2004 roku do wyszukiwania genów w sekwencjach metagenomicznych wykorzystywane są modele zbudowane metodą heurystyczną. Następnie analiza kilkuset genomów prokariotycznych doprowadziła w 2010 roku do opracowania bardziej zaawansowanej metody heurystycznej (zaimplementowanej w MetaGeneMark).

Przewidywanie genów eukariotycznych

W genomach eukariotycznych modelowanie granic eksonów z intronami i regionami międzygenowymi stanowi główne wyzwanie, któremu można sprostać dzięki zastosowaniu HMM. Architektura HMM eukariotycznego GeneMark.hmm obejmuje stany ukryte dla eksonów początkowych, wewnętrznych i końcowych, intronów , regionów międzygenowych i genów pojedynczych egzonów zlokalizowanych w obu niciach DNA. Wstępny eukariotyczny GeneMark.hmm potrzebował zestawów treningowych do oszacowania parametrów algorytmu. W 2005 roku powstała pierwsza wersja samouczącego się algorytmu GeneMark-ES. W 2008 roku algorytm GeneMark-ES został rozszerzony na genomy grzybów poprzez opracowanie specjalnego modelu intronu i bardziej złożonej strategii samokształcenia. Następnie, w 2014 r., do rodziny dodano algorytm GeneMark-ET, który rozszerzył samokształcenie o informacje ze zmapowanych do genomu niezłożonych odczytów RNA-Seq. Przewidywanie genów w transkryptach eukariotycznych można przeprowadzić za pomocą nowego algorytmu GeneMarkS-T (2015)

Rodzina programów przewidywania genów GeneMark

Bakterie, Archeony

GeneMark
GeneMark S
GeneMarkS+

Metagenomy i metatranskryptomy

MetaGeneMark

eukarionty

GeneMark
GeneMark.hmm
GeneMark-ES: algorytm wyszukiwania genów dla genomów eukariotycznych, który przeprowadza automatyczne szkolenie w trybie ab initio bez nadzoru.
GeneMark-ET: rozszerza GeneMark-ES o nowatorską metodę, która integruje dopasowanie odczytu RNA-Seq z procedurą samouczenia.
GeneMark-EX: w pełni automatyczne zintegrowane narzędzie do adnotacji genomu, które wykazuje solidną wydajność w danych wejściowych o różnej wielkości, strukturze i jakości. Algorytm dobiera podejście do estymacji parametrów w zależności od objętości, jakości i cech danych wejściowych, wielkości zbioru danych RNA-seq, pozycji filogenetycznej gatunku, stopnia fragmentacji złożenia. Jest w stanie automatycznie modyfikować architekturę HMM, aby pasowała do cech danego genomu i integrować informacje o transkryptach i białkach w procesie przewidywania genów.

Wirusy, fagi i plazmidy

Modele heurystyczne

Transkrypcje zebrane z odczytu RNA-Seq

GeneMark ST

Zobacz też

Borodovsky M. i McIninch J. „ GeneMark: równoległe rozpoznawanie genów dla obu nici DNA ” . Computers & Chemistry (1993) 17 (2): 123–133.
Lukashin A. i Borodovsky M. „ GeneMark.hmm: nowe rozwiązania do wyszukiwania genów ” . Nucleic Acids Research (1998) 26 (4): 1107–1115. doi : 10.1093/nar/26.4.1107
Besemer J. i Borodovsky M. „ Heurystyczne podejście do wyprowadzania modeli do wyszukiwania genów ” . Nucleic Acids Research (1999) 27 (19): 3911–3920. doi : 10.1093/nar/27.19.3911
Besemer J., Lomsadze A. i Borodovsky M. „ GeneMarkS: samoucząca się metoda przewidywania startów genów w genomach drobnoustrojów. Implikacje dla znajdowania motywów sekwencji w regionach regulatorowych”. „ Nucleic Acids Research (2001) 29 (12): 2607 –2618. doi : 10.1093/nar/29.12.2607
Mills R., Rozanov M., Lomsadze A., Tatusova T. i Borodovsky M. „ Poprawa adnotacji genów w kompletnych genomach wirusowych ” . Badania kwasów nukleinowych (2003) 31 (23): 7041–7055. doi : 10.1093/nar/gkg878
Besemer J. i Borodovsky M. „ GeneMark: oprogramowanie internetowe do znajdowania genów u prokariotów, eukariotów i wirusów ” . Badania kwasów nukleinowych (2005) 33 (wydanie serwera internetowego): W451-454. doi : 10.1093/nar/gki487
Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. i Borodovsky M. „ Identyfikacja genów w nowych genomach eukariotycznych za pomocą algorytmu samouczącego ” . Nucleic Acids Research (2005) 33 (20): 6494–6506. doi : 10.1093/nar/gki937
Zhu W., Lomsadze A. i Borodovsky M. „ Identyfikacja genów Ab initio w sekwencjach metagenomicznych ” . Badania kwasów nukleinowych (2010) 38 (12): e132. doi : 10.1093/nar/gkq275

Linki zewnętrzne

Oficjalna strona internetowa

^ "GeneMark.HMM eukariotyczny" .
^ „Zweryfikuj użytkownika” .
^ „GeneMark-ET - algorytm wyszukiwania genów dla genomów eukariotycznych | Blog RNA-Seq” . 9 lipca 2014 r.
^ https://pag.confex.com/pag/xxvi/meetingapp.cgi/Paper/31299 GeneMark-EX

[1] "GeneMark.HMM eukariotyczny" .

[2] „Zweryfikuj użytkownika” .

[3] „GeneMark-ET - algorytm wyszukiwania genów dla genomów eukariotycznych | Blog RNA-Seq” . 9 lipca 2014 r.

[4] ttps://pag.confex.com/pag/xxvi/meetingapp.cgi/Paper/31299 GeneMark-EX

Omika
Genomika	Genomika poznawcza Genomika obliczeniowa Genomika porównawcza Genomika funkcjonalna Projekt genomu Projekt genomu człowieka Metagenomics Human Microbiome Project Pangenomika Genomika osobista Genomika populacji Genomika społeczna Genomika strukturalna
Bioinformatyka	Biochip chemioinformatyka Chemogenomika Connectomics Human Connectome Project Epigenomics Human Epigenom Project Glikomiki Immunomika Lipidomika Metabolomika Mikrobiomika Nutrigenomika Paleopoliploidia Farmakogenetyka Farmakogenomika Biologia systemów Toksykogenomika Transkryptomika
Biologia strukturalna	Proteomika Projekt ludzkiego proteomu Proteomika mapy połączeń Projektowanie leków oparte na strukturze Proteomika ekspresji
Narzędzia badawcze	Elektroforeza 2-D Spektrometr masowy Jonizacja przez elektrorozpylanie Jonizacja desorpcyjna laserowa wspomagana matrycą Spektrometr masowy z jonizacją z desorpcją laserową wspomaganą matrycą i czasem przelotu Narzędzia oparte na mikroprzepływach Znaczniki powinowactwa izotopowego Przechwytywanie konformacji chromosomów
Organizacje	Bank Danych DNA Japonii (JP) Europejskie Laboratorium Biologii Molekularnej (UE) Narodowe Instytuty Zdrowia (USA) Instytut Wellcome Sanger (Wielka Brytania)
Lista Kategoria