GENSCAN
Deweloperzy | Krzysztofa Burge'a |
---|---|
Dostępne w | język angielski |
Typ | Narzędzie bioinformatyczne |
Strona internetowa |
W bioinformatyce GENSCAN jest programem służącym do identyfikacji kompletnych struktur genów w genomowym DNA . Jest to program oparty na G HMM , który można wykorzystać do przewidywania lokalizacji genów i ich granic ekson - intron w sekwencjach genomowych różnych organizmów. Serwer sieciowy GENSCAN można znaleźć w MIT .
GENSCAN został opracowany przez Christophera Burge'a w grupie badawczej Samuela Karlina na Uniwersytecie Stanforda .
Historia
W 2001 roku świat przewidywania ludzkich genów wkroczył do genomiki porównawczej . Doprowadziło to do opracowania programu o nazwie TWINSCAN jako adaptacji GENSCAN z większą dokładnością. Inne programy, takie jak N-SCAN, zostały później opracowane przez dalsze dostosowywanie modelu GHMM.
Od 2002 roku GENSCAN pozostawał popularnym narzędziem w bioinformatyce, stając się standardową funkcją genomów wydanych na University of California Santa Cruz i Ensembl Genome Browser .
Realizacja
Model genomowy
Głównym celem podczas opracowywania modelu sekwencji genomowej dla GENSCAN było zidentyfikowanie zarówno ogólnych, jak i specyficznych właściwości składających się na poszczególne jednostki funkcjonalne genów eukariotycznych ( np. egzony , introny , miejsca splicingowe , promotory ). Szczególny nacisk położono na cechy, które są rozpoznawane przez ogólną maszynerię transkrypcji, splicingu i translacji, która przetwarza większość wszystkich genów kodujących białka , w przeciwieństwie do sygnałów związanych z transkrypcją lub splicingiem genów i rodzin genów (np. TATA box ). Ponadto stosuje się ogólny trzyokresowy model regionów kodujących Markowa piątego rzędu w przeciwieństwie do modeli określonych motywów białkowych lub informacji o homologii bazy danych . Ponadto model uwzględnia różnice w strukturze i gęstości między regionami kompozycyjnymi ludzkiego genomu.
Dzięki wykorzystaniu tych elementów GENSCAN działa bez konieczności odwoływania się do podobnych genów w bazach danych sekwencji białek. Zamiast tego prognozy opracowane przez GENSCAN są komplementarne do tych zebranych za pomocą metod identyfikacji genów opartych na homologii (np. przeszukiwanie baz danych białek za pomocą BLASTX ). Ogólnie rzecz biorąc, struktura modelu używanego w GENSCAN jest podobna do ogólnego ukrytego modelu Markowa .
Cechy
Implementacja GENSCAN różni się od innych programów na wiele sposobów. Godną uwagi różnicą jest fakt, że GENSCAN wykorzystuje model sekwencji genomowej, który koncentruje się wyłącznie na dwuniciowym DNA , w którym jednocześnie analizowane są geny obecne na obu niciach. Ponadto GENSCAN jest w stanie analizować genomy w sytuacjach, w których występują częściowe geny lub nie ma genów, zamiast analizować tylko pojedyncze i kompletne sekwencje genów, jak inne programy w swoim czasie. Te dwa czynniki sprawiają, że GENSCAN jest szczególnie przydatny w analizie dłuższych ludzkich genomów. Ponadto GENSCAN wykorzystuje koncepcję rozkładu zależności maksymalnych, dzięki czemu można modelować sygnały funkcjonalne w sekwencjach DNA i białek, tworząc możliwość uwzględnienia przez program zależności między pozycjami sygnału. Jest to zaimplementowane w GENSCAN w taki sposób, że generowany jest model sygnału splicingu dawcy, przechwytujący zależności, które są związane z mechanizmami rozpoznawania miejsc splicingu dawcy w pre-mRNA .
GENSCAN ma możliwość obliczenia dokładności każdej z prognoz za pomocą algorytmu forward-backward .
Dodatkowym użytecznym elementem GENSCAN jest przewidywanie struktury i ogólnego składu ludzkich genów w odniesieniu do lokalizacji eksonów i genów w dłuższych sekwencjach. Istnieje kilka różnych funkcji, które są częścią tego. Jednym z nich jest możliwość uchwycenia różnic w strukturze i składzie genów między regionami C + G w ludzkim genomie przy użyciu zestawów empirycznie wygenerowanych parametrów modelu. Inną cechą pochodną jest, jak wspomniano wcześniej, przewidywanie wielu genów w sekwencji oprócz możliwości pracy z częściowymi genami i dwuniciowym DNA. Wreszcie, pozwala to również GENSCAN uchwycić zależności między pozycjami sygnału z nowymi modelami miejsc splicingu donora i akceptora.
Efektywność
Czas działania GENSCAN skaluje się prawie liniowo, gdy dostarczane są sekwencje o realistycznych rozmiarach (minimum kilka kilobitów), ale w najgorszym przypadku jest kwadratowy.
Dodatkowe użycie
GENSCAN, podobnie jak inne programy do przewidywania genomu, nie daje wyników całkowicie zgodnych z wynikami innych programów. Wynika to z wielu czynników, w tym między innymi: różnic w algorytmach, parametrach i zestawach treningowych. Dlatego GENSCAN został wykorzystany w praktyce łączenia wyników dwóch programów do przewidywania genów, tak że jeśli jeden program w kombinacji ma pewność co do przewidywania sekwencji, używana jest ta sekwencja. Z drugiej strony, jeśli żaden program nie jest pewny swoich przewidywań, przewidywana sekwencja jest używana tylko wtedy, gdy oba programy się na to zgadzają.
Dokładność
Przeprowadzono testy w celu oceny dokładności GENSCAN z krótkimi zestawami danych. Jeden test przeprowadzono na zbiorze danych Burset/Guigó zawierającym 570 wieloeksonowych sekwencji genów kręgowców. Dane uzyskane z tego testu przedstawiono w poniższej tabeli wraz z danymi uzyskanymi podczas testowania innych programów z tym samym zestawem danych. W tabeli pokazano, że GENSCAN jest generalnie dokładniejszy niż jego konkurenci w przewidywaniu sekwencji zarówno z nukleotydami , jak i eksonami.
Program | Sekwencje | Czułość nukleotydowa | Specyficzność nukleotydowa | Przybliżona korelacja nukleotydów | Współczynnik korelacji nukleotydów | Czułość egzonu | Specyficzność egzonu | Średnia egzonu | Pominięte eksony | Niewłaściwe eksony |
---|---|---|---|---|---|---|---|---|---|---|
GENSCAN | 570 | 0,93 | 0,93 | 0,91 | 0,92 | 0,78 | 0,81 | 0,80 | 0,09 | 0,05 |
FGENEH | 569 | 0,77 | 0,88 | 0,78 | 0,80 | 0,61 | 0,64 | 0,64 | 0,15 | 0,12 |
Identyfikator genu | 570 | 0,63 | 0,81 | 0,67 | 0,65 | 0,44 | 0,46 | 0,45 | 0,28 | 0,24 |
dżin | 570 | 0,76 | 0,77 | 0,72 | nie dotyczy | 0,55 | 0,48 | 0,51 | 0,17 | 0,33 |
GenLang | 570 | 0,72 | 0,79 | 0,69 | 0,71 | 0,51 | 0,52 | 0,52 | 0,21 | 0,22 |
GeneParser2 | 562 | 0,66 | 0,79 | 0,67 | 0,65 | 0,35 | 0,40 | 0,37 | 0,34 | 0,17 |
GRAIL2 | 570 | 0,72 | 0,87 | 0,75 | 0,76 | 0,36 | 0,43 | 0,40 | 0,25 | 0,11 |
SORFIND | 561 | 0,71 | 0,85 | 0,73 | 0,72 | 0,42 | 0,47 | 0,45 | 0,24 | 0,14 |
Xfunt | 570 | 0,61 | 0,87 | 0,68 | 0,69 | 0,15 | 0,18 | 0,17 | 0,33 | 0,13 |
Identyfikator genu+ | 478 | 0,91 | 0,91 | 0,88 | 0,88 | 0,73 | 0,70 | 0,71 | 0,07 | 0,13 |
GeneParser3 | 478 | 0,86 | 0,91 | 0,86 | 0,85 | 0,56 | 0,58 | 0,57 | 0,14 | 0,09 |
Ponadto, przedstawiona poniżej tabela szczegółowo opisuje dokładność GENSCAN w odniesieniu do sekwencji genomowych uporządkowanych według zakresów C + G i rodzajów organizmów. W dostarczonych danych widzimy, że zmienność dokładności GENSCAN była raczej niewrażliwa na zawartość C + G i typ organizmu. To dodatkowo pokazuje niezależność GENSCAN od czynników, które miałyby wpływ na wyniki porównywalnych programów przewidywania genomu.
Podzbiór | Sekwencje | Czułość nukleotydowa | Specyficzność nukleotydów | Przybliżona korelacja nukleotydów | Współczynnik korelacji nukleotydów | Czułość egzonu | Specyficzność egzonu | Średnia egzonu | Pominięte eksony | Niewłaściwe eksony |
---|---|---|---|---|---|---|---|---|---|---|
C+G <40 | 86 | 0,90 | 0,95 | 0,90 | 0,93 | 0,78 | 0,87 | 0,84 | 0,14 | 0,05 |
C+G 40-50 | 220 | 0,94 | 0,92 | 0,91 | 0,91 | 0,80 | 0,82 | 0,82 | 0,08 | 0,05 |
C+G 50-60 | 208 | 0,93 | 0,93 | 0,90 | 0,92 | 0,75 | 0,77 | 0,77 | 0,08 | 0,05 |
C+G >60 | 56 | 0,97 | 0,89 | 0,90 | 0,90 | 0,76 | 0,77 | 0,76 | 0,07 | 0,08 |
Naczelne ssaki | 237 | 0,96 | 0,94 | 0,93 | 0,94 | 0,81 | 0,82 | 0,82 | 0,07 | 0,05 |
Gryzonie | 191 | 0,90 | 0,93 | 0,89 | 0,91 | 0,75 | 0,80 | 0,78 | 0,11 | 0,05 |
Nie-mama. Zielony. | 72 | 0,93 | 0,93 | 0,90 | 0,93 | 0,81 | 0,85 | 0,84 | 0,11 | 0,06 |
Oddzielny test przeprowadzono pod kątem dokładności GENSCAN przy użyciu dwóch zestawów danych GeneParser, które zostały pozbawione wszystkich genów, które są w ponad 25% zgodne pod względem aminokwasów z tymi z poprzednich zestawów testowych GeneParser. Wynikowe dane tego testu i tego samego testu przeprowadzonego na innych programach przedstawiono w poniższej tabeli. Widzimy, że istnieje niewielka różnica między dokładnością GENSCAN w ramach wspomnianego zestawu danych Burset/Guigó i zestawów danych GeneParser. Jednak niektóre punkty danych o większej fluktuacji (np. 98% CC dla nukleotydów o wysokiej zawartości C + G w zestawie GeneParser II w porównaniu z 90% CC dla nukleotydów C + G > 60 w Burset/Guigó) można przypisać znacznie większym mniejszy rozmiar próby. Testy na wyżej wymienionych trzech zestawach danych dostarczyły wystarczających informacji do sformułowania odpowiednich wniosków. Jednak te zbiory danych nie mają realistycznej wielkości, dlatego ich wiarygodność i zakres są słusznie kwestionowane.
Program | GeneID I | GeneID II | GRAIL3 I | GRAIL3 II | GeneParser2 I | GeneParser2 II | GENSCAN I | GENSCAN II |
---|---|---|---|---|---|---|---|---|
Wszystkie sekwencje | ||||||||
Korelacja | 0,69 | 0,55 | 0,83 | 0,75 | 0,78 | 0,80 | 0,93 | 0,93 |
Wrażliwość | 0,69 | 0,50 | 0,83 | 0,68 | 0,87 | 0,82 | 0,98 | 0,95 |
Specyficzność | 0,77 | 0,75 | 0,87 | 0,91 | 0,76 | 0,86 | 0,90 | 0,94 |
Egzony prawidłowe | 0,42 | 0,33 | 0,52 | 0,31 | 0,47 | 0,46 | 0,79 | 0,76 |
Egzony nakładały się | 0,73 | 0,64 | 0,81 | 0,58 | 0,87 | 0,76 | 0,96 | 0,91 |
Wysokie C + G | ||||||||
Korelacja | 0,65 | 0,73 | 0,88 | 0,80 | 0,89 | 0,71 | 0,94 | 0,98 |
Wrażliwość | 0,72 | 0,85 | 0,87 | 0,80 | 0,90 | 0,65 | 1.00 | 0,98 |
Specyficzność | 0,73 | 0,73 | 0,95 | 0,88 | 0,93 | 0,87 | 0,91 | 0,98 |
Egzony prawidłowe | 0,38 | 0,43 | 0,67 | 0,50 | 0,64 | 0,57 | 0,76 | 0,64 |
Egzony nakładały się | 0,80 | 0,86 | 0,89 | 0,79 | 0,96 | 0,79 | 1.00 | 0,93 |
Średni C + G | ||||||||
Korelacja | 0,67 | 0,52 | 0,83 | 0,75 | 0,75 | 0,82 | 0,93 | 0,94 |
Wrażliwość | 0,65 | 0,47 | 0,86 | 0,68 | 0,86 | 0,84 | 0,97 | 0,95 |
Specyficzność | 0,77 | 0,76 | 0,84 | 0,91 | 0,70 | 0,87 | 0,90 | 0,95 |
Egzony prawidłowe | 0,37 | 0,29 | 0,51 | 0,32 | 0,41 | 0,46 | 0,79 | 0,79 |
Egzony nakładały się | 0,67 | 0,62 | 0,83 | 0,28 | 0,84 | 0,79 | 0,96 | 0,93 |
Niskie C + G | ||||||||
Korelacja | 0,81 | 0,62 | 0,62 | 0,62 | 0,72 | 0,67 | 0,92 | 0,81 |
Wrażliwość | 0,82 | 0,56 | 0,51 | 0,45 | 0,79 | 0,71 | 0,93 | 0,80 |
Specyficzność | 0,85 | 0,71 | 0,87 | 0,89 | 0,75 | 0,67 | 0,94 | 0,84 |
Egzony prawidłowe | 0,80 | 0,47 | 0,25 | 0,16 | 0,40 | 0,37 | 0,85 | 0,68 |
Egzony nakładały się | 0,85 | 0,63 | 0,55 | 0,42 | 0,85 | 0,58 | 0,85 | 0,74 |
W 1997 roku stwierdzono, że GENSCAN ma wyższą dokładność niż poprzednie programy do przewidywania genów. Jednak prace nadal wymagały wykonania, ponieważ wykazano, że GENSCAN dokładnie przewiduje tylko 10-15% genów na podstawie realistycznych zestawów danych. Z powodu takich nieścisłości wszelkie przewidywania podane przez GENSCAN i inne programy muszą zostać zweryfikowane przez porównanie ich z sekwencją komplementarnego DNA , sekwencją znacznika sekwencji wyrażonej (EST) lub znaną sekwencją białkową.