Łowca Wzorów

PatternHunter jest dostępnym na rynku oprogramowaniem do wyszukiwania homologii , które wykorzystuje techniki dopasowywania sekwencji . Został pierwotnie opracowany w 2002 roku przez trzech naukowców: Bin Ma, Johna Trampa i Ming Li. Naukowcy ci kierowali się chęcią rozwiązania problemu, z którym boryka się wielu badaczy podczas badań obejmujących genomikę i proteomikę . Naukowcy ci zdali sobie sprawę, że takie badania w dużej mierze opierały się na badaniach homologii, które ustaliły krótkie dopasowania nasion, które następnie zostały wydłużone. Opisywanie genów homologicznych było zasadniczą częścią większości badań ewolucyjnych i miało kluczowe znaczenie dla zrozumienia ewolucji rodzin genów oraz relacji między domenami i rodzinami. Homologiczne geny można było skutecznie badać tylko za pomocą narzędzi wyszukiwania, które ustalały podobne części lub lokalne rozmieszczenie między dwoma białkami lub kwasów nukleinowych . Homologię określono ilościowo za pomocą wyników uzyskanych z pasujących sekwencji, „wyników niedopasowania i przerw”.

Rozwój

w genomice porównawczej konieczne jest porównywanie ogromnych chromosomów , takich jak te znajdujące się w ludzkim genomie. Jednak ogromna ekspansja danych genomicznych wprowadza problem w dostępnych metodach przeprowadzania poszukiwań homologii. Na przykład zwiększenie rozmiaru ziarna zmniejsza czułość, a zmniejszenie rozmiaru ziarna zmniejsza szybkość obliczeń. Opracowano kilka programów dopasowywania sekwencji w celu określenia homologii między genami. Należą do nich FASTA , rodzina BLAST , QUASAR, MUMmer , SENSEI, SIM i REPuter. Najczęściej używają Smitha-Watermana technika wyrównania, która porównuje bazy z innymi bazami, ale jest zbyt wolna. BLAST ulepsza tę technikę, ustanawiając krótkie, precyzyjne dopasowania nasion, które później łączy, tworząc dłuższe wyrównania. Jednak w przypadku długich sekwencji wyżej wymienione techniki są wyjątkowo powolne i wymagają znacznych rozmiarów pamięci. SENSEI jest jednak bardziej wydajny niż inne metody, ale jest niekompetentny w innych formach wyrównania, ponieważ jego siła leży w obsłudze wyrównań bez przerw. Z drugiej strony jakość produkcji Megablast jest kiepskiej jakości i nie dostosowuje się dobrze do dużych sekwencji. Techniki takie jak MUMmer i QUASAR wykorzystują drzewa sufiksów, które mają obsługiwać dokładne dopasowania. Jednak metody te można zastosować tylko do porównywania sekwencji, które wykazują podwyższone podobieństwa. Wszystkie wyżej wymienione problemy wymagają opracowania szybkiego, niezawodnego narzędzia, które może wydajnie obsługiwać wszystkie typy sekwencji bez zużywania zbyt wielu zasobów komputera.

Zbliżać się

PatternHunter wykorzystuje liczne ziarna (małe ciągi wyszukiwania) z optymalnymi odstępami między nimi. Wyszukiwania wykorzystujące nasiona są niezwykle szybkie, ponieważ określają homologię tylko w miejscach, w których ustalono trafienia. Na czułość ciągu wyszukiwania duży wpływ ma wielkość odstępu między sąsiednimi ciągami. Duże nasiona nie są w stanie znaleźć izolowanych homologii, podczas gdy małe generują liczne arbitralne trafienia, które opóźniają obliczenia. PatternHunter zapewnia delikatną równowagę w tym obszarze, zapewniając optymalne odstępy między ciągami wyszukiwania. Wykorzystuje alternatywne k ( k = 11) litery jako nasiona w przeciwieństwie do BLAST, który wykorzystuje kolejne litery k jako nasiona. Pierwszy etap analizy PatternHunter obejmuje fazę filtrowania, w której program wyszukuje dopasowania w k naprzemiennych punktach wskazanych przez najkorzystniejszy wzorzec. Drugim etapem jest faza wyrównania, która jest identyczna z BLAST. Ponadto możliwe jest użycie więcej niż jednego materiału siewnego za jednym razem dzięki PatternHunter. Zwiększa to czułość narzędzia bez ingerencji w jego prędkość.

Prędkość

PatternHunter analizuje wszystkie rodzaje sekwencji w krótkim czasie. Na nowoczesnym komputerze przetwarzanie genomów prokariotycznych może zająć kilka sekund , kilka minut przetwarzanie sekwencji Arabidopsis thaliana i kilka godzin przetwarzanie ludzkiego chromosomu. W porównaniu z innymi narzędziami PatternHunter wykazuje prędkość około stu razy większą niż BLAST i Mega BLAST. Prędkości te są 3000 razy większe niż te osiągane za pomocą Smitha-Watermana . Ponadto program posiada przyjazny dla użytkownika interfejs, który pozwala dostosować parametry wyszukiwania.

Wrażliwość

Jeśli chodzi o czułość, możliwe jest osiągnięcie optymalnej czułości za pomocą PatternHunter przy zachowaniu tej samej prędkości, co w przypadku konwencjonalnego wyszukiwania BLAST.

Specyfikacje

Projektowanie PatternHunter wykorzystuje technologię Java . Dzięki temu program działa płynnie po zainstalowaniu w dowolnym środowisku Java 1.4.

Przyszłe postępy

Poszukiwanie homologii to bardzo długa procedura, która wymaga dużo czasu. Nadal istnieją wyzwania związane z obsługą przeszukiwania DNA-DNA, a także przeszukiwania przeszukiwań DNA-białek ze względu na ogromne rozmiary baz danych i małe zapytanie, które jest używane. PatternHunter został ulepszony do ulepszonej wersji PatternHunter II, która stukrotnie przyspiesza wyszukiwanie białek DNA bez zmiany czułości. Istnieją jednak plany ulepszenia PatternHunter, aby osiągnąć wysoką czułość narzędzia Smith - Waterman przy jednoczesnym uzyskaniu tempa BLAST. Powieść przetłumaczona na PatternHunter, która zamierza przyspieszyć tBLASTx. jest również w fazie rozwojowej.