Analiza sekwencji bez wyrównania

W bioinformatyce podejścia do analizy sekwencji bez dopasowania do danych dotyczących sekwencji i struktury molekularnej stanowią alternatywę dla podejść opartych na dopasowaniu.

Pojawienie się i potrzeba analizy różnych rodzajów danych generowanych w badaniach biologicznych dało początek dziedzinie bioinformatyki . Dane dotyczące sekwencji i struktury molekularnej DNA , RNA i białek , profile ekspresji genów lub dane z mikromacierzy , dane dotyczące szlaków metabolicznych to tylko niektóre z głównych rodzajów danych analizowanych w bioinformatyce. Wśród nich dane sekwencyjne rosną w tempie wykładniczym z powodu pojawienia się technologii sekwencjonowania nowej generacji. Od początku bioinformatyki, analiza sekwencji pozostaje głównym obszarem badań z szerokim zakresem zastosowań w przeszukiwaniu baz danych, adnotacji genomu , genomice porównawczej , filogenezie molekularnej i przewidywaniu genów . Pionierskie podejścia do analizy sekwencji opierały się na dopasowywaniu sekwencji globalnym lub lokalnym, parowaniu lub wielokrotnym dopasowaniu sekwencji . Podejścia oparte na dopasowaniu generalnie dają doskonałe wyniki, gdy badane sekwencje są blisko spokrewnione i mogą być niezawodnie dopasowane, ale gdy sekwencje są rozbieżne, nie można uzyskać wiarygodnego dopasowania, a zatem zastosowania dopasowania sekwencji są ograniczone. Innym ograniczeniem podejść opartych na dopasowaniu jest ich złożoność obliczeniowa i są one czasochłonne, a zatem są ograniczone w przypadku danych sekwencyjnych na dużą skalę. Pojawienie się sekwencjonowania nowej generacji technologii zaowocowało wygenerowaniem obszernych danych sekwencjonowania. Rozmiar tych danych sekwencji stanowi wyzwanie dla algorytmów opartych na dopasowaniu w ich składaniu, adnotacjach i badaniach porównawczych.

Metody bez wyrównania

Metody bez wyrównania można ogólnie podzielić na pięć kategorii: a) metody oparte na częstotliwości k -mer/słowo, b) metody oparte na długości wspólnych podłańcuchów, c) metody oparte na liczbie (oddzielonych) dopasowań słów, d ) metody oparte na mikroustawieniach , e) metody oparte na teorii informacji oraz f) metody oparte na reprezentacji graficznej. Podejścia bez dopasowania były stosowane w wyszukiwaniu podobieństw sekwencji, grupowaniu i klasyfikacji sekwencji, a ostatnio w filogenetyce ( ryc. 1 ).

Mówi się, że takie analizy filogenezy molekularnej wykorzystujące podejścia bez dopasowania są częścią filogenemiki nowej generacji . Wiele artykułów przeglądowych zawiera dogłębny przegląd metod bez dopasowania w analizie sekwencji.

AFproject to międzynarodowa współpraca mająca na celu porównanie narzędzi programowych do porównywania sekwencji bez dopasowania .

Metody oparte na częstości k -mer/słowo

Do popularnych metod opartych na częstości k -mer/słowo należą profil częstotliwości cech (FFP), wektor składu (CV), rozkład czasu powrotu (RTD), reprezentacja gry chaosu częstotliwości (FCGR). i rozstawione słowa.

Profil częstotliwości funkcji (FFP)

Metodologia stosowana w metodzie opartej na FFP rozpoczyna się od obliczenia liczby każdego możliwego k -meru (możliwa liczba k -merów dla sekwencji nukleotydów: 4 ^k , podczas gdy dla sekwencji białek: 20 ^k ) w sekwencjach. Każde k -merów w każdej sekwencji jest następnie normalizowane przez podzielenie go przez sumę zliczeń wszystkich k -merów w tej sekwencji. Prowadzi to do konwersji każdej sekwencji na jej profil częstotliwości cech. Następnie obliczana jest parami odległość między dwiema sekwencjami rozbieżność Jensena – Shannona (JS). między ich odpowiednimi FFP. Uzyskana w ten sposób macierz odległości może być wykorzystana do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp .

Wektor składu (CV)

W metodzie tej obliczana jest częstość pojawiania się każdego możliwego k -meru w danej sekwencji. Kolejnym charakterystycznym krokiem tej metody jest odjęcie losowego tła tych częstotliwości za pomocą modelu Markowa w celu zmniejszenia wpływu przypadkowych mutacji neutralnych w celu podkreślenia roli selektywnej ewolucji. Znormalizowane częstotliwości są ustawiane w ustalonej kolejności, aby utworzyć wektor składu (CV) danej sekwencji. Cosinus odległości funkcja jest następnie używana do obliczania odległości parami między CV sekwencji. Otrzymaną w ten sposób macierz odległości można wykorzystać do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp. Metodę tę można rozszerzyć poprzez zastosowanie wydajnych algorytmów dopasowywania wzorców, aby uwzględnić w obliczeniach wektorów składu: (i) wszystkie k -mers dla dowolnej wartości k , (ii) wszystkie podłańcuchy o dowolnej długości do dowolnie ustalonego maksimum k wartość, (iii) wszystkie maksymalne podciągi, gdzie podciąg jest maksymalny, jeśli rozszerzenie go o dowolny znak spowodowałoby zmniejszenie liczby jego wystąpień.

Dystrybucja czasu powrotu (RTD)

Metoda oparta na RTD nie oblicza liczby k -merów w sekwencjach, zamiast tego oblicza czas potrzebny do ponownego pojawienia się k -merów. Czas odnosi się do liczby reszt w kolejnych pojawiających się poszczególnych k -merach. Zatem występowanie każdego k -meru w sekwencji oblicza się w postaci RTD, które następnie podsumowuje się za pomocą dwóch parametrów statystycznych, średniej (μ) i odchylenia standardowego (σ). Zatem każdy ciąg jest reprezentowany w postaci wektora liczbowego o rozmiarze 2⋅4 ^k zawierającego μ i σ 4 ^k RTD. Odległość parami między sekwencjami jest obliczana za pomocą euklidesowej miary odległości . Uzyskaną w ten sposób macierz odległości można wykorzystać do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp. Niedawne podejście Ekstrakcja wzorców poprzez pobieranie entropii (PEER) zapewnia bezpośrednie wykrywanie długości k-merów i podsumowuje interwał występowania za pomocą entropii .

Reprezentacja gry chaosu częstotliwości (FCGR)

Metody FCGR wyewoluowały z techniki reprezentacji gry chaosu (CGR), która zapewnia niezależną od skali reprezentację sekwencji genomowych. CGR można podzielić liniami siatki, gdzie każdy kwadrat siatki oznacza występowanie w sekwencji oligonukleotydów o określonej długości. Taka reprezentacja CGR jest określana jako reprezentacja gier chaosu częstotliwości (FCGR). Prowadzi to do reprezentacji każdej sekwencji w FCGR. Odległość parami między FCGR sekwencji można obliczyć za pomocą odległości Pearsona, odległości Hamminga lub odległości euklidesowej.

Częstotliwości słów z odstępami

Podczas gdy większość algorytmów bez wyrównania porównuje kompozycję słów w sekwencjach, Spaced Words używa wzorca pozycji „ostrożnie” i „nie przejmuj się”. Wystąpienie słowa z odstępem w sekwencji jest wówczas definiowane tylko przez znaki na pozycjach dopasowania, podczas gdy znaki na pozycjach „nieważne” są ignorowane. Zamiast porównywać częstotliwości kolejnych słów w sekwencjach wejściowych, to podejście porównuje częstotliwości słów rozmieszczonych w odstępach zgodnie z wcześniej zdefiniowanym wzorcem. Należy zauważyć, że predefiniowany wzór można wybrać poprzez analizę wariancji liczby dopasowań, prawdopodobieństwa pierwszego wystąpienia w kilku modelach lub współczynnika korelacji Pearsona między oczekiwaną częstotliwością słowa a rzeczywistą odległością wyrównania.

Metody oparte na długości wspólnych podłańcuchów

Metody z tej kategorii wykorzystują podobieństwa i różnice podłańcuchów w parze sekwencji. Algorytmy te były najczęściej używane do przetwarzania ciągów znaków w informatyce .

Średni wspólny podciąg (ACS)

W tym podejściu, dla wybranej pary sekwencji ( odpowiednio A i B o długościach n i m ), najdłuższy podłańcuch zaczynający się na jakiejś pozycji jest identyfikowany w jednej sekwencji (A), która dokładnie pasuje do drugiej sekwencji (B) na dowolnej pozycji. W ten sposób obliczane są długości najdłuższych podłańcuchów rozpoczynających się w różnych pozycjach w sekwencji A i mających dokładne dopasowanie w niektórych pozycjach w sekwencji B. Wszystkie te długości są uśredniane w celu uzyskania miary ${\ Displaystyle L (A, B)}$ . Intuicyjnie, większe ${\ Displaystyle L (A, B)}$ , im bardziej podobne są te dwie sekwencje. Aby uwzględnić różnice w długości sekwencji, $Displaystyle L$ $b )$ tj. ]. Daje to miarę podobieństwa między sekwencjami.

Aby wyprowadzić miarę odległości, przyjmuje się odwrotność $że$ podobieństwa i odejmuje się od niej składnik korygujący, . Zatem

{\ Displaystyle d (A, B) = \ lewo [{\ Frac {\ log m} {L (A, B)}} \ prawo] - \ lewo [{\ Frac {\ log n} {L (A, Poprawnie].}

Ta $)$ ${\ Displaystyle d_ {s} (A, B) = d_ {s} (B, A) = (d (A, B) + d (B, A)) / 2 }$ trzeba , co daje ostateczną miarę ACS między dwiema strunami (A i B). Wyszukiwanie podsekwencji/podłańcucha może być skutecznie przeprowadzone przy użyciu drzew sufiksowych .

k - niedopasowanie średnie wspólne podejście do podciągów (kmacs)

To podejście jest uogólnieniem podejścia ACS. Aby zdefiniować odległość między dwiema sekwencjami DNA lub białek, kmacs szacuje dla każdej pozycji i pierwszej sekwencji najdłuższy podłańcuch zaczynający się od i i pasujący podłańcuch drugiej sekwencji z maksymalnie k niedopasowaniami . Definiuje średnią z tych wartości jako miarę podobieństwa między sekwencjami i przekształca ją w symetryczną miarę odległości. Kmacs nie oblicza dokładnie k -niedopasowanych podłańcuchów, ponieważ byłoby to zbyt kosztowne obliczeniowo, ale przybliża takie podciągi.

Odległości mutacji (Kr)

To podejście jest ściśle związane z ACS, które oblicza liczbę podstawień na miejsce między dwiema sekwencjami DNA przy użyciu najkrótszego nieobecnego podłańcucha (określanego jako shustring).

Rozkład długości wspólnych podciągów niedopasowania k

To podejście wykorzystuje program kmacs do obliczenia najdłuższych wspólnych podłańcuchów z maksymalnie k niezgodnościami dla pary sekwencji DNA. Odległość filogenetyczną między sekwencjami można następnie oszacować na podstawie lokalnego maksimum w rozkładzie długości wspólnych podciągów niedopasowania k.

Metody oparte na liczbie (oddzielonych) dopasowań słów

${\ Displaystyle D_ {2} ^ {S}}$ i ${\ Displaystyle D_ {2} ^ {*}}$

$są$ wariantami statystyk $, które$ liczbę między dwiema sekwencjami. Poprawiają proste $biorąc$ pod uwagę rozkład w tle porównywanych sekwencji.

ZACIER

$,$ która wykorzystuje strategię dolnego szkicu MinHash do oszacowania indeksu Jaccarda zestawów -merów dwóch sekwencji wejściowych. Oznacza to $,$ że szacuje stosunek $dopasowań$ do całkowitej liczby sekwencji. Można to z kolei wykorzystać do oszacowania odległości ewolucyjnych między porównywanymi sekwencjami, mierzonych jako liczba podstawień na pozycję sekwencji od czasu ewolucji sekwencji od ich ostatniego wspólnego przodka.

Slope Tree

$między$ dwiema sekwencjami białek na podstawie zaniku liczby $-mer,$ jeśli wzrasta.

Slope-SpaM

Ta metoda oblicza liczbę $k$ -mer lub rozstawionych słów ( SpaM ) dla różnych $wartości$ długości słowa lub liczby pozycji dopasowania $}$ odpowiednio we wzorcu bazowym. Nachylenie funkcji afiniczno-liniowej $która$ zależy od $jest$ w celu oszacowania odległości Jukesa-Cantora między sekwencjami wejściowymi.

Skmer

Skmer oblicza odległości między gatunkami na podstawie niezmontowanych odczytów sekwencjonowania. $Podobnie$ jak MASH , używa indeksu Jaccarda na zbiorach z sekwencji wejściowych. W przeciwieństwie do MASH , program jest nadal dokładny dla niskiego pokrycia sekwencjonowaniem, więc może być używany do skimmingu genomu .

Metody oparte na mikroustawieniach

Ściśle mówiąc, metody te nie są wolne od wyrównania . Wykorzystują proste, pozbawione przerw mikrodopasowania , w których sekwencje muszą pasować w określonych, wcześniej zdefiniowanych pozycjach. Pozycje wyrównane w pozostałych pozycjach mikrodopasowań , w których niedopasowania są dozwolone, są następnie wykorzystywane do wnioskowania o filogenezie.

kofilog

Ta metoda wyszukuje tak zwane struktury , które są zdefiniowane jako pary dopasowań k -mer między dwiema sekwencjami DNA, które są oddalone od siebie o jedną pozycję w obu sekwencjach. Dwa k -mer nazywane są kontekstem , pozycja między nimi nazywana jest obiektem . Co-phylog określa następnie odległość między dwiema sekwencjami, frakcję takich struktur , dla których dwa nukleotydy w obiekcie są różne. Podejście to można zastosować do niezmontowanych odczytów sekwencjonowania.

i ja

andi szacuje odległości filogenetyczne między sekwencjami genomowymi na podstawie lokalnych dopasowań bez przerw, które są flankowane przez maksymalne dokładne dopasowania słów. Takie dopasowania słów można skutecznie znaleźć za pomocą tablic sufiksów. Dopasowania bez przerw między dokładnymi dopasowaniami słów są następnie wykorzystywane do oszacowania odległości filogenetycznych między sekwencjami genomu. Uzyskane oszacowania odległości są dokładne do około 0,6 podstawień na pozycję.

Filtrowane dopasowania słów z odstępami (FSWM)

FSWM wykorzystuje predefiniowany wzorzec binarny P reprezentujący tak zwane pozycje dopasowania i pozycje obojętne . Następnie dla pary wejściowych sekwencji DNA wyszukuje pasujące słowa wrt P , tj. lokalne dopasowania bez przerw z pasującymi nukleotydami w pozycjach dopasowania P i możliwymi niedopasowaniami w pozycjach „nie przejmuj się” . Fałszywe dopasowania słów z odstępami o niskiej punktacji są odrzucane, odległości ewolucyjne między sekwencjami wejściowymi są szacowane na podstawie nukleotydów wyrównanych ze sobą w pozycjach obojętnych pozostałych , homologicznych dopasowań słów z odstępami. FSWM został przystosowany do szacowania odległości na podstawie niezmontowanych odczytów NGS, ta wersja programu nazywa się Read-SpaM .

Prot-SpaM

Prot-SpaM ( Prot eome-based Spa ced-word M atches) jest implementacją algorytmu FSWM dla częściowych lub całych sekwencji proteomowych.

Multi-SpaM

Multi-SpaM ( Multiple Spa ced-word M atches) to podejście do rekonstrukcji filogenezy opartej na genomie, które rozszerza ideę FSWM na wielokrotne porównywanie sekwencji . Biorąc pod uwagę binarny wzór P pasujących pozycji i pozycji „nie przejmuj się” , program szuka P -bloków, tj. lokalnych, pozbawionych przerw czterokierunkowych dopasowań z pasującymi nukleotydami w pozycjach dopasowania P i możliwymi niedopasowaniami w pozycji „ nie” - stanowiska opiekuńcze . Takie czterokierunkowe dopasowania są losowo pobierane z zestawu wejściowych sekwencji genomu. Dla każdego P obliczana jest topologia drzewa bez korzeni przy użyciu RAxML . Program Quartet MaxCut jest następnie używany do obliczenia superdrzewa z tych drzew.

Metody oparte na teorii informacji

Teoria informacji dostarczyła skutecznych metod analizy i porównania sekwencji bez dopasowania. Istniejące zastosowania teorii informacji obejmują globalną i lokalną charakterystykę DNA, RNA i białek, szacowanie entropii genomu do klasyfikacji motywów i regionów. Jest również obiecujący w mapowaniu genów , analizie sekwencjonowania nowej generacji i metagenomice .

Korelacja baza-baza (BBC)

Korelacja podstawa-zasada (BBC) przekształca sekwencję genomu w unikalny 16-wymiarowy wektor liczbowy przy użyciu następującego równania:

{\ Displaystyle T_ {ij} (K) = \ suma _ {\ ell =1}^{K}P_{ij}(\ell)\cdot \log _{2}\left({\frac {P_{ij}(\ell)}{P_{i}P_{j}} }\Prawidłowy)}

P $\ displaystyle P_ {i}}$ { $oznaczają$ prawdopodobieństwa zasad i j genomie. P $\ Displaystyle P_ {ij} (\ ell)}$ { wskazuje prawdopodobieństwo zasad i i j na odległość w genomie. Parametr K wskazuje maksymalną odległość między podstawami i oraz j . Zmienność wartości 16 parametrów odzwierciedla zmienność zawartości i długości genomu.

Korelacja informacji i częściowa korelacja informacji (IC-PIC)

Metoda oparta na IC-PIC (korelacja informacji i częściowa korelacja informacji) wykorzystuje właściwość korelacji bazowej sekwencji DNA. IC i PIC obliczono za pomocą następujących wzorów,

{\ Displaystyle IC_ {\ ell} = - 2 \ suma _ {i }P_{i}\log _{2}P_{i}+\sum _{ij}P_{ij}(\ell )\log _{2}P_{ij}(\ell )}

{\ Displaystyle PIC_ {ij} (\ ell) = (P_ {ij} (\ ell) -P_ {i} P_ {j} (\ ell) )^{2}}

Ostateczny wektor otrzymuje się w następujący sposób:

Displaystyle V = {IC_ {\ ell} \ ponad PIC_ {ij} (\ ell )}{\text{ gdzie }}\ell \in \left\{\ell _{0},\ell _{0}+1,\ldots ,\ell _{0}+n\right\},}

który określa zakres odległości między podstawami.

Odległość parami między sekwencjami jest obliczana za pomocą euklidesowej miary odległości. Otrzymaną w ten sposób macierz odległości można wykorzystać do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp.

Kompresja

Przykładami są efektywne przybliżenia złożoności Kołmogorowa , na przykład złożoność Lempla-Ziva . Ogólnie rzecz biorąc, metody oparte na kompresji wykorzystują wzajemne informacje między sekwencjami. Wyraża się to warunkową złożonością Kołmogorowa , to znaczy długością najkrótszego samoograniczającego programu wymaganego do wygenerowania ciągu przy wcześniejszej znajomości drugiego ciągu. Ta miara ma związek z pomiarem k -słowa w sekwencji, ponieważ można ich łatwo użyć do wygenerowania sekwencji. Czasami jest to metoda wymagająca dużej mocy obliczeniowej. Teoretyczne podstawy podejścia opartego na złożoności Kołmogorowa położyli Bennett, Gacs, Li, Vitanyi i Zurek (1998), proponując odległość informacyjną . Złożoność Kołmogorowa będąc nieobliczalnym, został przybliżony za pomocą algorytmów kompresji. Im lepiej się kompresują, tym są lepsze. Li, Badger, Chen, Kwong, Kearney i Zhang (2001) zastosowali nieoptymalną, ale znormalizowaną formę tego podejścia, a optymalna znormalizowana forma Li, Chen, Li, Ma i Vitanyi (2003) pojawiła się w i bardziej obszernie i udowodnione przez Cilibrasi i Vitanyi (2005) w. Otu i Sayood (2003) wykorzystali złożoności Lempela-Ziva do skonstruowania pięciu różnych miar odległości do konstrukcji drzewa filogenetycznego .

Kompresja modelowania kontekstowego

W złożoności modelowania kontekstowego prognozy następnego symbolu jednego lub więcej modeli statystycznych są łączone lub konkurują, aby uzyskać prognozę opartą na zdarzeniach zarejestrowanych w przeszłości. Algorytmiczna zawartość informacji uzyskana z przewidywania każdego symbolu może być wykorzystana do obliczenia algorytmicznych profili informacji z czasem proporcjonalnym do długości sekwencji. Proces został zastosowany do analizy sekwencji DNA.

Metody oparte na reprezentacji graficznej

Mapy iterowane

Wykorzystanie iterowanych map do analizy sekwencji zostało po raz pierwszy wprowadzone przez HJ Jeffereya w 1990 roku, kiedy zaproponował zastosowanie Chaos Game do mapowania sekwencji genomowych do kwadratu jednostkowego. W raporcie tym nazwano procedurę Chaos Game Representation (CGR). Jednak zaledwie 3 lata później podejście to zostało po raz pierwszy odrzucone jako projekcja tablicy przejść Markowa autorstwa N. Goldmana. Zastrzeżenie to zostało odrzucone pod koniec tej dekady, kiedy okazało się, że jest odwrotnie - że CGR bijektywnie odwzorowuje przejście Markowa na fraktalną, pozbawioną porządku (bez stopni) reprezentację. Uświadomienie sobie, że iterowane mapy zapewniają bijektywną mapę między przestrzenią symboliczną a przestrzenią numeryczną, doprowadziło do zidentyfikowania różnych podejść do porównywania i charakteryzacji sekwencji bez wyrównania. Zmiany te zostały zweryfikowane pod koniec 2013 r. przez JS Almeidę w. Szereg aplikacji internetowych, takich jak https://github.com/usm/usm.github.com/wiki , są dostępne, aby zademonstrować, jak kodować i porównywać dowolne sekwencje symboliczne w sposób, który w pełni wykorzystuje nowoczesną dystrybucję MapReduce opracowaną dla przetwarzania w chmurze.

Porównanie metod opartych na dopasowaniu i bez wyrównania

Metody oparte na wyrównaniu	Metody bez wyrównania
Metody te zakładają, że regiony homologiczne są ciągłe (z przerwami)	Nie zakłada takiej przyległości regionów homologicznych
Oblicza wszystkie możliwe porównania parami sekwencji; stąd kosztowny obliczeniowo	Na podstawie wystąpień podsekwencji; kompozycja; niedrogie obliczeniowo, może wymagać dużej ilości pamięci
Ugruntowane podejście w filogenetyce	Stosunkowo niedawno i zastosowanie w filogenetyce jest ograniczone; wymaga dalszych testów pod kątem solidności i skalowalności
Wymaga modeli substytucyjnych/ewolucyjnych	Mniej zależne od modeli substytucyjnych/ewolucyjnych
Wrażliwy na stochastyczną zmianę sekwencji, rekombinację, poziomy (lub boczny) transfer genów, niejednorodność szybkości i sekwencje o różnej długości, zwłaszcza gdy podobieństwo leży w „strefie zmierzchu”	Mniej wrażliwy na stochastyczną zmianę sekwencji, rekombinację, poziomy (lub boczny) transfer genów, niejednorodność szybkości i sekwencje o różnej długości
Najlepsza praktyka wykorzystuje algorytmy wnioskowania o złożoności co najmniej O(n ² ); mniej efektywne czasowo	Algorytmy wnioskowania zazwyczaj O(n ² ) lub mniej; bardziej efektywne czasowo
Heurystyczny z natury; istotność statystyczna tego, w jaki sposób wyniki wyrównania odnoszą się do homologii, jest trudna do oszacowania	Dokładne rozwiązania; istotność statystyczna odległości sekwencji (i stopnia podobieństwa) może być łatwo oceniona
Opiera się na programowaniu dynamicznym (kosztownym obliczeniowo), aby znaleźć wyrównanie, które ma optymalny wynik.	omija kosztowne obliczeniowo programowanie dynamiczne poprzez indeksowanie liczby słów lub pozycji w przestrzeni fraktalnej.

Zastosowania metod bezliniowych

Rearanżacje genomu
Filogenetyka molekularna
Metagenomika
Analiza danych sekwencji nowej generacji
Epigenomika
Kody kreskowe gatunków
Genetyka populacji
Poziomy transfer genów
Sero/genotypowanie wirusów
Przewidywanie alergii
odkrycie SNP
Wykrywanie rekombinacji
Klasyfikacja wirusów
Identyfikacja taksonomiczna archeonów

Lista serwerów WWW/oprogramowania dla metod bez wyrównania

Nazwa	Opis	Dostępność	Odniesienie
Protcomp	Podejście do punktacji najbardziej wyrazistych funkcji	PROTKOMP
kmacs	k - niedopasowanie średnie wspólne podejście podłańcuchowe	kmacs
Oddzielone słowa	Częstotliwości słów z odstępami	słowa z odstępami
kofilog	bezmontażowe podejście do mikroustawiania	kofilog
Prot-SpaM	Dopasowania słów z odstępami oparte na proteomie	Prot-SpaM
FSWM	Filtrowane dopasowania słów z odstępami	FSWM
FFP	Filogeneza oparta na profilu częstotliwości cech	FFP
Drzewo CV	Serwer oparty na wektorze kompozycji dla filogenezy	Drzewo CV
Filogeneza BRT	Serwer oparty na dystrybucji czasu powrotu dla filogenezy	Filogeneza BRT
AGP	Wielometodowy serwer sieciowy do filogenezy genomu bez dopasowania	AGP
Alfy	Wykrywanie lokalnego podobieństwa między genomami wirusowymi i bakteryjnymi bez dopasowania	Alfy
bezkofeinowa + pi	Obliczanie odległości przy użyciu metod bez wyrównania w PYthonie	bezkofeinowa + pi
Podtyp dengi	Genotypowanie wirusów dengi na podstawie RTD	Podtyp dengi
Typer WNV	Genotypowanie wirusów Zachodniego Nilu na podstawie RTD	Typer WNV
alergenFP	Przewidywanie alergenności na podstawie odcisków palców deskryptorów	alergenFP
kSNP v2	Wykrywanie SNP bez wyrównania	kSNP v2
d2Narzędzia	Porównanie próbek metatranskryptomicznych na podstawie częstości k -krotek	d2Narzędzia
pośpiech	Wykrywanie rekombinacji za pomocą SHustrings	pośpiech
rozbić	Wykrywanie i wizualizacja rearanżacji genomowych	rozbić
Smash++	Znajdowanie i wizualizacja rearanżacji genomowych	Smash++
GSporównaj	Szybkie grupowanie genomów bakteryjnych oparte na oligonukleotydach	GSporównaj	–
KOMETA	Wolne od dopasowania podtypowanie sekwencji wirusowych HIV-1, HIV-2 i HCV	KOMETA
USM	Fractal MapZredukuj rozkład dopasowania sekwencji	usm.github.io
SOKÓŁ	Metoda bez dopasowania do wnioskowania o składzie metagenomicznym starożytnego DNA	SOKÓŁ
Kraken	Klasyfikacja taksonomiczna przy użyciu dokładnych dopasowań k-mer	Kraken 2
CLC	Drzewa filogenetyczne wykorzystujące dopasowywanie oparte na k-merach bez odniesienia	Moduł genomu drobnoustrojów CLC
ORZEŁ	Ultraszybkie narzędzie do znajdowania względnie nieobecnych słów w danych genomowych	ORZEŁ2

Zobacz też