Analiza sekwencji bez wyrównania

W bioinformatyce podejścia do analizy sekwencji bez dopasowania do danych dotyczących sekwencji i struktury molekularnej stanowią alternatywę dla podejść opartych na dopasowaniu.

Pojawienie się i potrzeba analizy różnych rodzajów danych generowanych w badaniach biologicznych dało początek dziedzinie bioinformatyki . Dane dotyczące sekwencji i struktury molekularnej DNA , RNA i białek , profile ekspresji genów lub dane z mikromacierzy , dane dotyczące szlaków metabolicznych to tylko niektóre z głównych rodzajów danych analizowanych w bioinformatyce. Wśród nich dane sekwencyjne rosną w tempie wykładniczym z powodu pojawienia się technologii sekwencjonowania nowej generacji. Od początku bioinformatyki, analiza sekwencji pozostaje głównym obszarem badań z szerokim zakresem zastosowań w przeszukiwaniu baz danych, adnotacji genomu , genomice porównawczej , filogenezie molekularnej i przewidywaniu genów . Pionierskie podejścia do analizy sekwencji opierały się na dopasowywaniu sekwencji globalnym lub lokalnym, parowaniu lub wielokrotnym dopasowaniu sekwencji . Podejścia oparte na dopasowaniu generalnie dają doskonałe wyniki, gdy badane sekwencje są blisko spokrewnione i mogą być niezawodnie dopasowane, ale gdy sekwencje są rozbieżne, nie można uzyskać wiarygodnego dopasowania, a zatem zastosowania dopasowania sekwencji są ograniczone. Innym ograniczeniem podejść opartych na dopasowaniu jest ich złożoność obliczeniowa i są one czasochłonne, a zatem są ograniczone w przypadku danych sekwencyjnych na dużą skalę. Pojawienie się sekwencjonowania nowej generacji technologii zaowocowało wygenerowaniem obszernych danych sekwencjonowania. Rozmiar tych danych sekwencji stanowi wyzwanie dla algorytmów opartych na dopasowaniu w ich składaniu, adnotacjach i badaniach porównawczych.

Metody bez wyrównania

Metody bez wyrównania można ogólnie podzielić na pięć kategorii: a) metody oparte na częstotliwości k -mer/słowo, b) metody oparte na długości wspólnych podłańcuchów, c) metody oparte na liczbie (oddzielonych) dopasowań słów, d ) metody oparte na mikroustawieniach , e) metody oparte na teorii informacji oraz f) metody oparte na reprezentacji graficznej. Podejścia bez dopasowania były stosowane w wyszukiwaniu podobieństw sekwencji, grupowaniu i klasyfikacji sekwencji, a ostatnio w filogenetyce ( ryc. 1 ).

Mówi się, że takie analizy filogenezy molekularnej wykorzystujące podejścia bez dopasowania są częścią filogenemiki nowej generacji . Wiele artykułów przeglądowych zawiera dogłębny przegląd metod bez dopasowania w analizie sekwencji.

AFproject to międzynarodowa współpraca mająca na celu porównanie narzędzi programowych do porównywania sekwencji bez dopasowania .

Metody oparte na częstości k -mer/słowo

Do popularnych metod opartych na częstości k -mer/słowo należą profil częstotliwości cech (FFP), wektor składu (CV), rozkład czasu powrotu (RTD), reprezentacja gry chaosu częstotliwości (FCGR). i rozstawione słowa.

Profil częstotliwości funkcji (FFP)

Metodologia stosowana w metodzie opartej na FFP rozpoczyna się od obliczenia liczby każdego możliwego k -meru (możliwa liczba k -merów dla sekwencji nukleotydów: 4 k , podczas gdy dla sekwencji białek: 20 k ) w sekwencjach. Każde k -merów w każdej sekwencji jest następnie normalizowane przez podzielenie go przez sumę zliczeń wszystkich k -merów w tej sekwencji. Prowadzi to do konwersji każdej sekwencji na jej profil częstotliwości cech. Następnie obliczana jest parami odległość między dwiema sekwencjami rozbieżność Jensena – Shannona (JS). między ich odpowiednimi FFP. Uzyskana w ten sposób macierz odległości może być wykorzystana do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp .

Wektor składu (CV)

W metodzie tej obliczana jest częstość pojawiania się każdego możliwego k -meru w danej sekwencji. Kolejnym charakterystycznym krokiem tej metody jest odjęcie losowego tła tych częstotliwości za pomocą modelu Markowa w celu zmniejszenia wpływu przypadkowych mutacji neutralnych w celu podkreślenia roli selektywnej ewolucji. Znormalizowane częstotliwości są ustawiane w ustalonej kolejności, aby utworzyć wektor składu (CV) danej sekwencji. Cosinus odległości funkcja jest następnie używana do obliczania odległości parami między CV sekwencji. Otrzymaną w ten sposób macierz odległości można wykorzystać do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp. Metodę tę można rozszerzyć poprzez zastosowanie wydajnych algorytmów dopasowywania wzorców, aby uwzględnić w obliczeniach wektorów składu: (i) wszystkie k -mers dla dowolnej wartości k , (ii) wszystkie podłańcuchy o dowolnej długości do dowolnie ustalonego maksimum k wartość, (iii) wszystkie maksymalne podciągi, gdzie podciąg jest maksymalny, jeśli rozszerzenie go o dowolny znak spowodowałoby zmniejszenie liczby jego wystąpień.

Dystrybucja czasu powrotu (RTD)

Metoda oparta na RTD nie oblicza liczby k -merów w sekwencjach, zamiast tego oblicza czas potrzebny do ponownego pojawienia się k -merów. Czas odnosi się do liczby reszt w kolejnych pojawiających się poszczególnych k -merach. Zatem występowanie każdego k -meru w sekwencji oblicza się w postaci RTD, które następnie podsumowuje się za pomocą dwóch parametrów statystycznych, średniej (μ) i odchylenia standardowego (σ). Zatem każdy ciąg jest reprezentowany w postaci wektora liczbowego o rozmiarze 2⋅4 k zawierającego μ i σ 4 k RTD. Odległość parami między sekwencjami jest obliczana za pomocą euklidesowej miary odległości . Uzyskaną w ten sposób macierz odległości można wykorzystać do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp. Niedawne podejście Ekstrakcja wzorców poprzez pobieranie entropii (PEER) zapewnia bezpośrednie wykrywanie długości k-merów i podsumowuje interwał występowania za pomocą entropii .

Reprezentacja gry chaosu częstotliwości (FCGR)

Metody FCGR wyewoluowały z techniki reprezentacji gry chaosu (CGR), która zapewnia niezależną od skali reprezentację sekwencji genomowych. CGR można podzielić liniami siatki, gdzie każdy kwadrat siatki oznacza występowanie w sekwencji oligonukleotydów o określonej długości. Taka reprezentacja CGR jest określana jako reprezentacja gier chaosu częstotliwości (FCGR). Prowadzi to do reprezentacji każdej sekwencji w FCGR. Odległość parami między FCGR sekwencji można obliczyć za pomocą odległości Pearsona, odległości Hamminga lub odległości euklidesowej.

Częstotliwości słów z odstępami

Podczas gdy większość algorytmów bez wyrównania porównuje kompozycję słów w sekwencjach, Spaced Words używa wzorca pozycji „ostrożnie” i „nie przejmuj się”. Wystąpienie słowa z odstępem w sekwencji jest wówczas definiowane tylko przez znaki na pozycjach dopasowania, podczas gdy znaki na pozycjach „nieważne” są ignorowane. Zamiast porównywać częstotliwości kolejnych słów w sekwencjach wejściowych, to podejście porównuje częstotliwości słów rozmieszczonych w odstępach zgodnie z wcześniej zdefiniowanym wzorcem. Należy zauważyć, że predefiniowany wzór można wybrać poprzez analizę wariancji liczby dopasowań, prawdopodobieństwa pierwszego wystąpienia w kilku modelach lub współczynnika korelacji Pearsona między oczekiwaną częstotliwością słowa a rzeczywistą odległością wyrównania.

Metody oparte na długości wspólnych podłańcuchów

Metody z tej kategorii wykorzystują podobieństwa i różnice podłańcuchów w parze sekwencji. Algorytmy te były najczęściej używane do przetwarzania ciągów znaków w informatyce .

Średni wspólny podciąg (ACS)

W tym podejściu, dla wybranej pary sekwencji ( odpowiednio A i B o długościach n i m ), najdłuższy podłańcuch zaczynający się na jakiejś pozycji jest identyfikowany w jednej sekwencji (A), która dokładnie pasuje do drugiej sekwencji (B) na dowolnej pozycji. W ten sposób obliczane są długości najdłuższych podłańcuchów rozpoczynających się w różnych pozycjach w sekwencji A i mających dokładne dopasowanie w niektórych pozycjach w sekwencji B. Wszystkie te długości są uśredniane w celu uzyskania miary . Intuicyjnie, większe , im bardziej podobne są te dwie sekwencje. Aby uwzględnić różnice w długości sekwencji, tj. ]. Daje to miarę podobieństwa między sekwencjami.

Aby wyprowadzić miarę odległości, przyjmuje się odwrotność podobieństwa i odejmuje się od niej składnik korygujący, . Zatem

Ta trzeba , co daje ostateczną miarę ACS między dwiema strunami (A i B). Wyszukiwanie podsekwencji/podłańcucha może być skutecznie przeprowadzone przy użyciu drzew sufiksowych .

k - niedopasowanie średnie wspólne podejście do podciągów (kmacs)

To podejście jest uogólnieniem podejścia ACS. Aby zdefiniować odległość między dwiema sekwencjami DNA lub białek, kmacs szacuje dla każdej pozycji i pierwszej sekwencji najdłuższy podłańcuch zaczynający się od i i pasujący podłańcuch drugiej sekwencji z maksymalnie k niedopasowaniami . Definiuje średnią z tych wartości jako miarę podobieństwa między sekwencjami i przekształca ją w symetryczną miarę odległości. Kmacs nie oblicza dokładnie k -niedopasowanych podłańcuchów, ponieważ byłoby to zbyt kosztowne obliczeniowo, ale przybliża takie podciągi.

Odległości mutacji (Kr)

To podejście jest ściśle związane z ACS, które oblicza liczbę podstawień na miejsce między dwiema sekwencjami DNA przy użyciu najkrótszego nieobecnego podłańcucha (określanego jako shustring).

Rozkład długości wspólnych podciągów niedopasowania k

To podejście wykorzystuje program kmacs do obliczenia najdłuższych wspólnych podłańcuchów z maksymalnie k niezgodnościami dla pary sekwencji DNA. Odległość filogenetyczną między sekwencjami można następnie oszacować na podstawie lokalnego maksimum w rozkładzie długości wspólnych podciągów niedopasowania k.

Metody oparte na liczbie (oddzielonych) dopasowań słów

i

wariantami statystyk liczbę między dwiema sekwencjami. Poprawiają proste pod uwagę rozkład w tle porównywanych sekwencji.

ZACIER

która wykorzystuje strategię dolnego szkicu MinHash do oszacowania indeksu Jaccarda zestawów -merów dwóch sekwencji wejściowych. Oznacza to że szacuje stosunek do całkowitej liczby sekwencji. Można to z kolei wykorzystać do oszacowania odległości ewolucyjnych między porównywanymi sekwencjami, mierzonych jako liczba podstawień na pozycję sekwencji od czasu ewolucji sekwencji od ich ostatniego wspólnego przodka.

Slope Tree

dwiema sekwencjami białek na podstawie zaniku liczby jeśli wzrasta.

Slope-SpaM

Ta metoda oblicza liczbę -mer lub rozstawionych słów ( SpaM ) dla różnych długości słowa lub liczby pozycji dopasowania odpowiednio we wzorcu bazowym. Nachylenie funkcji afiniczno-liniowej zależy od w celu oszacowania odległości Jukesa-Cantora między sekwencjami wejściowymi.

Skmer

Skmer oblicza odległości między gatunkami na podstawie niezmontowanych odczytów sekwencjonowania. jak MASH , używa indeksu Jaccarda na zbiorach z sekwencji wejściowych. W przeciwieństwie do MASH , program jest nadal dokładny dla niskiego pokrycia sekwencjonowaniem, więc może być używany do skimmingu genomu .

Metody oparte na mikroustawieniach

Ściśle mówiąc, metody te nie są wolne od wyrównania . Wykorzystują proste, pozbawione przerw mikrodopasowania , w których sekwencje muszą pasować w określonych, wcześniej zdefiniowanych pozycjach. Pozycje wyrównane w pozostałych pozycjach mikrodopasowań , w których niedopasowania są dozwolone, są następnie wykorzystywane do wnioskowania o filogenezie.

kofilog

Ta metoda wyszukuje tak zwane struktury , które są zdefiniowane jako pary dopasowań k -mer między dwiema sekwencjami DNA, które są oddalone od siebie o jedną pozycję w obu sekwencjach. Dwa k -mer nazywane są kontekstem , pozycja między nimi nazywana jest obiektem . Co-phylog określa następnie odległość między dwiema sekwencjami, frakcję takich struktur , dla których dwa nukleotydy w obiekcie są różne. Podejście to można zastosować do niezmontowanych odczytów sekwencjonowania.

i ja

andi szacuje odległości filogenetyczne między sekwencjami genomowymi na podstawie lokalnych dopasowań bez przerw, które są flankowane przez maksymalne dokładne dopasowania słów. Takie dopasowania słów można skutecznie znaleźć za pomocą tablic sufiksów. Dopasowania bez przerw między dokładnymi dopasowaniami słów są następnie wykorzystywane do oszacowania odległości filogenetycznych między sekwencjami genomu. Uzyskane oszacowania odległości są dokładne do około 0,6 podstawień na pozycję.

Filtrowane dopasowania słów z odstępami (FSWM)

FSWM wykorzystuje predefiniowany wzorzec binarny P reprezentujący tak zwane pozycje dopasowania i pozycje obojętne . Następnie dla pary wejściowych sekwencji DNA wyszukuje pasujące słowa wrt P , tj. lokalne dopasowania bez przerw z pasującymi nukleotydami w pozycjach dopasowania P i możliwymi niedopasowaniami w pozycjach „nie przejmuj się” . Fałszywe dopasowania słów z odstępami o niskiej punktacji są odrzucane, odległości ewolucyjne między sekwencjami wejściowymi są szacowane na podstawie nukleotydów wyrównanych ze sobą w pozycjach obojętnych pozostałych , homologicznych dopasowań słów z odstępami. FSWM został przystosowany do szacowania odległości na podstawie niezmontowanych odczytów NGS, ta wersja programu nazywa się Read-SpaM .

Prot-SpaM

Prot-SpaM ( Prot eome-based Spa ced-word M atches) jest implementacją algorytmu FSWM dla częściowych lub całych sekwencji proteomowych.

Multi-SpaM

Multi-SpaM ( Multiple Spa ced-word M atches) to podejście do rekonstrukcji filogenezy opartej na genomie, które rozszerza ideę FSWM na wielokrotne porównywanie sekwencji . Biorąc pod uwagę binarny wzór P pasujących pozycji i pozycji „nie przejmuj się” , program szuka P -bloków, tj. lokalnych, pozbawionych przerw czterokierunkowych dopasowań z pasującymi nukleotydami w pozycjach dopasowania P i możliwymi niedopasowaniami w pozycji „ nie” - stanowiska opiekuńcze . Takie czterokierunkowe dopasowania są losowo pobierane z zestawu wejściowych sekwencji genomu. Dla każdego P obliczana jest topologia drzewa bez korzeni przy użyciu RAxML . Program Quartet MaxCut jest następnie używany do obliczenia superdrzewa z tych drzew.

Metody oparte na teorii informacji

Teoria informacji dostarczyła skutecznych metod analizy i porównania sekwencji bez dopasowania. Istniejące zastosowania teorii informacji obejmują globalną i lokalną charakterystykę DNA, RNA i białek, szacowanie entropii genomu do klasyfikacji motywów i regionów. Jest również obiecujący w mapowaniu genów , analizie sekwencjonowania nowej generacji i metagenomice .

Korelacja baza-baza (BBC)

Korelacja podstawa-zasada (BBC) przekształca sekwencję genomu w unikalny 16-wymiarowy wektor liczbowy przy użyciu następującego równania:

P { prawdopodobieństwa zasad i j genomie. P { wskazuje prawdopodobieństwo zasad i i j na odległość w genomie. Parametr K wskazuje maksymalną odległość między podstawami i oraz j . Zmienność wartości 16 parametrów odzwierciedla zmienność zawartości i długości genomu.

Korelacja informacji i częściowa korelacja informacji (IC-PIC)

Metoda oparta na IC-PIC (korelacja informacji i częściowa korelacja informacji) wykorzystuje właściwość korelacji bazowej sekwencji DNA. IC i PIC obliczono za pomocą następujących wzorów,

Ostateczny wektor otrzymuje się w następujący sposób:

który określa zakres odległości między podstawami.

Odległość parami między sekwencjami jest obliczana za pomocą euklidesowej miary odległości. Otrzymaną w ten sposób macierz odległości można wykorzystać do skonstruowania drzewa filogenetycznego przy użyciu algorytmów grupowania, takich jak łączenie sąsiadów , UPGMA itp.

Kompresja

Przykładami są efektywne przybliżenia złożoności Kołmogorowa , na przykład złożoność Lempla-Ziva . Ogólnie rzecz biorąc, metody oparte na kompresji wykorzystują wzajemne informacje między sekwencjami. Wyraża się to warunkową złożonością Kołmogorowa , to znaczy długością najkrótszego samoograniczającego programu wymaganego do wygenerowania ciągu przy wcześniejszej znajomości drugiego ciągu. Ta miara ma związek z pomiarem k -słowa w sekwencji, ponieważ można ich łatwo użyć do wygenerowania sekwencji. Czasami jest to metoda wymagająca dużej mocy obliczeniowej. Teoretyczne podstawy podejścia opartego na złożoności Kołmogorowa położyli Bennett, Gacs, Li, Vitanyi i Zurek (1998), proponując odległość informacyjną . Złożoność Kołmogorowa będąc nieobliczalnym, został przybliżony za pomocą algorytmów kompresji. Im lepiej się kompresują, tym są lepsze. Li, Badger, Chen, Kwong, Kearney i Zhang (2001) zastosowali nieoptymalną, ale znormalizowaną formę tego podejścia, a optymalna znormalizowana forma Li, Chen, Li, Ma i Vitanyi (2003) pojawiła się w i bardziej obszernie i udowodnione przez Cilibrasi i Vitanyi (2005) w. Otu i Sayood (2003) wykorzystali złożoności Lempela-Ziva do skonstruowania pięciu różnych miar odległości do konstrukcji drzewa filogenetycznego .

Kompresja modelowania kontekstowego

W złożoności modelowania kontekstowego prognozy następnego symbolu jednego lub więcej modeli statystycznych są łączone lub konkurują, aby uzyskać prognozę opartą na zdarzeniach zarejestrowanych w przeszłości. Algorytmiczna zawartość informacji uzyskana z przewidywania każdego symbolu może być wykorzystana do obliczenia algorytmicznych profili informacji z czasem proporcjonalnym do długości sekwencji. Proces został zastosowany do analizy sekwencji DNA.

Metody oparte na reprezentacji graficznej

Mapy iterowane

Wykorzystanie iterowanych map do analizy sekwencji zostało po raz pierwszy wprowadzone przez HJ Jeffereya w 1990 roku, kiedy zaproponował zastosowanie Chaos Game do mapowania sekwencji genomowych do kwadratu jednostkowego. W raporcie tym nazwano procedurę Chaos Game Representation (CGR). Jednak zaledwie 3 lata później podejście to zostało po raz pierwszy odrzucone jako projekcja tablicy przejść Markowa autorstwa N. Goldmana. Zastrzeżenie to zostało odrzucone pod koniec tej dekady, kiedy okazało się, że jest odwrotnie - że CGR bijektywnie odwzorowuje przejście Markowa na fraktalną, pozbawioną porządku (bez stopni) reprezentację. Uświadomienie sobie, że iterowane mapy zapewniają bijektywną mapę między przestrzenią symboliczną a przestrzenią numeryczną, doprowadziło do zidentyfikowania różnych podejść do porównywania i charakteryzacji sekwencji bez wyrównania. Zmiany te zostały zweryfikowane pod koniec 2013 r. przez JS Almeidę w. Szereg aplikacji internetowych, takich jak https://github.com/usm/usm.github.com/wiki , są dostępne, aby zademonstrować, jak kodować i porównywać dowolne sekwencje symboliczne w sposób, który w pełni wykorzystuje nowoczesną dystrybucję MapReduce opracowaną dla przetwarzania w chmurze.

Porównanie metod opartych na dopasowaniu i bez wyrównania

Metody oparte na wyrównaniu Metody bez wyrównania
Metody te zakładają, że regiony homologiczne są ciągłe (z przerwami) Nie zakłada takiej przyległości regionów homologicznych
Oblicza wszystkie możliwe porównania parami sekwencji; stąd kosztowny obliczeniowo Na podstawie wystąpień podsekwencji; kompozycja; niedrogie obliczeniowo, może wymagać dużej ilości pamięci
Ugruntowane podejście w filogenetyce Stosunkowo niedawno i zastosowanie w filogenetyce jest ograniczone; wymaga dalszych testów pod kątem solidności i skalowalności
Wymaga modeli substytucyjnych/ewolucyjnych Mniej zależne od modeli substytucyjnych/ewolucyjnych
Wrażliwy na stochastyczną zmianę sekwencji, rekombinację, poziomy (lub boczny) transfer genów, niejednorodność szybkości i sekwencje o różnej długości, zwłaszcza gdy podobieństwo leży w „strefie zmierzchu” Mniej wrażliwy na stochastyczną zmianę sekwencji, rekombinację, poziomy (lub boczny) transfer genów, niejednorodność szybkości i sekwencje o różnej długości
Najlepsza praktyka wykorzystuje algorytmy wnioskowania o złożoności co najmniej O(n 2 ); mniej efektywne czasowo Algorytmy wnioskowania zazwyczaj O(n 2 ) lub mniej; bardziej efektywne czasowo
Heurystyczny z natury; istotność statystyczna tego, w jaki sposób wyniki wyrównania odnoszą się do homologii, jest trudna do oszacowania Dokładne rozwiązania; istotność statystyczna odległości sekwencji (i stopnia podobieństwa) może być łatwo oceniona
Opiera się na programowaniu dynamicznym (kosztownym obliczeniowo), aby znaleźć wyrównanie, które ma optymalny wynik. omija kosztowne obliczeniowo programowanie dynamiczne poprzez indeksowanie liczby słów lub pozycji w przestrzeni fraktalnej.

Zastosowania metod bezliniowych

  • Rearanżacje genomu
  • Filogenetyka molekularna
  • Metagenomika
  • Analiza danych sekwencji nowej generacji
  • Epigenomika
  • Kody kreskowe gatunków
  • Genetyka populacji
  • Poziomy transfer genów
  • Sero/genotypowanie wirusów
  • Przewidywanie alergii
  • odkrycie SNP
  • Wykrywanie rekombinacji
  • Klasyfikacja wirusów
  • Identyfikacja taksonomiczna archeonów

Lista serwerów WWW/oprogramowania dla metod bez wyrównania

Nazwa Opis Dostępność Odniesienie
Protcomp Podejście do punktacji najbardziej wyrazistych funkcji PROTKOMP
kmacs k - niedopasowanie średnie wspólne podejście podłańcuchowe kmacs
Oddzielone słowa Częstotliwości słów z odstępami słowa z odstępami
kofilog bezmontażowe podejście do mikroustawiania kofilog
Prot-SpaM Dopasowania słów z odstępami oparte na proteomie Prot-SpaM
FSWM Filtrowane dopasowania słów z odstępami FSWM
FFP Filogeneza oparta na profilu częstotliwości cech FFP
Drzewo CV Serwer oparty na wektorze kompozycji dla filogenezy Drzewo CV
Filogeneza BRT Serwer oparty na dystrybucji czasu powrotu dla filogenezy Filogeneza BRT
AGP Wielometodowy serwer sieciowy do filogenezy genomu bez dopasowania AGP
Alfy Wykrywanie lokalnego podobieństwa między genomami wirusowymi i bakteryjnymi bez dopasowania Alfy
bezkofeinowa + pi Obliczanie odległości przy użyciu metod bez wyrównania w PYthonie bezkofeinowa + pi
Podtyp dengi Genotypowanie wirusów dengi na podstawie RTD Podtyp dengi
Typer WNV Genotypowanie wirusów Zachodniego Nilu na podstawie RTD Typer WNV
alergenFP Przewidywanie alergenności na podstawie odcisków palców deskryptorów alergenFP
kSNP v2 Wykrywanie SNP bez wyrównania kSNP v2
d2Narzędzia Porównanie próbek metatranskryptomicznych na podstawie częstości k -krotek d2Narzędzia
pośpiech Wykrywanie rekombinacji za pomocą SHustrings pośpiech
rozbić Wykrywanie i wizualizacja rearanżacji genomowych rozbić
Smash++ Znajdowanie i wizualizacja rearanżacji genomowych Smash++
GSporównaj Szybkie grupowanie genomów bakteryjnych oparte na oligonukleotydach GSporównaj
KOMETA Wolne od dopasowania podtypowanie sekwencji wirusowych HIV-1, HIV-2 i HCV KOMETA
USM Fractal MapZredukuj rozkład dopasowania sekwencji usm.github.io
SOKÓŁ Metoda bez dopasowania do wnioskowania o składzie metagenomicznym starożytnego DNA SOKÓŁ
Kraken Klasyfikacja taksonomiczna przy użyciu dokładnych dopasowań k-mer Kraken 2
CLC Drzewa filogenetyczne wykorzystujące dopasowywanie oparte na k-merach bez odniesienia Moduł genomu drobnoustrojów CLC
ORZEŁ Ultraszybkie narzędzie do znajdowania względnie nieobecnych słów w danych genomowych ORZEŁ2

Zobacz też