Grupowanie sekwencji

W bioinformatyce algorytmy grupowania sekwencji próbują grupować sekwencje biologiczne , które są w jakiś sposób powiązane. Sekwencje mogą być pochodzenia genomowego , „ transkryptomowego ” ( EST ) lub białkowego . W przypadku białek sekwencje homologiczne zazwyczaj grupuje się w rodziny . W przypadku danych EST grupowanie jest ważne dla grupowania sekwencji pochodzących z tego samego genu przed złożeniem EST do rekonstrukcji oryginalnego mRNA .

Niektóre algorytmy grupowania wykorzystują klastrowanie z pojedynczym wiązaniem , konstruując przechodnie domknięcie sekwencji o podobieństwie powyżej określonego progu. UCLUST i CD-HIT używają zachłannego algorytmu , który identyfikuje reprezentatywną sekwencję dla każdego klastra i przypisuje nową sekwencję do tego klastra, jeśli jest wystarczająco podobny do reprezentatywnego; jeśli sekwencja nie jest dopasowana, staje się sekwencją reprezentatywną dla nowego klastra. Wynik podobieństwa jest często oparty na dopasowaniu sekwencji . Grupowanie sekwencji jest często używane do tworzenia nieredundantnego zestawu reprezentatywnych sekwencji .

Klastry sekwencji są często synonimami (ale nie identycznymi) rodzinami białek . Określenie reprezentatywnej struktury trzeciorzędowej dla każdego klastra sekwencji jest celem wielu inicjatyw genomiki strukturalnej .

Algorytmy i pakiety grupowania sekwencji

CD-HIT
UCLUST w USEARCH
Starcode: szybki algorytm grupowania sekwencji oparty na dokładnym wyszukiwaniu wszystkich par.
OrthoFinder: szybka, skalowalna i dokładna metoda grupowania białek w rodziny genów (ortogrupy)
Linclust: pierwszy algorytm, którego czas wykonania skaluje się liniowo wraz z rozmiarem zestawu wejściowego, bardzo szybki, część pakietu oprogramowania MMseqs2 do szybkiego, czułego wyszukiwania sekwencji i grupowania dużych zestawów sekwencji
TribeMCL: metoda grupowania białek w powiązane grupy
BAG: algorytm grupowania sekwencji oparty na teorii grafów
JESAM: Otwarty, skalowalny, równoległy silnik dopasowywania DNA z opcjonalnym komponentem oprogramowania do grupowania
UICluster: Równoległe klastrowanie sekwencji EST (genów).
BLASTClust klastrowanie z pojedynczym powiązaniem za pomocą BLAST
Clusterer: rozszerzalna aplikacja Java do grupowania sekwencji i analiz klastrów
PATDB: program do szybkiego identyfikowania doskonałych podciągów
nrdb: program do łączenia trywialnie zbędnych (identycznych) sekwencji
CluSTr: Baza danych grupowania sekwencji białek z pojedynczym wiązaniem na podstawie podobieństw sekwencji Smitha-Watermana; obejmuje ponad 7 mln sekwencji, w tym UniProt i IPI
ICAtools - oryginalny (starożytny) pakiet do grupowania DNA z wieloma algorytmami przydatnymi do odkrywania artefaktów lub klastrowania EST
Narzędzie Skipredudant EMBOSS do usuwania zbędnych sekwencji z zestawu
Algorytm CLUSS do identyfikacji grup strukturalnie, funkcjonalnie lub ewolucyjnie powiązanych, trudnych do dopasowania sekwencji białek. Serwer WWW CLUS
CLUSS2 Algorytm grupowania rodzin trudnych do dopasowania sekwencji białkowych o wielu funkcjach biologicznych. Serwer WWW CLUSS2

Nieredundantne bazy danych sekwencji

RYBY: serwer uboju sekwencji białek
RDB90
UniRef: Nieredundantna baza danych sekwencji UniProt
Uniclust: Zgrupowane sekwencje UniProtKB na poziomie 90%, 50% i 30% parzystej identyczności sekwencji.
Virus Orthologous Clusters: Baza danych skupiająca sekwencje białek wirusowych; zawiera wszystkie przewidywane geny z jedenastu rodzin wirusów zorganizowanych w grupy ortologiczne według podobieństwa BLASTP

Zobacz też