Grupowanie sekwencji
W bioinformatyce algorytmy grupowania sekwencji próbują grupować sekwencje biologiczne , które są w jakiś sposób powiązane. Sekwencje mogą być pochodzenia genomowego , „ transkryptomowego ” ( EST ) lub białkowego . W przypadku białek sekwencje homologiczne zazwyczaj grupuje się w rodziny . W przypadku danych EST grupowanie jest ważne dla grupowania sekwencji pochodzących z tego samego genu przed złożeniem EST do rekonstrukcji oryginalnego mRNA .
Niektóre algorytmy grupowania wykorzystują klastrowanie z pojedynczym wiązaniem , konstruując przechodnie domknięcie sekwencji o podobieństwie powyżej określonego progu. UCLUST i CD-HIT używają zachłannego algorytmu , który identyfikuje reprezentatywną sekwencję dla każdego klastra i przypisuje nową sekwencję do tego klastra, jeśli jest wystarczająco podobny do reprezentatywnego; jeśli sekwencja nie jest dopasowana, staje się sekwencją reprezentatywną dla nowego klastra. Wynik podobieństwa jest często oparty na dopasowaniu sekwencji . Grupowanie sekwencji jest często używane do tworzenia nieredundantnego zestawu reprezentatywnych sekwencji .
Klastry sekwencji są często synonimami (ale nie identycznymi) rodzinami białek . Określenie reprezentatywnej struktury trzeciorzędowej dla każdego klastra sekwencji jest celem wielu inicjatyw genomiki strukturalnej .
Algorytmy i pakiety grupowania sekwencji
- CD-HIT
- UCLUST w USEARCH
- Starcode: szybki algorytm grupowania sekwencji oparty na dokładnym wyszukiwaniu wszystkich par.
- OrthoFinder: szybka, skalowalna i dokładna metoda grupowania białek w rodziny genów (ortogrupy)
- Linclust: pierwszy algorytm, którego czas wykonania skaluje się liniowo wraz z rozmiarem zestawu wejściowego, bardzo szybki, część pakietu oprogramowania MMseqs2 do szybkiego, czułego wyszukiwania sekwencji i grupowania dużych zestawów sekwencji
- TribeMCL: metoda grupowania białek w powiązane grupy
- BAG: algorytm grupowania sekwencji oparty na teorii grafów
- JESAM: Otwarty, skalowalny, równoległy silnik dopasowywania DNA z opcjonalnym komponentem oprogramowania do grupowania
- UICluster: Równoległe klastrowanie sekwencji EST (genów).
- BLASTClust klastrowanie z pojedynczym powiązaniem za pomocą BLAST
- Clusterer: rozszerzalna aplikacja Java do grupowania sekwencji i analiz klastrów
- PATDB: program do szybkiego identyfikowania doskonałych podciągów
- nrdb: program do łączenia trywialnie zbędnych (identycznych) sekwencji
- CluSTr: Baza danych grupowania sekwencji białek z pojedynczym wiązaniem na podstawie podobieństw sekwencji Smitha-Watermana; obejmuje ponad 7 mln sekwencji, w tym UniProt i IPI
- ICAtools - oryginalny (starożytny) pakiet do grupowania DNA z wieloma algorytmami przydatnymi do odkrywania artefaktów lub klastrowania EST
- Narzędzie Skipredudant EMBOSS do usuwania zbędnych sekwencji z zestawu
- Algorytm CLUSS do identyfikacji grup strukturalnie, funkcjonalnie lub ewolucyjnie powiązanych, trudnych do dopasowania sekwencji białek. Serwer WWW CLUS
- CLUSS2 Algorytm grupowania rodzin trudnych do dopasowania sekwencji białkowych o wielu funkcjach biologicznych. Serwer WWW CLUSS2
Nieredundantne bazy danych sekwencji
- RYBY: serwer uboju sekwencji białek
- RDB90
- UniRef: Nieredundantna baza danych sekwencji UniProt
- Uniclust: Zgrupowane sekwencje UniProtKB na poziomie 90%, 50% i 30% parzystej identyczności sekwencji.
- Virus Orthologous Clusters: Baza danych skupiająca sekwencje białek wirusowych; zawiera wszystkie przewidywane geny z jedenastu rodzin wirusów zorganizowanych w grupy ortologiczne według podobieństwa BLASTP