Grupowanie sekwencji

W bioinformatyce algorytmy grupowania sekwencji próbują grupować sekwencje biologiczne , które są w jakiś sposób powiązane. Sekwencje mogą być pochodzenia genomowego , „ transkryptomowego ” ( EST ) lub białkowego . W przypadku białek sekwencje homologiczne zazwyczaj grupuje się w rodziny . W przypadku danych EST grupowanie jest ważne dla grupowania sekwencji pochodzących z tego samego genu przed złożeniem EST do rekonstrukcji oryginalnego mRNA .

Niektóre algorytmy grupowania wykorzystują klastrowanie z pojedynczym wiązaniem , konstruując przechodnie domknięcie sekwencji o podobieństwie powyżej określonego progu. UCLUST i CD-HIT używają zachłannego algorytmu , który identyfikuje reprezentatywną sekwencję dla każdego klastra i przypisuje nową sekwencję do tego klastra, jeśli jest wystarczająco podobny do reprezentatywnego; jeśli sekwencja nie jest dopasowana, staje się sekwencją reprezentatywną dla nowego klastra. Wynik podobieństwa jest często oparty na dopasowaniu sekwencji . Grupowanie sekwencji jest często używane do tworzenia nieredundantnego zestawu reprezentatywnych sekwencji .

Klastry sekwencji są często synonimami (ale nie identycznymi) rodzinami białek . Określenie reprezentatywnej struktury trzeciorzędowej dla każdego klastra sekwencji jest celem wielu inicjatyw genomiki strukturalnej .

Algorytmy i pakiety grupowania sekwencji

  • CD-HIT
  • UCLUST w USEARCH
  • Starcode: szybki algorytm grupowania sekwencji oparty na dokładnym wyszukiwaniu wszystkich par.
  • OrthoFinder: szybka, skalowalna i dokładna metoda grupowania białek w rodziny genów (ortogrupy)
  • Linclust: pierwszy algorytm, którego czas wykonania skaluje się liniowo wraz z rozmiarem zestawu wejściowego, bardzo szybki, część pakietu oprogramowania MMseqs2 do szybkiego, czułego wyszukiwania sekwencji i grupowania dużych zestawów sekwencji
  • TribeMCL: metoda grupowania białek w powiązane grupy
  • BAG: algorytm grupowania sekwencji oparty na teorii grafów
  • JESAM: Otwarty, skalowalny, równoległy silnik dopasowywania DNA z opcjonalnym komponentem oprogramowania do grupowania
  • UICluster: Równoległe klastrowanie sekwencji EST (genów).
  • BLASTClust klastrowanie z pojedynczym powiązaniem za pomocą BLAST
  • Clusterer: rozszerzalna aplikacja Java do grupowania sekwencji i analiz klastrów
  • PATDB: program do szybkiego identyfikowania doskonałych podciągów
  • nrdb: program do łączenia trywialnie zbędnych (identycznych) sekwencji
  • CluSTr: Baza danych grupowania sekwencji białek z pojedynczym wiązaniem na podstawie podobieństw sekwencji Smitha-Watermana; obejmuje ponad 7 mln sekwencji, w tym UniProt i IPI
  • ICAtools - oryginalny (starożytny) pakiet do grupowania DNA z wieloma algorytmami przydatnymi do odkrywania artefaktów lub klastrowania EST
  • Narzędzie Skipredudant EMBOSS do usuwania zbędnych sekwencji z zestawu
  • Algorytm CLUSS do identyfikacji grup strukturalnie, funkcjonalnie lub ewolucyjnie powiązanych, trudnych do dopasowania sekwencji białek. Serwer WWW CLUS
  • CLUSS2 Algorytm grupowania rodzin trudnych do dopasowania sekwencji białkowych o wielu funkcjach biologicznych. Serwer WWW CLUSS2

Nieredundantne bazy danych sekwencji

  • RYBY: serwer uboju sekwencji białek
  • RDB90
  • UniRef: Nieredundantna baza danych sekwencji UniProt
  • Uniclust: Zgrupowane sekwencje UniProtKB na poziomie 90%, 50% i 30% parzystej identyczności sekwencji.
  • Virus Orthologous Clusters: Baza danych skupiająca sekwencje białek wirusowych; zawiera wszystkie przewidywane geny z jedenastu rodzin wirusów zorganizowanych w grupy ortologiczne według podobieństwa BLASTP

Zobacz też