Asemblery sekwencji de novo

Asemblery sekwencji de novo to rodzaj programu, który składa krótkie sekwencje nukleotydowe w dłuższe bez użycia genomu referencyjnego . Są one najczęściej stosowane w badaniach bioinformatycznych do składania genomów lub transkryptomów . Dwa popularne typy asemblerów de novo to algorytmów zachłannych i asemblery grafów De Bruijn .

Rodzaje asemblerów de novo

Istnieją dwa rodzaje algorytmów, które są powszechnie stosowane przez te asemblery: algorytmy zachłanne , które dążą do lokalnych optimów , oraz algorytmy metody grafowej, które dążą do globalnych optimów . Różne asemblery są dostosowane do konkretnych potrzeb, takich jak składanie (małych) genomów bakteryjnych, (dużych) genomów eukariotycznych lub transkryptomów.

Asemblery algorytmów zachłannych to asemblery, które znajdują lokalne optyma w dopasowaniu mniejszych odczytów . Asemblery algorytmów zachłannych zwykle obejmują kilka etapów: 1) obliczanie odległości odczytów parami, 2) grupowanie odczytów z największym nakładaniem się, 3) składanie nakładających się odczytów w większe kontigi i 4) powtarzanie. Algorytmy te zwykle nie działają dobrze w przypadku większych zestawów odczytu, ponieważ nie osiągają łatwo globalnego optimum w zestawie i nie działają dobrze w zestawach odczytu zawierających regiony powtarzalne. Wczesne asemblery sekwencji de novo, takie jak SEQAID (1984) i CAP (1992), wykorzystywały zachłanne algorytmy, takie jak algorytmy konsensusu w układzie nakładania się (OLC). Algorytmy te znajdują nakładanie się wszystkich odczytów, wykorzystują nakładanie się do określenia układu (lub kafelkowania) odczytów, a następnie tworzą sekwencję konsensusu. Niektóre programy wykorzystujące algorytmy OLC zawierały filtrację (w celu usunięcia par odczytów, które nie będą się nakładać) oraz metody heurystyczne w celu zwiększenia szybkości analiz.

Asemblery metody grafowej występują w dwóch odmianach: string i De Bruijn. Grafy łańcuchowe i asemblery metod grafów De Bruijna zostały wprowadzone na warsztatach DIMACS w 1994 roku przez Watermana i Gene'a Myersa . Metody te stanowiły ważny krok naprzód w składaniu sekwencji, ponieważ obie wykorzystują algorytmy do osiągnięcia globalnego optimum zamiast lokalnego optimum. Podczas gdy obie te metody poczyniły postępy w kierunku lepszych złożeń, metoda wykresów De Bruijna stała się najpopularniejsza w dobie sekwencjonowania nowej generacji. Podczas składania grafu De Bruijna odczyty są dzielone na mniejsze fragmenty o określonej wielkości, k. K -mery są następnie używane jako węzły w zestawie wykresów. Węzły, które zachodzą na siebie w pewnym stopniu (zazwyczaj k-1), są następnie łączone krawędzią. Asembler następnie skonstruuje sekwencje w oparciu o graf De Bruijna. Asemblery grafów De Bruijna zwykle działają lepiej na większych zestawach odczytów niż asemblery algorytmów zachłannych (zwłaszcza gdy zawierają powtarzające się regiony).

Powszechnie używane programy

Lista asemblerów de-novo
Nazwa Opis /

Metodologia

Technologie Autor Przedstawione /

Ostatnio zaktualizowany

Licencja* Strona główna
Przepaść równoległy asembler sekwencji ze sparowanymi końcami przeznaczony do składania dużych genomów krótkich odczytów (genomicznych i transkryptomicznych), wykorzystuje filtr Blooma do wykresu De Bruijna Illumina 2009 / 2017 system operacyjny połączyć
ODKRYJ odczyty wolne od PCR ze sparowanymi końcami (następca ALLPATHS-LG) Illumina (MiSeq lub HiSeq 2500) 2014 system operacyjny połączyć
Asembler sekwencji bazowej DNA Składanie sekwencji DNA z automatycznym przycinaniem końców i korekcją niejednoznaczności. Obejmuje rozmówcę bazowego. Sanger, Ilumina Heracle BioSoft SRL 2018.09 C (69 USD) NA
Genomika DNASTAR Lasergene (duże) genomy, egzomy, transkryptomy, metagenomy, EST Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger DNASTAR 2007 / 2016 C połączyć
Newblera genomy, EST 454, Sanger 454 Nauki o życiu 2004/2012 C połączyć
frap genomy Sanger, 454, Solexa zielony, p. 1994 / 2008 C / NC-A połączyć
Plastyczny Asembler na poziomie białka: składa odczyty sekwencjonowania z translacją sześciu ramek w sekwencje białkowe Illumina 2018 / 2019 system operacyjny połączyć
Promień zestaw asemblerów, w tym profilowanie de novo, metagenomiczne, ontologiczne i taksonomiczne; używa wykresu De Bruijna 2010 system operacyjny połączyć
Pik (małe) genomy, jednokomórkowe Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore 2012 / 2021 system operacyjny połączyć
Aksamit (małe) genomy Sanger, 454, Solexa, SOLiD 2007 / 2011 system operacyjny połączyć
HGAP Genomy do 130 MB PacBio czyta 2011 / 2015 system operacyjny połączyć
Sokół Genomy diploidalne PacBio czyta 2014 / 2017 system operacyjny połączyć
Mozesz Małe i duże genomy haploidalne/diploidalne PacBio/Oxford Nanopore czyta 2001 / 2018 system operacyjny połączyć
MaSuRCA Dowolny rozmiar, genomy haploidalne/diploidalne Dane Illumina i PacBio/Oxford Nanopore, starsze dane 454 i Sanger 2011 / 2018 system operacyjny połączyć
Zawias Małe genomy drobnoustrojów PacBio/Oxford Nanopore czyta 2016 / 2018 system operacyjny połączyć
Trójca zespoły transkryptomu według wykresu de Bruijna Illumina RNA-sekw 2011 połączyć
* Licencje: OS = Open Source; C = komercyjny; C / NC-A = Komercyjny, ale bezpłatny dla użytkowników niekomercyjnych i akademickich

Różne asemblery są przeznaczone dla różnych typów technologii odczytu. Odczyty z technologii drugiej generacji (zwanych technologiami krótkiego odczytu), takie jak Illumina, są zazwyczaj krótkie (o długości rzędu 50-200 par zasad) i mają współczynniki błędów około 0,5-2%, przy czym błędy są głównie błędami podstawienia. Jednak odczyty z technologii trzeciej generacji, takich jak PacBio i technologii czwartej generacji, takich jak Oxford Nanopore (tzw. głównie insercje i delecje. Wymaga to różnych algorytmów asemblera z technologii krótkiego i długiego odczytu.

Zgromadzenie

Istnieje wiele programów do składania sekwencji de novo, a wiele z nich zostało porównanych w Assemblathonie. Assemblathon to okresowa, wspólna próba testowania i ulepszania wielu dostępnych asemblerów. Do tej pory zakończono dwa asemblatony (2011 i 2013), a trzeci jest w trakcie realizacji (stan na kwiecień 2017). Zespoły naukowców z całego świata wybierają program i składają symulowane genomy (Assemblathon 1) oraz genomy organizmów modelowych, które zostały wcześniej złożone i opatrzone adnotacjami (Assemblathon 2). Zespoły są następnie porównywane i oceniane przy użyciu wielu metryk.

Zgromadzenie 1

Assemblathon 1 odbył się w 2011 roku i obejmował 59 zgromadzeń z 17 różnych grup i organizatorów. Celem tego Assembalthonu było jak najdokładniejsze i kompletne złożenie genomu składającego się z dwóch haplotypów (każdy z trzema chromosomami odpowiednio 76,3, 18,5 i 17,7 Mb), który został wygenerowany przy użyciu Evolver. Do oceny zespołów wykorzystano liczne wskaźniki, w tym: NG50 (punkt, w którym osiąga się 50% całkowitego rozmiaru genomu, gdy długości rusztowań są sumowane od najdłuższego do najkrótszego), LG50 (liczba rusztowań, które są większe lub równe do długości N50), pokrycie genomu i wskaźnik błędów podstawienia.

  • Porównywane oprogramowanie: ABySS, Phusion2, phrap, Velvet, SOAPdenovo, PRICE, ALLPATHS-LG
  • Analiza N50: zespoły przez Plant Genome Assembly Group (przy użyciu asemblera Meraculous) i ALLPATHS, Broad Institute, USA (przy użyciu ALLPATHS-LG) wypadły najlepiej w tej kategorii, o rząd wielkości w stosunku do innych grup. Te zespoły zdobyły N50 > 8 000 000 baz.
  • Pokrycie genomu przez montaż: w przypadku tego wskaźnika najlepiej sprawdził się montaż BGI za pośrednictwem SOAPdenovo, przy czym pokryto 98,8% całego genomu. Wszyscy asemblerzy radzili sobie stosunkowo dobrze w tej kategorii, przy czym wszystkie grupy z wyjątkiem trzech miały zasięg 90% i wyższy, a najniższy łączny zasięg wynosił 78,5% (Dept. of Comp. Sci., University of Chicago, USA, via Kiki).
  • Błędy zastępcze: zespół z najniższym wskaźnikiem błędów zastępczych został przesłany przez zespół Wellcome Trust Sanger Institute z Wielkiej Brytanii przy użyciu oprogramowania SGA.
  • Ogółem: Żaden asembler nie wypadł znacząco lepiej w innych we wszystkich kategoriach. Podczas gdy niektóre asemblery celowały w jednej kategorii, w innych nie, co sugeruje, że wciąż jest wiele miejsca na poprawę jakości oprogramowania asemblera.

Zgromadzenie 2

Assemblathon 2 został udoskonalony w stosunku do Assemblathonu 1 poprzez włączenie genomów wielu kręgowców (ptaka ( Melopsittacus undulatus ), ryby ( Maylandia zebra ) i węża ( Boa dusiciel dusiciel )) z genomami szacowanymi na 1,2, 1,0 i 1,6 Gbp w długość) i ocenę za pomocą ponad 100 wskaźników. Każdy zespół miał cztery miesiące na zebranie swojego genomu z danych sekwencji nowej generacji (NGS), w tym danych sekwencji Illumina i Roche 454 .

  • Porównanie oprogramowania: ABySS, ALLPATHS-LG, PRICE, Ray i SOAPdenovo
  • Analiza N50: w przypadku składania genomu ptaka zespoły Baylor College of Medicine Human Genome Sequencing Center i ALLPATHS miały najwyższe NG50, odpowiednio ponad 16 000 000 i ponad 14 000 000 pz.
  • Obecność genów rdzeniowych: Większość zestawów wypadła dobrze w tej kategorii (~80% lub więcej), a tylko jeden spadł do nieco ponad 50% w swoim zespole genomu ptaka (Wayne State University przez HyDA).
  • Ogólnie: Ogólnie rzecz biorąc, Baylor College of Medicine Human Genome Sequencing Center wykorzystuje różne metody składania (SeqPrep, KmerFreq, Quake, BWA, Newbler, ALLPATHS-LG, Atlas-Link, Atlas-GapFill, Phrap, CrossMatch, Velvet, BLAST, i BLASR) wypadły najlepiej dla zespołów ptaków i ryb. W przypadku składania genomu węża najlepiej wypadł Wellcome Trust Sanger Institute przy użyciu SGA. W przypadku wszystkich zespołów firmy SGA, BCM, Meraculous i Ray przesłały konkurencyjne zespoły i oceny. Wyniki wielu opisanych tutaj zespołów i ocen sugerują, że chociaż jeden asembler może dobrze działać na jednym gatunku, może nie działać tak dobrze na innym. Autorzy przedstawiają kilka sugestii dotyczących asemblera: 1) użyj więcej niż jednego asemblera, 2) użyj więcej niż jednej metryki do oceny, 3) wybierz asembler, który wyróżnia się bardziej interesującymi metrykami (np. N50, pokrycie), 4) niskie N50 lub rozmiary zespołów mogą nie dotyczyć, w zależności od potrzeb użytkownika, oraz 5) ocenić poziomy heterozygotyczności w genomie będącym przedmiotem zainteresowania.

Zobacz też