Asemblery sekwencji de novo

Asemblery sekwencji de novo to rodzaj programu, który składa krótkie sekwencje nukleotydowe w dłuższe bez użycia genomu referencyjnego . Są one najczęściej stosowane w badaniach bioinformatycznych do składania genomów lub transkryptomów . Dwa popularne typy asemblerów de novo to algorytmów zachłannych i asemblery grafów De Bruijn .

Rodzaje asemblerów de novo

Istnieją dwa rodzaje algorytmów, które są powszechnie stosowane przez te asemblery: algorytmy zachłanne , które dążą do lokalnych optimów , oraz algorytmy metody grafowej, które dążą do globalnych optimów . Różne asemblery są dostosowane do konkretnych potrzeb, takich jak składanie (małych) genomów bakteryjnych, (dużych) genomów eukariotycznych lub transkryptomów.

Asemblery algorytmów zachłannych to asemblery, które znajdują lokalne optyma w dopasowaniu mniejszych odczytów . Asemblery algorytmów zachłannych zwykle obejmują kilka etapów: 1) obliczanie odległości odczytów parami, 2) grupowanie odczytów z największym nakładaniem się, 3) składanie nakładających się odczytów w większe kontigi i 4) powtarzanie. Algorytmy te zwykle nie działają dobrze w przypadku większych zestawów odczytu, ponieważ nie osiągają łatwo globalnego optimum w zestawie i nie działają dobrze w zestawach odczytu zawierających regiony powtarzalne. Wczesne asemblery sekwencji de novo, takie jak SEQAID (1984) i CAP (1992), wykorzystywały zachłanne algorytmy, takie jak algorytmy konsensusu w układzie nakładania się (OLC). Algorytmy te znajdują nakładanie się wszystkich odczytów, wykorzystują nakładanie się do określenia układu (lub kafelkowania) odczytów, a następnie tworzą sekwencję konsensusu. Niektóre programy wykorzystujące algorytmy OLC zawierały filtrację (w celu usunięcia par odczytów, które nie będą się nakładać) oraz metody heurystyczne w celu zwiększenia szybkości analiz.

Asemblery metody grafowej występują w dwóch odmianach: string i De Bruijn. Grafy łańcuchowe i asemblery metod grafów De Bruijna zostały wprowadzone na warsztatach DIMACS w 1994 roku przez Watermana i Gene'a Myersa . Metody te stanowiły ważny krok naprzód w składaniu sekwencji, ponieważ obie wykorzystują algorytmy do osiągnięcia globalnego optimum zamiast lokalnego optimum. Podczas gdy obie te metody poczyniły postępy w kierunku lepszych złożeń, metoda wykresów De Bruijna stała się najpopularniejsza w dobie sekwencjonowania nowej generacji. Podczas składania grafu De Bruijna odczyty są dzielone na mniejsze fragmenty o określonej wielkości, k. K -mery są następnie używane jako węzły w zestawie wykresów. Węzły, które zachodzą na siebie w pewnym stopniu (zazwyczaj k-1), są następnie łączone krawędzią. Asembler następnie skonstruuje sekwencje w oparciu o graf De Bruijna. Asemblery grafów De Bruijna zwykle działają lepiej na większych zestawach odczytów niż asemblery algorytmów zachłannych (zwłaszcza gdy zawierają powtarzające się regiony).

Powszechnie używane programy

Lista asemblerów de-novo
Nazwa	Opis / Metodologia	Technologie	Autor	Przedstawione / Ostatnio zaktualizowany	Licencja*	Strona główna
Przepaść	równoległy asembler sekwencji ze sparowanymi końcami przeznaczony do składania dużych genomów krótkich odczytów (genomicznych i transkryptomicznych), wykorzystuje filtr Blooma do wykresu De Bruijna	Illumina		2009 / 2017	system operacyjny	połączyć
ODKRYJ	odczyty wolne od PCR ze sparowanymi końcami (następca ALLPATHS-LG)	Illumina (MiSeq lub HiSeq 2500)		2014	system operacyjny	połączyć
Asembler sekwencji bazowej DNA	Składanie sekwencji DNA z automatycznym przycinaniem końców i korekcją niejednoznaczności. Obejmuje rozmówcę bazowego.	Sanger, Ilumina	Heracle BioSoft SRL	2018.09	C (69 USD)	NA
Genomika DNASTAR Lasergene	(duże) genomy, egzomy, transkryptomy, metagenomy, EST	Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger	DNASTAR	2007 / 2016	C	połączyć
Newblera	genomy, EST	454, Sanger	454 Nauki o życiu	2004/2012	C	połączyć
frap	genomy	Sanger, 454, Solexa	zielony, p.	1994 / 2008	C / NC-A	połączyć
Plastyczny	Asembler na poziomie białka: składa odczyty sekwencjonowania z translacją sześciu ramek w sekwencje białkowe	Illumina		2018 / 2019	system operacyjny	połączyć
Promień	zestaw asemblerów, w tym profilowanie de novo, metagenomiczne, ontologiczne i taksonomiczne; używa wykresu De Bruijna			2010	system operacyjny	połączyć
Pik	(małe) genomy, jednokomórkowe	Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore		2012 / 2021	system operacyjny	połączyć
Aksamit	(małe) genomy	Sanger, 454, Solexa, SOLiD		2007 / 2011	system operacyjny	połączyć
HGAP	Genomy do 130 MB	PacBio czyta		2011 / 2015	system operacyjny	połączyć
Sokół	Genomy diploidalne	PacBio czyta		2014 / 2017	system operacyjny	połączyć
Mozesz	Małe i duże genomy haploidalne/diploidalne	PacBio/Oxford Nanopore czyta		2001 / 2018	system operacyjny	połączyć
MaSuRCA	Dowolny rozmiar, genomy haploidalne/diploidalne	Dane Illumina i PacBio/Oxford Nanopore, starsze dane 454 i Sanger		2011 / 2018	system operacyjny	połączyć
Zawias	Małe genomy drobnoustrojów	PacBio/Oxford Nanopore czyta		2016 / 2018	system operacyjny	połączyć
Trójca	zespoły transkryptomu według wykresu de Bruijna	Illumina RNA-sekw		2011		połączyć
* Licencje: OS = Open Source; C = komercyjny; C / NC-A = Komercyjny, ale bezpłatny dla użytkowników niekomercyjnych i akademickich

Różne asemblery są przeznaczone dla różnych typów technologii odczytu. Odczyty z technologii drugiej generacji (zwanych technologiami krótkiego odczytu), takie jak Illumina, są zazwyczaj krótkie (o długości rzędu 50-200 par zasad) i mają współczynniki błędów około 0,5-2%, przy czym błędy są głównie błędami podstawienia. Jednak odczyty z technologii trzeciej generacji, takich jak PacBio i technologii czwartej generacji, takich jak Oxford Nanopore (tzw. głównie insercje i delecje. Wymaga to różnych algorytmów asemblera z technologii krótkiego i długiego odczytu.

Zgromadzenie

Istnieje wiele programów do składania sekwencji de novo, a wiele z nich zostało porównanych w Assemblathonie. Assemblathon to okresowa, wspólna próba testowania i ulepszania wielu dostępnych asemblerów. Do tej pory zakończono dwa asemblatony (2011 i 2013), a trzeci jest w trakcie realizacji (stan na kwiecień 2017). Zespoły naukowców z całego świata wybierają program i składają symulowane genomy (Assemblathon 1) oraz genomy organizmów modelowych, które zostały wcześniej złożone i opatrzone adnotacjami (Assemblathon 2). Zespoły są następnie porównywane i oceniane przy użyciu wielu metryk.

Zgromadzenie 1

Assemblathon 1 odbył się w 2011 roku i obejmował 59 zgromadzeń z 17 różnych grup i organizatorów. Celem tego Assembalthonu było jak najdokładniejsze i kompletne złożenie genomu składającego się z dwóch haplotypów (każdy z trzema chromosomami odpowiednio 76,3, 18,5 i 17,7 Mb), który został wygenerowany przy użyciu Evolver. Do oceny zespołów wykorzystano liczne wskaźniki, w tym: NG50 (punkt, w którym osiąga się 50% całkowitego rozmiaru genomu, gdy długości rusztowań są sumowane od najdłuższego do najkrótszego), LG50 (liczba rusztowań, które są większe lub równe do długości N50), pokrycie genomu i wskaźnik błędów podstawienia.

Porównywane oprogramowanie: ABySS, Phusion2, phrap, Velvet, SOAPdenovo, PRICE, ALLPATHS-LG
Analiza N50: zespoły przez Plant Genome Assembly Group (przy użyciu asemblera Meraculous) i ALLPATHS, Broad Institute, USA (przy użyciu ALLPATHS-LG) wypadły najlepiej w tej kategorii, o rząd wielkości w stosunku do innych grup. Te zespoły zdobyły N50 > 8 000 000 baz.
Pokrycie genomu przez montaż: w przypadku tego wskaźnika najlepiej sprawdził się montaż BGI za pośrednictwem SOAPdenovo, przy czym pokryto 98,8% całego genomu. Wszyscy asemblerzy radzili sobie stosunkowo dobrze w tej kategorii, przy czym wszystkie grupy z wyjątkiem trzech miały zasięg 90% i wyższy, a najniższy łączny zasięg wynosił 78,5% (Dept. of Comp. Sci., University of Chicago, USA, via Kiki).
Błędy zastępcze: zespół z najniższym wskaźnikiem błędów zastępczych został przesłany przez zespół Wellcome Trust Sanger Institute z Wielkiej Brytanii przy użyciu oprogramowania SGA.
Ogółem: Żaden asembler nie wypadł znacząco lepiej w innych we wszystkich kategoriach. Podczas gdy niektóre asemblery celowały w jednej kategorii, w innych nie, co sugeruje, że wciąż jest wiele miejsca na poprawę jakości oprogramowania asemblera.

Zgromadzenie 2

Assemblathon 2 został udoskonalony w stosunku do Assemblathonu 1 poprzez włączenie genomów wielu kręgowców (ptaka ( Melopsittacus undulatus ), ryby ( Maylandia zebra ) i węża ( Boa dusiciel dusiciel )) z genomami szacowanymi na 1,2, 1,0 i 1,6 Gbp w długość) i ocenę za pomocą ponad 100 wskaźników. Każdy zespół miał cztery miesiące na zebranie swojego genomu z danych sekwencji nowej generacji (NGS), w tym danych sekwencji Illumina i Roche 454 .

Porównanie oprogramowania: ABySS, ALLPATHS-LG, PRICE, Ray i SOAPdenovo
Analiza N50: w przypadku składania genomu ptaka zespoły Baylor College of Medicine Human Genome Sequencing Center i ALLPATHS miały najwyższe NG50, odpowiednio ponad 16 000 000 i ponad 14 000 000 pz.
Obecność genów rdzeniowych: Większość zestawów wypadła dobrze w tej kategorii (~80% lub więcej), a tylko jeden spadł do nieco ponad 50% w swoim zespole genomu ptaka (Wayne State University przez HyDA).
Ogólnie: Ogólnie rzecz biorąc, Baylor College of Medicine Human Genome Sequencing Center wykorzystuje różne metody składania (SeqPrep, KmerFreq, Quake, BWA, Newbler, ALLPATHS-LG, Atlas-Link, Atlas-GapFill, Phrap, CrossMatch, Velvet, BLAST, i BLASR) wypadły najlepiej dla zespołów ptaków i ryb. W przypadku składania genomu węża najlepiej wypadł Wellcome Trust Sanger Institute przy użyciu SGA. W przypadku wszystkich zespołów firmy SGA, BCM, Meraculous i Ray przesłały konkurencyjne zespoły i oceny. Wyniki wielu opisanych tutaj zespołów i ocen sugerują, że chociaż jeden asembler może dobrze działać na jednym gatunku, może nie działać tak dobrze na innym. Autorzy przedstawiają kilka sugestii dotyczących asemblera: 1) użyj więcej niż jednego asemblera, 2) użyj więcej niż jednej metryki do oceny, 3) wybierz asembler, który wyróżnia się bardziej interesującymi metrykami (np. N50, pokrycie), 4) niskie N50 lub rozmiary zespołów mogą nie dotyczyć, w zależności od potrzeb użytkownika, oraz 5) ocenić poziomy heterozygotyczności w genomie będącym przedmiotem zainteresowania.

Zobacz też