Czytaj (biologia)
W sekwencjonowaniu DNA odczyt jest wywnioskowaną sekwencją par zasad (lub prawdopodobieństw par zasad ) odpowiadającą całości lub części pojedynczego fragmentu DNA. Typowy eksperyment sekwencjonowania obejmuje fragmentację genomu na miliony cząsteczek, które są selekcjonowane pod względem wielkości i łączone z adapterami . Zestaw fragmentów jest określany jako biblioteka sekwencjonowania, która jest sekwencjonowana w celu wytworzenia zestawu odczytów.
Długość odczytu
Technologie sekwencjonowania różnią się długością produkowanych odczytów. Odczyty o długości 20-40 par zasad (bp) są określane jako ultrakrótkie. Typowe sekwencery wytwarzają odczyty o długości w zakresie 100-500 bp. Jednak Pacific Biosciences generują odczyty o długości około 1500 pz. Długość odczytu jest czynnikiem, który może wpływać na wyniki badań biologicznych. Na przykład dłuższe odczyty poprawiają rozdzielczość de novo i wykrywanie wariantów strukturalnych. Szacuje się, że do rutynowych de novo wymagane będą odczyty o długości większej niż 100 kilobaz (kb). składanie ludzkiego genomu. Rurociągi bioinformatyczne do analizy danych sekwencjonowania zwykle uwzględniają długości odczytu.
Generacje sekwencjonowania i długości odczytu
Genom to kompletna informacja genetyczna organizmu lub komórki. Jednoniciowe lub dwuniciowe kwasy nukleinowe przechowują tę informację w sekwencji liniowej lub kolistej. Aby dokładnie określić tę sekwencję, z czasem opracowano bardziej wydajne technologie o zwiększonej dokładności, przepustowości i szybkości sekwencjonowania. Technologie sekwencjonowania Sangera i Maxama-Gilberta zostały sklasyfikowane jako technologia sekwencjonowania pierwszej generacji, która zapoczątkowała dziedzinę sekwencjonowania DNA swoją publikacją w 1977 r. Sekwencjonowanie pierwszej generacji ma zazwyczaj długość odczytu od 400 do 900 par zasad . [ potrzebne źródło ]
W 2005 r. technologia 454 firmy Roche wprowadziła nową technologię sekwencjonowania, która zapewniała wysoką przepustowość przy niskich kosztach. Ta i podobne technologie stały się znane jako sekwencjonowanie drugiej generacji lub sekwencjonowanie nowej generacji (NGS) . Jedną z cech charakterystycznych NSG są odczyty krótkich sekwencji. Metody NGS mogą sekwencjonować miliony do miliardów odczytów w jednym przebiegu, a czas potrzebny do utworzenia odczytów wielkości GigaBase wynosi zaledwie kilka dni lub godzin, co czyni je lepszymi od technik sekwencjonowania pierwszej generacji, takich jak sekwencjonowanie Sangera. Wszystkie techniki NSG dają krótkie odczyty, tj. 80–200 zasad, w przeciwieństwie do dłuższych odczytów uzyskiwanych przez sekwencjonowanie Sangera.
Począwszy od 2010 roku, rewolucyjne nowe technologie zapoczątkowały erę sekwencjonowania trzeciej generacji (TGS) . TGS to termin używany do opisania metod zdolnych do sekwencjonowania pojedynczych cząsteczek DNA bez amplifikacji. Podczas gdy techniki Sangera i SRS mogą generować odczyty o długości tylko jednej pary par zasad, technologie sekwencjonowania trzeciej generacji mogą generować odczyty o długości od 5 do 30 par par zasad. Najdłuższa długość odczytu, jaką kiedykolwiek wygenerowała technologia sekwencjonowania trzeciej generacji, to 2 pary gigabaz.
NGS i mapowanie odczytu
Historycznie rzecz biorąc, tylko jeden osobnik na gatunek był adresowany ze względu na ograniczenia czasowe i finansowe, a jego sekwencja służyła jako genom „referencyjny” gatunku . Te genomy referencyjne można wykorzystać do kierowania próbami ponownego sekwencjonowania u tego samego gatunku, służąc jako szablon mapowania odczytu. Mapowanie odczytu to proces dopasowywania odczytów NGS do genomu referencyjnego. Dowolna aplikacja NGS, taka jak wywoływanie zmienności genomu, analiza transkryptomu, wywoływanie miejsca wiązania czynnika transkrypcyjnego, epigenetyka wywoływanie znaczników, metagenomika itd. wymagają mapowania odczytu. Na wydajność tych aplikacji ma wpływ dokładne wyrównanie. Ponadto, ponieważ liczba odczytów jest tak duża, proces mapowania musi być wydajny. Istnieją różne metody stosowane do wyrównywania odczytów w genomie referencyjnym w zależności od tego, ile niedopasowań i indeli jest dozwolonych. Z grubsza mówiąc, metody można podzielić na dwie kategorie: podejście typu seed-and-extension oraz podejście filtrujące. Wiele wyrównywaczy krótkiego odczytu wykorzystuje strategię seed-and-extend, taką jak BWA-SW, Bowtie 2, BatAlign, LAST, Cushaw2, BWA-MEM itp. Podejście oparte na filtrach jest stosowane przez wiele metod, takich jak SeqAlto, GEM , MASAJÓW itp.
Odczyty składania i sekwencji genomu
W genomice ponowny montaż genomów przez sekwencjonowanie DNA jest poważnym wyzwaniem. Pobrane odczyty obejmują cały genom równomiernie dzięki losowemu próbkowaniu. Odczyty są łączone ze sobą obliczeniowo w celu rekonstrukcji genomu. Ten proces jest znany jako składanie genomu de novo .
Sekwencjonowanie I Sangera ma większą długość odczytu w porównaniu z NGS. Opracowano dwa asemblery do składania odczytów sekwencjonowania Sangera - asembler OLC Celera i asembler grafów de Bruijna Euler. Te dwie metody zostały użyte do połączenia naszego ludzkiego genomu referencyjnego. Jednakże, ponieważ sekwencjonowanie Sangera jest mało wydajne i drogie, tylko kilka genomów składa się z sekwencjonowaniem Sangera.
Odczyty sekwencjonowania drugiej generacji są krótkie, a te techniki sekwencjonowania mogą skutecznie i ekonomicznie sekwencjonować setki milionów odczytów. W celu odbudowy genomów z krótkich sekwencji zbudowano kilka niestandardowych asemblerów genomu. Ich sukces dał początek kilku projektom składania genomu de novo. Chociaż ta metoda jest opłacalna, odczyty są krótkie, a powtarzające się sekcje długie, co skutkuje fragmentacją genomów.
Mamy teraz bardzo długie odczyty (10 000 pz) dzięki pojawieniu się sekwencjonowania trzeciej generacji. Długie odczyty są w stanie rozwiązać kolejność powtarzających się regionów, chociaż mają wysoki wskaźnik błędów (15–18%). Aby poprawić błędy w odczytach sekwencjonowania trzeciej generacji, opracowano szereg metod obliczeniowych.
Asemblacja z krótkimi odczytami i asemblacja z długimi odczytami mają różne zalety i wady ze względu na współczynniki błędów i łatwość montażu. Czasami preferowana jest metoda hybrydowa, a krótkie odczyty i długie odczyty są łączone, aby uzyskać lepszy wynik. Istnieją dwa podejścia, pierwsze polega na użyciu odczytów par mate i długich odczytów w celu ulepszenia montażu z krótkich odczytów. Drugie podejście polega na użyciu krótkich odczytów w celu skorygowania błędów w długich odczytach.
Wady i zalety krótkich lektur
Sekwencjonowanie drugiej generacji generuje krótkie odczyty (o długości < 300 pz) i są one bardzo dokładne (wskaźnik błędów sekwencjonowania wynosi ∼1%). Technologie sekwencjonowania krótkich odczytów sprawiły, że sekwencjonowanie stało się znacznie łatwiejsze, dużo szybsze i znacznie tańsze niż sekwencjonowanie Sangera. W raporcie Narodowego Instytutu Badań nad Genomem Człowieka z sierpnia 2019 r. koszt sekwencjonowania całego ludzkiego genomu oszacowano na 942,00 dolarów amerykańskich (USD).
Brak możliwości sekwencjonowania długich odcinków DNA jest wadą wspólną dla wszystkich technologii sekwencjonowania drugiej generacji. Aby użyć NGS do sekwencjonowania dużego genomu, takiego jak ludzkie DNA, DNA musi zostać pofragmentowane i zamplifikowane w klonach o długości od 75 do 400 par zasad, dlatego NGS jest również znany jako „sekwencjonowanie krótkiego odczytu” (SRS). Po sekwencjonowaniu krótkich odczytów staje się to problemem obliczeniowym i opracowano wiele programów i technik komputerowych do składania losowych klonów w ciągłą sekwencję.
Niezbędnym etapem w SRS jest reakcja łańcuchowa polimerazy, która powoduje preferencyjną amplifikację powtarzalnego DNA. SRS również nie generuje wystarczającej sekwencji zachodzących na siebie fragmentów DNA. Stanowi to główne wyzwanie dla sekwencjonowania de novo bardzo złożonego i powtarzalnego genomu, takiego jak ludzki genom. Kolejnym wyzwaniem związanym z SRS jest wykrywanie dużych zmian sekwencji, co stanowi główną przeszkodę w badaniu zmian strukturalnych.
Zalety i wady długich odczytów
Sekwencjonowanie trzeciej generacji sekwencjonuje długie odczyty i jest często określane jako sekwencjonowanie długich odczytów (LRS). Technologie LRS umożliwiają sekwencjonowanie pojedynczych cząsteczek DNA bez amplifikacji. Dostępność długich odczytów stanowi wielką zaletę, ponieważ często trudno jest wygenerować długą ciągłą sekwencję konsensusu przy użyciu NSG ze względu na trudność w wykrywaniu nakładania się krótkich odczytów NGS, co wpływa na ogólną jakość składania. W kilku badaniach wykazano, że LRS znacznie poprawia jakość zespołów genomu. Kolejną zaletą LRS w porównaniu z NGS jest to, że zapewnia jednoczesną możliwość charakteryzowania różnych znaków epigenetycznych wraz z sekwencjonowaniem DNA.
Głównym wyzwaniem LRS jest dokładność i koszt. Chociaż dzięki LRS szybko poprawia się również w tych obszarach.
Zobacz też
- ^ „Biblioteka sekwencjonowania: co to jest?” . Genetyka Bredy . 2016-08-12 . Źródło 23 lipca 2017 r .
- ^ Chaisson, Mark J. (2009). „Złożenie fragmentów de novo z krótkimi sparowanymi odczytami: czy długość odczytu ma znaczenie?” . Badania genomu . 19 (2): 336–346. doi : 10.1101/gr.079053.108 . PMC 2652199 . PMID 19056694 . Źródło 23 lipca 2017 r .
- ^ Junemann, Sebastian (2013). „Aktualizowanie porównania wydajności sekwencjonowania laboratoryjnego” . Biotechnologia przyrody . 31 (4): 294–296. doi : 10.1038/nbt.2522 . PMID 23563421 .
- ^ Przepiórka, Michael A. (2012). „Opowieść o trzech platformach sekwencjonowania nowej generacji: porównanie sekwencerów Ion Torrent, Pacific Biosciences i Illumina MiSeq” . Genomika BMC . 13 (1): 341. doi : 10.1186/1471-2164-13-341 . PMC 3431227 . PMID 22827831 .
- ^ Chhangawala, Sagar; Rudy, Gabe; Mason, Christopher E.; Rosenfeld, Jeffrey A. (23 czerwca 2015). „Wpływ długości odczytu na kwantyfikację genów o różnej ekspresji i wykrywanie połączeń splicingowych” . Biologia genomu . 16 (1): 131. doi : 10.1186/s13059-015-0697-y . PMC 4531809 . PMID 26100517 .
- ^ Chaisson, Mark JP (2015). „Zmienność genetyczna i składanie ludzkich genomów de novo” . Nature Recenzje Genetyka . 16 (11): 627–640. doi : 10.1038/nrg3933 . PMC 4745987 . PMID 26442640 .
- ^ Conesa, Ana; Madrigal, Pedro; Tarazona, Sonia; Gomez-Cabrero, David; Cervera, Alejandra; McPherson, Andrew; Szcześniak, Michał Wojciech; Gaffney, Daniel J.; Elo, Laura L.; Zhang, Xuegong; Mortazawi, Ali (26 stycznia 2016). „Przegląd najlepszych praktyk w zakresie analizy danych RNA-seq” . Biologia genomu . 17 (1): 13. doi : 10.1186/s13059-016-0881-8 . PMC 4728800 . PMID 26813401 .
- ^ Giani, Alicja Maria; Gallo, Guido Roberto; Gianfranceschi, Luca; Formenti, Giulio (2020). „Długi spacer do genomiki: historia i obecne podejście do sekwencjonowania i składania genomu” . Dziennik biotechnologii obliczeniowej i strukturalnej . 18 : 9–19. doi : 10.1016/j.csbj.2019.11.002 . PMC 6926122 . PMID 31890139 .
- ^ Qiang-long, Zhu; Shi, Liu; Peng, Gao; Fei-shi, Luan (1 września 2014). „Technologia wysokowydajnego sekwencjonowania i jej zastosowanie”. Journal of Northeast Agricultural University (wydanie angielskie) . 21 (3): 84–96. doi : 10.1016/S1006-8104(14)60073-8 .
- Bibliografia _ Pevzner, P.; Tang, H. (1 września 2004). „Złożenie fragmentu z krótkimi odczytami” . Bioinformatyka . 20 (13): 2067–2074. doi : 10.1093/bioinformatyka/bth205 . PMID 15059830 .
- ^ Kraft, Florian; Kurth, Ingo (16 lipca 2019). „Długo czytane sekwencjonowanie w genetyce człowieka” . Medizinische Genetik . 31 (2): 198–204. doi : 10.1007/s11825-019-0249-z . S2CID 197402652 .
- ^ Śpiewane, Wing-Kin (2017). Algorytmy sekwencjonowania nowej generacji . Boca Raton. ISBN 978-1466565500 .
- ^ Śpiewane, Wing-Kin (2017). Algorytmy sekwencjonowania nowej generacji . Boca Raton. ISBN 978-1466565500 .
- ^ Adewale, Boluwatife A. (26 listopada 2020). „Czy technologie sekwencjonowania długiego odczytu zastąpią technologie sekwencjonowania krótkiego odczytu w ciągu najbliższych 10 lat?” . Afrykański Dziennik Medycyny Laboratoryjnej . 9 (1): 5. doi : 10.4102/ajlm.v9i1.1340 . PMC 7736650 . PMID 33354530 .
- ^ „Koszty sekwencjonowania DNA: dane” . Genome.gov .
- ^ Mardis, Elaine R (luty 2017). „Technologie sekwencjonowania DNA: 2006–2016”. Protokoły natury . 12 (2): 213–218. doi : 10.1038/nprot.2016.182 . PMID 28055035 . S2CID 205466745 .
- ^ Mardis, Elaine R (luty 2017). „Technologie sekwencjonowania DNA: 2006–2016”. Protokoły natury . 12 (2): 213–218. doi : 10.1038/nprot.2016.182 . PMID 28055035 . S2CID 205466745 .
- Bibliografia _ Urban, Alexander E.; Mills, Ryan E. (marzec 2020). „Zmienność strukturalna w erze sekwencjonowania” . Nature Recenzje Genetyka . 21 (3): 171–189. doi : 10.1038/s41576-019-0180-9 . PMC 7402362 . PMID 31729472 .
- Bibliografia _ Au, Kin Fai (październik 2015). „Sekwencjonowanie PacBio i jego zastosowania” . Genomika, proteomika i bioinformatyka . 13 (5): 278–289. doi : 10.1016/j.gpb.2015.08.002 . PMC 4678779 . PMID 26542840 .
- ^ Wenger, Aaron M.; Peluso, Paweł; Rowell, William J.; Chang, Pi-Chuan; Hall, Richard J.; Concepcion, Gregory T.; Ebler, Jana; Fungtammasan, Arkarachai; Kolesnikow, Aleksiej; Olson, Nathan D.; Topfer, Armin; Razem, Michael; Mahmoud, Medhat; Qian, Yufeng; Podbródek, Chen-Shan; Phillippy, Adam M.; Schatz, Michael C.; Myers, Gene; DePristo, Mark A.; Ruan, Jue; Marschall, Tobiasz; Sedlazeck, Fritz J.; Zook, Justin M.; Li, Heng; Koren, Siergiej; Karol, Andrzej; Ranga, David R.; Hunkapiller, Michael W. (październik 2019). „Dokładne sekwencjonowanie długiego odczytu z konsensusem kołowym poprawia wykrywanie wariantów i składanie ludzkiego genomu” . Biotechnologia przyrody . 37 (10): 1155–1162. doi : 10.1038/s41587-019-0217-9 . PMC 6776680 . PMID 31406327 .
- ^ Flusberg, Benjamin A; Webster, Dale R.; Lee, Jessica H.; Travers, Kevin J.; Olivares, Eric C; Clark, Tyson A; Korlach, Jonasz; Turner, Stephen W (czerwiec 2010). „Bezpośrednie wykrywanie metylacji DNA podczas sekwencjonowania pojedynczej cząsteczki w czasie rzeczywistym” . Metody natury . 7 (6): 461–465. doi : 10.1038/nmeth.1459 . PMC 2879396 . PMID 20453866 .
- Bibliografia _ Robotnik, Rachael E; Zuzarte, PC; Dawid Matei; Dursi, LJ; Timp, Winston (kwiecień 2017). „Wykrywanie metylacji cytozyny DNA za pomocą sekwencjonowania nanoporów”. Metody natury . 14 (4): 407–410. doi : 10.1038/nmeth.4184 . PMID 28218898 . S2CID 16152628 .