Sekwencjonowanie trzeciej generacji
Sekwencjonowanie trzeciej generacji (znane również jako sekwencjonowanie z długim odczytem ) to klasa metod sekwencjonowania DNA, które są obecnie aktywnie rozwijane.
Technologie sekwencjonowania trzeciej generacji umożliwiają generowanie znacznie dłuższych odczytów niż sekwencjonowanie drugiej generacji , znane również jako sekwencjonowanie nowej generacji. Taka przewaga ma krytyczne implikacje zarówno dla nauki o genomie, jak i ogólnie dla biologii. Jednak dane sekwencjonowania trzeciej generacji mają znacznie wyższy poziom błędów niż poprzednie technologie, co może skomplikować dalsze składanie genomu i analizę uzyskanych danych. Technologie te są aktywnie rozwijane i oczekuje się, że nastąpi poprawa w zakresie wysokiego poziomu błędów. Stwierdzono, że w przypadku aplikacji, które są bardziej tolerancyjne na błędy, takie jak wywoływanie wariantów strukturalnych, sekwencjonowanie trzeciej generacji przewyższa istniejące metody, nawet przy małej głębokości pokrycia sekwencjonowaniem.
Obecne technologie
Technologie sekwencjonowania o innym podejściu niż platformy drugiej generacji zostały po raz pierwszy opisane jako „trzeciej generacji” w latach 2008–2009.
Obecnie w centrum rozwoju technologii sekwencjonowania trzeciej generacji znajduje się kilka firm, a mianowicie Pacific Biosciences , Oxford Nanopore Technology , Quantapore (CA-USA) i Stratos (WA-USA). Firmy te przyjmują zasadniczo różne podejścia do sekwencjonowania pojedynczych cząsteczek DNA.
Firma PacBio opracowała platformę sekwencjonowania pojedynczej cząsteczki w czasie rzeczywistym (SMRT) , opartą na właściwościach falowodów w trybie zerowym . Sygnały mają postać emisji światła fluorescencyjnego z każdego nukleotydu wprowadzonego przez polimerazę DNA związaną z dnem studzienki zL.
Technologia Oxford Nanopore obejmuje przepuszczanie cząsteczki DNA przez nanoskalową strukturę porów, a następnie pomiar zmian w polu elektrycznym otaczającym pory; podczas gdy Quantapore ma inne zastrzeżone podejście do nanoporów. Stratos Genomics rozdziela zasady DNA za pomocą polimerowych wstawek „ Xpandomers ”, aby ominąć wyzwanie sygnału do szumu podczas odczytu nanoporowego ssDNA.
Godne uwagi jest również podejście Helicos do fluorescencji pojedynczej cząsteczki, ale firma zbankrutowała jesienią 2015 roku .
Zalety
Dłuższe czyta
W porównaniu z obecną generacją technologii sekwencjonowania, sekwencjonowanie trzeciej generacji ma oczywistą zaletę polegającą na uzyskiwaniu znacznie dłuższych odczytów. Oczekuje się, że te dłuższe odczyty złagodzą liczne wyzwania obliczeniowe związane z składaniem genomu, rekonstrukcją transkryptu i metagenomiką wśród innych ważnych dziedzin współczesnej biologii i medycyny.
Dobrze wiadomo, że genomy eukariotyczne, w tym naczelnych i ludzi, są złożone i mają dużą liczbę długich powtarzających się regionów. Krótkie odczyty z sekwencjonowania drugiej generacji muszą uciekać się do strategii przybliżonych, aby wywnioskować sekwencje z długich zakresów do składania i wywoływania wariantów genetycznych. Odczyty końca pary zostały wykorzystane przez sekwencjonowanie drugiej generacji w celu zwalczania tych ograniczeń. Jednak dokładne długości fragmentów końców par są często nieznane i również muszą być przybliżone. Umożliwiając długie odczyty, technologie sekwencjonowania trzeciej generacji mają wyraźne zalety.
Epigenetyka
Markery epigenetyczne to stabilne i potencjalnie dziedziczne modyfikacje cząsteczki DNA, które nie znajdują się w jej sekwencji. Przykładem jest metylacja DNA w miejscach CpG, która, jak stwierdzono, wpływa na ekspresję genów. Innym przykładem są modyfikacje histonów. Obecna generacja technologii sekwencjonowania opiera się na technikach laboratoryjnych, takich jak sekwencjonowanie ChIP do wykrywania markerów epigenetycznych. Techniki te obejmują znakowanie nici DNA, łamanie i filtrowanie fragmentów zawierających markery, a następnie sekwencjonowanie. Sekwencjonowanie trzeciej generacji może umożliwić bezpośrednie wykrycie tych markerów ze względu na ich charakterystyczny sygnał z pozostałych czterech zasad nukleotydowych.
Przenośność i szybkość
Inne ważne zalety technologii sekwencjonowania trzeciej generacji obejmują przenośność i szybkość sekwencjonowania. Ponieważ wymagane jest minimalne wstępne przetwarzanie próbek w porównaniu z sekwencjonowaniem drugiej generacji, można zaprojektować mniejsze urządzenia. Firma Oxford Nanopore Technology niedawno skomercjalizowała sekwencer MinION . Ta maszyna do sekwencjonowania jest mniej więcej wielkości zwykłego dysku flash USB i może być łatwo używana po podłączeniu do laptopa. Ponadto, ponieważ proces sekwencjonowania nie jest równoległy w różnych regionach genomu, dane mogą być gromadzone i analizowane w czasie rzeczywistym. Te zalety sekwencjonowania trzeciej generacji mogą być dobrze dostosowane w warunkach szpitalnych, gdzie wymagane jest szybkie gromadzenie i analiza danych na miejscu.
Wyzwania
Sekwencjonowanie trzeciej generacji w obecnym kształcie stoi przed ważnymi wyzwaniami, głównie dotyczącymi dokładnej identyfikacji zasad nukleotydowych; wskaźniki błędów są nadal znacznie wyższe w porównaniu z sekwencjonowaniem drugiej generacji. Jest to na ogół spowodowane niestabilnością zaangażowanej maszynerii molekularnej. Na przykład w pojedynczej molekularnej technologii sekwencjonowania w czasie rzeczywistym firmy PacBio cząsteczka polimerazy DNA ulega coraz większemu uszkodzeniu w trakcie procesu sekwencjonowania. Dodatkowo, ponieważ proces ten przebiega szybko, sygnały emitowane przez poszczególne bazy mogą być zacierane przez sygnały z sąsiednich baz. Stanowi to nowe wyzwanie obliczeniowe dla rozszyfrowania sygnałów i w konsekwencji wnioskowania o sekwencji. Metody takie jak Na przykład, z pewnym powodzeniem wykorzystano do tego celu ukryte modele Markowa .
Średnio różne osoby w populacji ludzkiej dzielą około 99,9% swoich genów. Innymi słowy, w przybliżeniu tylko jedna na tysiąc zasad różniłaby się między dowolnymi dwiema osobami. Wysokie wskaźniki błędów związane z sekwencjonowaniem trzeciej generacji są nieuchronnie problematyczne w celu scharakteryzowania indywidualnych różnic istniejących między przedstawicielami tego samego gatunku.
Montaż genomu
Składanie genomu to rekonstrukcja sekwencji DNA całego genomu. Zwykle odbywa się to za pomocą dwóch zasadniczo różnych podejść.
Wyrównanie odniesienia
Gdy dostępny jest genom referencyjny, tak jak w przypadku człowieka, nowo zsekwencjonowane odczyty można po prostu dopasować do genomu referencyjnego w celu scharakteryzowania jego właściwości. Takie składanie oparte na referencji jest szybkie i łatwe, ale ma tę wadę, że „ukrywa” nowe sekwencje i warianty o dużej liczbie kopii. Ponadto genomy referencji nie istnieją jeszcze dla większości organizmów.
Montaż de novo
de novo to alternatywne podejście do składania genomu w celu dopasowania odniesienia. Odnosi się do rekonstrukcji całych sekwencji genomu całkowicie z surowych odczytów sekwencji. Ta metoda byłaby wybrana, gdy nie ma genomu odniesienia, gdy gatunek danego organizmu jest nieznany, jak w metagenomice , lub gdy istnieją interesujące warianty genetyczne, których nie można wykryć przez dopasowanie genomu odniesienia.
Biorąc pod uwagę krótkie odczyty generowane przez obecną generację technologii sekwencjonowania, asembler de novo jest głównym problemem obliczeniowym. Zwykle podchodzi się do tego przez iteracyjny proces znajdowania i łączenia odczytów sekwencji z rozsądnymi nakładaniami. Do rozwiązania tego problemu wykorzystano różne techniki obliczeniowe i statystyczne, takie jak wykresy de bruijn i wykresy konsensusu z nakładającymi się układami. Niemniej jednak, ze względu na wysoce powtarzalny charakter genomów eukariotycznych, dokładna i kompletna rekonstrukcja sekwencji genomu w składaniu de novo pozostaje wyzwaniem. Odczyty końca pary zostały przedstawione jako możliwe rozwiązanie, chociaż dokładne długości fragmentów są często nieznane i muszą być przybliżone.
Montaż hybrydowy
Długie odczyty oferowane przez sekwencjonowanie trzeciej generacji mogą złagodzić wiele wyzwań, przed którymi stoją obecnie zespoły genomów de novo. Na przykład, jeśli cały powtarzalny region może być jednoznacznie zsekwencjonowany w jednym odczycie, nie będzie wymagane żadne wnioskowanie obliczeniowe. Zaproponowano metody obliczeniowe w celu złagodzenia problemu wysokiego poziomu błędów. Na przykład w jednym badaniu wykazano, że składanie de novo genomu drobnoustrojów przy użyciu samego sekwencjonowania PacBio było lepsze niż sekwencjonowanie drugiej generacji.
Sekwencjonowanie trzeciej generacji można również stosować w połączeniu z sekwencjonowaniem drugiej generacji. Takie podejście jest często określane jako sekwencjonowanie hybrydowe. Na przykład długie odczyty z sekwencjonowania trzeciej generacji mogą być wykorzystane do rozwiązania niejasności, które istnieją w genomach wcześniej złożonych przy użyciu sekwencjonowania drugiej generacji. Z drugiej strony krótkie odczyty drugiej generacji zostały użyte do skorygowania błędów występujących w długich odczytach trzeciej generacji. Ogólnie rzecz biorąc, wykazano, że to podejście hybrydowe znacząco poprawia zespoły genomów de novo.
Markery epigenetyczne
Metylacja DNA (DNAm) – kowalencyjna modyfikacja DNA w miejscach CpG prowadząca do przyłączonych grup metylowych – jest najlepiej poznanym składnikiem maszynerii epigenetycznej . Modyfikacje DNA i wynikająca z nich ekspresja genów mogą się różnić w zależności od typu komórek, rozwój czasowy, z pochodzeniem genetycznym, może zmieniać się pod wpływem bodźców środowiskowych i są dziedziczne. Po odkryciu DNAm naukowcy odkryli również jego korelację z chorobami takimi jak rak i autyzm . W tym kontekście etiologii choroby DNAm jest ważnym kierunkiem dalszych badań.
Zalety
Obecnie najpopularniejsze metody badania stanu metylacji wymagają testu fragmentującego DNA przed standardowym sekwencjonowaniem drugiej generacji na platformie Illumina . W wyniku krótkiej długości odczytu informacje dotyczące dłuższych wzorców metylacji są tracone. Technologie sekwencjonowania trzeciej generacji oferują możliwość sekwencjonowania pojedynczych cząsteczek w czasie rzeczywistym przy dłuższych odczytach oraz wykrywania modyfikacji DNA bez wspomnianego testu.
MinION firmy Oxford Nanopore Technologies został użyty do wykrycia DNAm. Gdy każda nić DNA przechodzi przez pory, wytwarza sygnały elektryczne, które okazały się wrażliwe na zmiany epigenetyczne w nukleotydach, a do analizy 5-metylocytozyny (5mC) użyto ukrytego modelu Markowa (HMM). modyfikacja. Model trenowano przy użyciu syntetycznie metylowanej E. coli DNA i wynikające z niego sygnały mierzone technologią nanoporów. Następnie wytrenowany model został użyty do wykrycia 5mC w odczytach genomowych MinION z ludzkiej linii komórkowej, która miała już referencyjny metylom. Klasyfikator ma 82% dokładność w losowo próbkowanych miejscach pojedynczych, która wzrasta do 95%, gdy stosowane są bardziej rygorystyczne progi.
Inne metody dotyczą różnych typów modyfikacji DNA z wykorzystaniem platformy MinION. Stoiber i in. zbadali 4-metylocytozynę (4 mC) i 6-metyladeninę (6 mA) wraz z 5 mC, a także stworzyli oprogramowanie do bezpośredniej wizualizacji nieprzetworzonych danych MinION w sposób przyjazny dla człowieka. Tutaj odkryli, że w E. coli , która ma znany metylom , okna zdarzeń o długości 5 par zasad można wykorzystać do podziału i statystycznej analizy surowych sygnałów elektrycznych MinION. Prosty test U Manna-Whitneya może wykryć zmodyfikowane części E. coli sekwencję, a także dalej podzielić modyfikacje na regiony 4mC, 6mA lub 5mC.
Wydaje się prawdopodobne, że w przyszłości surowe dane MinION zostaną wykorzystane do wykrywania wielu różnych znaków epigenetycznych w DNA.
PacBio zostało również wykorzystane do wykrycia metylacji DNA. W tej platformie szerokość impulsu – szerokość impulsu światła fluorescencyjnego – odpowiada określonej podstawie. W 2010 roku wykazano, że odległość między impulsami w próbkach kontrolnych i metylowanych jest różna, a dla każdego typu metylacji istnieje „sygnatura” szerokości impulsu. W 2012 roku za pomocą platformy PacBio scharakteryzowano miejsca wiązania metylotransferaz DNA. Wykrywanie N6-metylacji w C Elegans wykazano w 2015 r. Metylacja DNA na N 6 -adeninie przy użyciu platformy PacBio u myszy embrionalne komórki macierzyste wykazano w 2016 r.
Inne formy modyfikacji DNA – spowodowane metalami ciężkimi, utlenianiem lub uszkodzeniami UV – są również możliwymi drogami badań z wykorzystaniem sekwencjonowania trzeciej generacji Oxford Nanopore i PacBio.
Wady
Przetwarzanie nieprzetworzonych danych – takie jak normalizacja do sygnału mediany – było konieczne w przypadku nieprzetworzonych danych MinION, co ograniczyło możliwości technologii w czasie rzeczywistym. Spójność sygnałów elektrycznych nadal stanowi problem, co utrudnia dokładne nazwanie nukleotydu. MinION ma niską przepustowość; ponieważ trudno jest uzyskać wiele nakładających się odczytów, prowadzi to dodatkowo do problemów z dokładnością wykrywania dalszych modyfikacji DNA. Zarówno ukryty model Markowa, jak i metody statystyczne stosowane z surowymi danymi MinION wymagają powtarzanych obserwacji modyfikacji DNA w celu wykrycia, co oznacza, że poszczególne zmodyfikowane nukleotydy muszą być konsekwentnie obecne w wielu kopiach genomu, np. w wielu komórkach lub plazmidach w próbce.
Również w przypadku platformy PacBio, w zależności od oczekiwanej metylacji, potrzeby w zakresie pokrycia mogą się różnić. Od marca 2017 r. Inne czynniki epigenetyczne, takie jak modyfikacje histonów, nie były wykrywalne przy użyciu technologii trzeciej generacji. Dłuższe wzorce metylacji są często tracone, ponieważ nadal trzeba złożyć mniejsze kontigi.
Transkryptomika
Transkryptomika to badanie transkryptomu , zwykle poprzez charakteryzację względnej obfitości cząsteczek informacyjnego RNA w badanej tkance. Zgodnie z centralnym dogmatem biologii molekularnej informacja genetyczna przepływa z dwuniciowych cząsteczek DNA do jednoniciowych cząsteczek mRNA, gdzie można je łatwo przetłumaczyć na funkcjonalne cząsteczki białka. Badając transkryptom, można uzyskać cenny wgląd w regulację ekspresji genów.
Podczas gdy poziomy ekspresji jako poziom genów można mniej lub bardziej dokładnie przedstawić za pomocą sekwencjonowania drugiej generacji, informacja na poziomie transkryptu nadal pozostaje ważnym wyzwaniem. W konsekwencji rola alternatywnego splicingu w biologii molekularnej pozostaje w dużej mierze nieuchwytna. Technologie sekwencjonowania trzeciej generacji dają obiecujące perspektywy rozwiązania tego problemu poprzez umożliwienie sekwencjonowania cząsteczek mRNA w ich pełnej długości.
Splicing alternatywny
Splicing alternatywny (AS) to proces, w którym pojedynczy gen może prowadzić do powstania wielu różnych transkryptów mRNA, aw konsekwencji różnych translacji białek. Niektóre dowody sugerują, że AS jest zjawiskiem wszechobecnym i może odgrywać kluczową rolę w określaniu fenotypów organizmów, zwłaszcza u złożonych eukariotów; wszystkie eukarionty zawierają geny składające się z intronów, które mogą ulegać AS. W szczególności oszacowano, że AS występuje w 95% wszystkich ludzkich genów wieloeksonowych. AS ma niezaprzeczalny potencjał wpływania na niezliczone procesy biologiczne. Pogłębianie wiedzy w tej dziedzinie ma kluczowe znaczenie dla badań biologicznych w ogóle.
Rekonstrukcja transkrypcji
Obecna generacja technologii sekwencjonowania daje tylko krótkie odczyty, co znacznie ogranicza możliwość wykrywania odrębnych transkryptów; krótkie odczyty muszą zostać poddane inżynierii wstecznej w oryginalne transkrypty, które mogły dać początek wynikowym obserwacjom odczytu. Zadanie to jest dodatkowo komplikowane przez wysoce zmienne poziomy ekspresji w transkryptach, aw konsekwencji zmienne pokrycia odczytu w sekwencji genu. Ponadto egzony mogą być wspólne dla poszczególnych transkryptów, co zasadniczo uniemożliwia jednoznaczne wnioski. Istniejące metody obliczeniowe wyciągają wnioski na podstawie akumulacji krótkich odczytów w różnych lokalizacjach sekwencji, często poprzez upraszczające założenia. Spinki do mankietów przyjmują oszczędne podejście, starając się wyjaśnić wszystkie odczyty przy jak najmniejszej liczbie transkryptów. Z drugiej strony StringTie próbuje jednocześnie oszacować obfitość transkryptów podczas składania odczytów. Metody te, choć rozsądne, nie zawsze mogą identyfikować prawdziwe transkrypty.
Badanie opublikowane w 2008 roku dotyczyło 25 różnych istniejących protokołów rekonstrukcji transkrypcji. Jego dowody sugerują, że istniejące metody są ogólnie słabe w składaniu transkryptów, chociaż zdolność do wykrywania poszczególnych eksonów jest stosunkowo nienaruszona. Według szacunków średnia czułość wykrywania eksonów w 25 protokołach wynosi 80% dla Caenorhabditis elegans geny. Dla porównania, czułość identyfikacji transkryptu spada do 65%. W przypadku ludzi badanie wykazało, że czułość wykrywania eksonów wynosiła średnio 69%, a czułość wykrywania transkryptów wynosiła średnio zaledwie 33%. Innymi słowy, w przypadku ludzi istniejące metody są w stanie zidentyfikować mniej niż połowę wszystkich istniejących transkryptów.
Technologie sekwencjonowania trzeciej generacji wykazały obiecujące perspektywy w rozwiązaniu problemu wykrywania transkryptów oraz szacowania obfitości mRNA na poziomie transkryptów. Podczas gdy wskaźniki błędów pozostają wysokie, technologie sekwencjonowania trzeciej generacji mają możliwość generowania znacznie dłuższych odczytów. Firma Pacific Bioscience wprowadziła platformę iso-seq, proponując sekwencjonowanie cząsteczek mRNA w ich pełnej długości. Przewiduje się, że Oxford Nanopore przedstawi podobne technologie. Kłopoty z wyższymi wskaźnikami błędów można złagodzić dzięki dodatkowym krótkim odczytom wysokiej jakości. To podejście zostało wcześniej przetestowane i zgłoszone w celu zmniejszenia poziomu błędów o więcej niż 3 razy.
Metagenomika
Metagenomika to analiza materiału genetycznego odzyskanego bezpośrednio z próbek środowiskowych.
Zalety
Główną zaletą technologii sekwencjonowania trzeciej generacji w metagenomice jest ich szybkość sekwencjonowania w porównaniu z technikami drugiej generacji. Szybkość sekwencjonowania jest ważna na przykład w warunkach klinicznych (tj. patogenu ), aby umożliwić skuteczną diagnozę i podjęcie działań klinicznych w odpowiednim czasie.
MinION firmy Oxford Nanopore został użyty w 2015 r. do metagenomicznego wykrywania patogenów w czasie rzeczywistym w złożonych próbkach klinicznych o wysokim tle. Pierwszy wirusa Ebola (EBV) został zsekwencjonowany 44 sekundy po zebraniu danych. Istniało jednolite mapowanie odczytów do genomu; co najmniej jeden odczyt zmapowany na >88% genomu. Stosunkowo długie odczyty pozwoliły na sekwencjonowanie prawie kompletnego genomu wirusa z dużą dokładnością (97–99% identyczności) bezpośrednio z pierwotnej próbki klinicznej.
Powszechnym markerem filogenetycznym w badaniach różnorodności społeczności drobnoustrojów jest gen 16S rybosomalnego RNA . Do sekwencjonowania tego genu wykorzystano platformę SMRT firmy MinION i PacBio. W tym kontekście wskaźnik błędów PacBio był porównywalny z krótszymi odczytami z 454 i platform sekwencjonowania MiSeq firmy Illumina. [ potrzebne źródło ]
Wady
Wysoki poziom błędów MinION (~10-40%) uniemożliwił identyfikację markerów oporności na środki przeciwdrobnoustrojowe , dla których konieczna jest rozdzielczość pojedynczych nukleotydów. Z tego samego powodu nie zidentyfikowano patogenów eukariotycznych . Problemem jest również łatwość przenoszenia zanieczyszczeń podczas ponownego użycia tej samej komory przepływowej (standardowe protokoły przemywania nie działają). Unikalne kody kreskowe mogą pozwolić na większe multipleksowanie. Ponadto wykonywanie dokładnej identyfikacji gatunkowej bakterii , grzybów i pasożytów jest bardzo trudne, ponieważ mają wspólną większą część genomu, a niektóre różnią się tylko o <5%.
Koszt sekwencjonowania na zasadę jest nadal znacznie wyższy niż w przypadku MiSeq. Jednak perspektywa uzupełnienia referencyjnych baz danych o sekwencje pełnej długości z organizmów poniżej granicy wykrywalności z Sangera ; może to znacznie pomóc w identyfikacji organizmów w metagenomice.