Sekwencjonowanie dupleksu
Sekwencjonowanie dupleksowe to metoda przygotowania i analizy biblioteki dla platform sekwencjonowania nowej generacji (NGS), która wykorzystuje losowe znakowanie dwuniciowego DNA w celu wykrywania mutacji z większą dokładnością i niższym odsetkiem błędów.
Ta metoda wykorzystuje zdegenerowane znaczniki molekularne oprócz adapterów sekwencjonowania do rozpoznawania odczytów pochodzących z każdej nici DNA. Wygenerowane odczyty sekwencjonowania zostaną następnie przeanalizowane przy użyciu dwóch metod: składania jednoniciowych sekwencji konsensusowych (SSCS) i składania dupleksowych sekwencji konsensusowych (DCS). Sekwencjonowanie dupleksowe teoretycznie może wykrywać mutacje z częstotliwościami tak niskimi jak 5 x 10-8 – czyli ponad 10 000 razy większą dokładnością w porównaniu z konwencjonalnymi metodami sekwencjonowania nowej generacji.
Szacowany poziom błędów standardowych platform sekwencjonowania nowej generacji wynosi od 10-2 do 10-3 na wywołanie podstawowe. Przy takim poziomie błędów miliardy wywołań bazowych generowanych przez NGS spowodują miliony błędów. Błędy są wprowadzane podczas przygotowywania próbek i sekwencjonowania, takie jak reakcja łańcuchowa polimerazy , sekwencjonowanie i błędy analizy obrazu. Podczas gdy poziom błędów platform NGS jest akceptowalny w niektórych zastosowaniach, takich jak wykrywanie wariantów klonalnych , jest to główne ograniczenie w przypadku zastosowań wymagających większej dokładności wykrywania wariantów o niskiej częstotliwości, takich jak wykrywanie mozaicyzmu wewnątrzorganizmowego , subklonalnych wariantów w genetycznie raki heterogenne lub krążące DNA nowotworu.
Opracowano kilka strategii przygotowania bibliotek, które zwiększają dokładność platform NGS, takich jak molekularne kody kreskowe i metoda cyklicznego sekwencjonowania konsensusu. Podobnie jak w przypadku platform NGS, dane generowane tymi metodami pochodzą z pojedynczej nici DNA, a zatem błędy wprowadzane podczas amplifikacji PCR , przetwarzania tkanek , ekstrakcji DNA , przechwytywania hybrydyzacji (jeśli jest stosowany) lub samego sekwencjonowania DNA nadal można rozróżnić jako prawdziwy wariant. Metoda sekwencjonowania dupleksowego rozwiązuje ten problem, wykorzystując komplementarność dwóch nici DNA i potwierdzając tylko warianty obecne w obu niciach DNA. Ponieważ prawdopodobieństwo wystąpienia dwóch komplementarnych błędów w tym samym miejscu w obu niciach jest niezwykle niskie, sekwencjonowanie dupleksowe znacznie zwiększa dokładność sekwencjonowania.
Eksperymentalny przepływ pracy
Adaptery ze znacznikami sekwencjonowania dupleksu mogą być używane w połączeniu z większością adapterów NGS. W sekcji dotyczącej rysunków i przepływu pracy w tym artykule adaptery sekwencjonowania Illumina są używane jako przykład zgodnie z pierwotnie opublikowanym protokołem.
Wyżarzanie adaptera
Na tym etapie stosuje się dwa oligonukleotydy (Rysunek 1: Adaptery oligo). Jeden z oligonukleotydów zawiera 12-nukleotydową jednoniciową losową sekwencję znacznikową, po której następuje ustalona sekwencja 5' nukleotydowa (czarna sekwencja na fig. 1). Na tym etapie oligonukleotydy są hybrydyzowane w regionie komplementarnym przez inkubację w wymaganych warunkach czasowych.
Synteza adaptera
Adaptery, które pomyślnie się złączyły , są wydłużane i syntetyzowane przez polimerazę DNA, aby uzupełnić dwuniciowy adapter zawierający komplementarne znaczniki (ryc. 1).
ogonowanie 3'-dT
Wydłużone dwuniciowe adaptery są cięte przez HpyCH4III w specyficznym miejscu restrykcyjnym znajdującym się po stronie 3' sekwencji znacznika i będą skutkować wystającym fragmentem 3'-dT, który zostanie zligowany z wystającym fragmentem 3'-dA w bibliotekach DNA w etap ligacji adaptera (Rysunek 1).
Przygotowanie biblioteki
Dwuniciowy DNA jest cięty przy użyciu jednej z następujących metod: sonikacji , trawienia enzymatycznego lub nebulizacji. Fragmenty są wybierane pod względem wielkości za pomocą kulek Ampure XP. żelu nie jest zalecany, ponieważ może to spowodować stopienie podwójnych nici DNA i uszkodzenie DNA w wyniku ekspozycji na promieniowanie UV . Wielkość wybranych fragmentów DNA poddawana jest ogonowaniu 3'-end-dA.
Podwiązanie adaptera
Na tym etapie dwa znakowane adaptery są ligowane od ogonów 3'-dT do ogonów 3'-dA po obu stronach dwuniciowych fragmentów biblioteki DNA. W wyniku tego procesu powstają dwuniciowe fragmenty biblioteki, które zawierają dwa losowe znaczniki (α i β) po każdej stronie, które są odwrotnym uzupełnieniem względem siebie (ryc. 1 i 2). Stosunek „DNA: adapter” ma kluczowe znaczenie w określaniu powodzenia ligacji.
Wstawianie adapterów sekwencjonowania do oznakowanych bibliotek
W ostatnim etapie przygotowania biblioteki sekwencjonowania dupleksowego, adaptery sekwencjonowania Illumina są dodawane do znakowanych bibliotek dwuniciowych przez amplifikację PCR przy użyciu starterów zawierających adaptery sekwencjonowania. Podczas amplifikacji PCR obie komplementarne nici DNA są amplifikowane i wytwarzają dwa rodzaje produktów PCR. Produkt 1 wywodzi się z nici 1, które mają unikalną sekwencję znaczników (nazywaną α na rysunku 2) obok adaptera Illumina 1, a produkt 2 ma unikalny znacznik (oznaczony jako β na rysunku 2) obok adaptera Illumina 1. (W każdej nici , znacznik α jest odwrotnym uzupełnieniem znacznika β i odwrotnie). Biblioteki zawierające znaczniki dupleksowe i adaptery Illumina są sekwencjonowane przy użyciu systemu Illumina TruSeq. Odczyty, które pochodzą z każdej pojedynczej nici DNA, tworzą grupę odczytów (rodzin znaczników), które mają ten sam znacznik. Wykryte rodziny odczytów zostaną wykorzystane w następnym kroku do analizy danych sekwencjonowania.
Rozważania
Efektywność ligacji adaptera
Wydajność ligacji adaptera jest bardzo ważna w pomyślnym sekwencjonowaniu dupleksowym. Dodatkowa ilość bibliotek lub adapterów może wpływać na równowagę między DNA a adapterem, powodując odpowiednio nieefektywną ligację i nadmiar dimerów starterów. Dlatego ważne jest, aby stężenie molowe DNA do adaptera było utrzymywane w optymalnym stosunku (0,05).
Oznacz rozmiar rodziny
Wydajność sekwencjonowania dupleksowego zależy od ostatecznej liczby DCS, która jest bezpośrednio związana z liczbą odczytów w każdej rodzinie (wielkość rodziny). Jeśli wielkość rodziny jest zbyt mała, nie można złożyć DCS, a jeśli zbyt wiele odczytów dzieli ten sam znacznik, wydajność danych będzie niska. Wielkość rodziny określa się na podstawie ilości matrycy DNA potrzebnej do amplifikacji PCR i dedykowanej frakcji ścieżki sekwencjonowania. Optymalna wielkość rodziny znaczników wynosi od 6 do 12 członków. Aby uzyskać optymalną wielkość rodziny, należy dostosować ilości matrycy DNA i frakcji dedykowanej ścieżki sekwencjonowania. Poniższy wzór uwzględnia najważniejsze zmienne, które mogą mieć wpływ na głębokość pokrycia (N=40DG÷R) gdzie „N” to liczba odczytów, „D” to pożądana głębokość pokrycia, „G” to wielkość Docelowy DNA w parze zasad, a „R” to ostateczna długość odczytu.
Obliczeniowy przepływ pracy
Filtrowanie i przycinanie
Każdy odczyt sekwencjonowania dupleksowego zawiera ustaloną sekwencję 5-nukleotydową (pokazaną na rysunkach w kolorze czarnym) zlokalizowaną powyżej 12-nukleotydowej sekwencji znacznikowej. Odczyty są filtrowane, jeśli nie mają oczekiwanej sekwencji 5-nukleotydowej lub mają więcej niż dziewięć identycznych lub niejednoznacznych zasad w każdym znaczniku. Dwa 12-nukleotydowe znaczniki na każdym końcu odczytów są łączone i przenoszone do nagłówka odczytu. Tworzą się dwie rodziny odczytów, które pochodzą z dwóch nici DNA. Jedna rodzina zawiera odczyty z nagłówkiem αβ pochodzące z nici 1, a druga zawiera odczyty z nagłówkiem βα pochodzące z nici 2 (Rysunek 2). Odczyty są następnie przycinane przez usunięcie ustalonej sekwencji 5 par zasad i 4 podatnych na błędy nukleotydów zlokalizowanych w miejscach ligacji i naprawy końców. Pozostałe odczyty są składane w sekwencje konsensusowe przy użyciu zestawów SSCS i DCS.
Montaż SSCS
Przycięte sekwencje z poprzedniego kroku są dopasowywane do genomu referencyjnego za pomocą wyrównywacza Burrowsa-Wheelera (BWA), a niezmapowane odczyty są usuwane. Dopasowane odczyty, które mają tę samą sekwencję znaczników o długości 24 par zasad i region genomowy, są wykrywane i grupowane (rodzina αβ i βα na rycinie 2). Każda grupa reprezentuje „rodzinę znaczników”. Rodziny etykiet zawierające mniej niż trzech członków nie są analizowane. Aby usunąć błędy, które pojawiają się podczas amplifikacji PCR lub sekwencjonowania, mutacje obsługiwane przez mniej niż 70% członków (odczytów) są odfiltrowywane z analizy. Sekwencja konsensusowa jest następnie generowana dla każdej rodziny przy użyciu identycznych sekwencji w każdej pozycji pozostałych odczytów. Sekwencja konsensusowa nazywa się SSCS. Zwiększa dokładność NGS do około 20-krotnie; jednak ta metoda opiera się na informacjach sekwencjonowania z pojedynczych nici DNA i dlatego jest wrażliwa na błędy wywołane w pierwszej rundzie lub przed amplifikacją PCR.
Zespół DCS
Odczyty z ostatniego kroku są dopasowywane do genomu odniesienia. W tej metodzie pary rodzin SSCS, które mają komplementarne znaczniki, zostaną zgrupowane (rodzina αβ i βα na rycinie 2). Te odczyty pochodzą z dwóch komplementarnych nici DNA. Sekwencje o wysokim poziomie pewności są wybierane na podstawie idealnie dopasowanych połączeń bazowych każdej rodziny. Ostatnia sekwencja nazywana jest DCS. Prawdziwe mutacje to te, które idealnie pasują do komplementarnych SSCS. Ten krok odfiltrowuje pozostałe błędy zgłoszone podczas pierwszej rundy amplifikacji PCR lub podczas przygotowywania próbki.
Zalety
Zmniejszenie wskaźnika błędów sekwencjonowania
Wysoki poziom błędu (0,01-0,001) standardowych platform NGS wprowadzonych podczas przygotowania próbki lub sekwencjonowania jest głównym ograniczeniem wykrywania wariantów obecnych w niewielkiej części komórek. Dzięki systemowi znakowania dupleksowego i wykorzystaniu informacji w obu niciach DNA, sekwencjonowanie dupleksowe znacznie zmniejszyło współczynnik błędów sekwencjonowania około 10 milionów razy przy użyciu zarówno metody SSCS, jak i DCS.
Zwiększenie dokładności wywoływania wariantów
Dokładna identyfikacja rzadkich wariantów przy użyciu standardowych metod NGS o częstości mutacji (10-2 do 10-3 ) jest trudna. Błędy, które występują na wczesnym etapie przygotowywania próbki, można wykryć jako rzadkie warianty. Przykładem takich błędów jest transwersja C>A/G>T , wykrywana przy niskich częstotliwościach przy użyciu danych głębokiego sekwencjonowania lub ukierunkowanego wychwytywania i powstająca w wyniku utleniania DNA podczas przygotowywania próbki. Te typy fałszywie dodatnich wariantów są odfiltrowywane metodą sekwencjonowania dupleksowego, ponieważ mutacje muszą być dokładnie dopasowane w obu niciach DNA, aby zostały zweryfikowane jako prawdziwe mutacje. Sekwencjonowanie dupleksowe może teoretycznie wykryć mutacje z częstotliwościami tak niskimi jak 10-8 w porównaniu z szybkością 10-2 standardowych metod NGS.
Dotyczy większości platform NGS
Kolejną zaletą sekwencjonowania dupleksowego jest to, że można go używać w połączeniu z większością platform NGS bez wprowadzania znaczących zmian w standardowych protokołach.
Ograniczenia
Koszt
Ponieważ sekwencjonowanie dupleksowe zapewnia znacznie wyższą dokładność sekwencjonowania i wykorzystuje informacje w obu niciach DNA, metoda ta wymaga znacznie większej głębokości sekwencjonowania i dlatego jest kosztownym podejściem. Koszt ogranicza obecnie jego zastosowanie do sekwencjonowania ukierunkowanego i amplikonu i nie będzie miał zastosowania do podejść do sekwencjonowania całego genomu. Jednak zastosowanie sekwencjonowania dupleksowego dla większych celów DNA będzie bardziej wykonalne, gdy spadnie koszt NGS.
Praktyczne zastosowanie
Sekwencjonowanie dupleksowe to nowa metoda, a jej skuteczność badano w ograniczonych zastosowaniach, takich jak wykrywanie mutacji punktowych za pomocą ukierunkowanego sekwencjonowania wychwytywania. Należy przeprowadzić więcej badań, aby rozszerzyć zastosowanie i wykonalność sekwencjonowania dupleksowego na bardziej złożone próbki z większą liczbą mutacji, indeli i odmian liczby kopii .
Aplikacje
Wykrywanie wariantów o niskich częstotliwościach
Sekwencjonowanie dupleksowe i znaczny wzrost dokładności sekwencjonowania wywarły istotny wpływ na zastosowania, takie jak wykrywanie rzadkich ludzkich wariantów genetycznych, wykrywanie mutacji subklonalnych zaangażowanych w mechanizmy oporności na terapię w nowotworach heterogennych genetycznie, skrining wariantów w krążącym DNA nowotworu jako nie -inwazyjny biomarker i skrining prenatalny pod kątem nieprawidłowości genetycznych u płodu.
Kopiuj wykrywanie numeru
Innym zastosowaniem sekwencjonowania dupleksowego jest wykrywanie liczby kopii DNA/RNA poprzez oszacowanie względnej częstości występowania wariantów. Przykładem jest metoda zliczania cząsteczek matrycy PCR z zastosowaniem do sekwencjonowania nowej generacji.
Analiza i oprogramowanie
Listę wymaganych narzędzi i pakietów do analizy SSCS i DCS można znaleźć w Internecie.