2 kodowanie podstawowe

Dwubazowy schemat kodowania. W kodowaniu dwuzasadowym każdej unikalnej parze zasad na końcu 3' sondy przypisany jest jeden z czterech możliwych kolorów. Na przykład „AA” jest przypisane do niebieskiego, „AC” do zielonego i tak dalej dla wszystkich 16 unikalnych par. Podczas sekwencjonowania każda zasada w szablonie jest sekwencjonowana dwukrotnie, a otrzymane dane są dekodowane zgodnie z tym schematem.

2 Base Encoding , zwane także SOLiD ( sekwencjonowanie przez ligację i wykrywanie oligonukleotydów ), to technologia sekwencjonowania nowej generacji opracowana przez Applied Biosystems i jest dostępna na rynku od 2008 roku. Technologie te generują setki tysięcy odczytów małych sekwencji w jednym czasie. Dobrze znane przykłady takich sekwencjonowania DNA obejmują pirosekwencjonowanie 454 (wprowadzone w 2005 r.), system Solexa (wprowadzony w 2006 r.) i system SOLiD (wprowadzony w 2007 r.). Metody te obniżyły koszt z 0,01 USD / zasadę w 2004 r. Do prawie 0,0001 USD / zasadę w 2006 r. I zwiększyły wydajność sekwencjonowania z 1 000 000 zasad / maszynę / dzień w 2004 r. Do ponad 100 000 000 zasad / maszynę / dzień w 2006 r.

Kodowanie 2-zasadowe jest oparte na sekwencjonowaniu przez ligację, a nie sekwencjonowaniu przez syntezę. Jednak zamiast używać znakowanych fluorescencyjnie 9-merowych sond, które rozróżniają tylko 6 zasad, kodowanie 2-zasadowe wykorzystuje znakowane fluorescencyjnie 8-merowe sondy, które rozróżniają dwie 3-rzędowe większość zasad, ale mogą być cyklicznie podobne do metody Macevicza, a tym samym większe można uzyskać odczyty powyżej 6 pb (opublikowane 25-50 pb, 50 pb w NCBI w lutym 2008). Kodowanie 2-bazowe umożliwia dwukrotne odczytanie każdej zasady bez wykonywania podwójnej pracy.

Główne cechy

Ogólne kroki wspólne dla wielu z tych technik sekwencjonowania nowej generacji obejmują:

  1. Losowa fragmentacja genomowego DNA
  2. Immobilizacja pojedynczych fragmentów DNA na stałym podłożu, takim jak kulka lub płaska powierzchnia stała
  3. Amplifikacja fragmentów DNA na podłożu stałym metodą PCR i tworzenie kolonii polimerazy
  4. Sekwencjonowanie i późniejsze przesłuchanie in situ po każdym cyklu przy użyciu skanowania fluorescencyjnego lub chemiluminescencji.

W 1988 Whiteley i in. wykazali zastosowanie znakowanej fluorescencyjnie ligacji oligonukleotydów do wykrywania wariantów DNA. W 1995 Macevicz zademonstrował powtarzaną ligację oligonukleotydów w celu wykrycia ciągłych wariantów DNA. W 2003 roku Dressman i in. zademonstrowali zastosowanie emulsyjnej reakcji PCR do wytworzenia milionów zamplifikowanych klonalnie perełek, na których można by przeprowadzić te powtarzane testy ligacji. W 2005 r. Shendure i in. przeprowadzili procedurę sekwencjonowania, która łączyła techniki Whiteleya i Dressmana, przeprowadzając ligację wyznakowanych fluorescencyjnie „zdegenerowanych 8 zasad” 9-merowych sond, które rozróżniały różne zasady zgodnie ze znacznikiem sondy i zasadą niezdegenerowaną. Proces ten powtórzono (bez regeneracji rozciągliwego końca, jak u Macevicza) stosując identyczne startery, ale z sondami ze znacznikami, które identyfikowały różne niezdegenerowane zasady do sekwencji odczyty 6bp w kierunku 5->3 i odczyty 7bp w kierunku 3->5.

Jak to działa

System sekwencjonowania SOLiD wykorzystuje sondy z podwójnym kodowaniem zasad.

Podstawowa chemia jest podsumowana w następujących krokach:

- Krok 1, przygotowanie biblioteki: Ten krok rozpoczyna się od pocięcia genomowego DNA na małe fragmenty. Następnie dodaje się dwa różne adaptery (na przykład A1 i A2). Otrzymana biblioteka zawiera fragmenty matrycowego DNA, które są oznakowane jednym adapterem na każdym końcu (A1-matryca-A2).

- Etap 2, Emulsion PCR: W tym etapie przeprowadza się reakcję PCR w emulsji (krople wody zawieszone w oleju) przy użyciu fragmentów DNA z biblioteki, dwóch starterów (P1 i P2), które uzupełniają poprzednio użyte adaptery (P1 z A1 i P2 z A2), inne składniki reakcji PCR oraz kulki 1μm sprzężone z jednym ze starterów (np. P1). zrobić rozcieńczenie z biblioteki DNA, aby zmaksymalizować kroplę zawierającą jeden fragment DNA i jedną kulkę w pojedynczej kropli emulsji.

W każdej kropli matryca DNA łączy się z kulką sprzężoną z P1 od strony A1. Następnie polimeraza DNA rozciąga się od P1, tworząc sekwencję komplementarną, co ostatecznie daje kulkę wzbogaconą produktami PCR z pojedynczej matrycy. Po reakcji PCR matryce są denaturowane i oddzielają się od kulek. Dressman i in. po raz pierwszy opisali tę technikę w 2003 roku.

- Krok 3, Wzbogacanie perełek: W praktyce tylko 30% perełek ma docelowe DNA. Aby zwiększyć liczbę kulek zawierających docelowe DNA, do roztworu dodaje się duże kulki polistyrenowe pokryte A2. W ten sposób każda kulka zawierająca rozszerzone produkty będzie wiązać kuleczkę polistyrenu przez swój koniec P2. Powstały kompleks zostanie oddzielony od nieukierunkowanych kulek i stopiony w celu oddzielenia docelowych kulek od polistyrenu. Ten krok może zwiększyć przepustowość tego systemu z 30% przed wzbogaceniem do 80% po wzbogaceniu.

Po wzbogaceniu, 3'-koniec produktów (koniec P2) zostanie zmodyfikowany, co czyni je zdolnymi do wiązania kowalencyjnego w następnym etapie. Dlatego produktami tego etapu są perełki sprzężone z DNA z 3'-modyfikacją każdej nici DNA.

- Krok 4, osadzanie perełek: W tym etapie produkty z ostatniego etapu są osadzane na szkiełku podstawowym. Perełki przyczepiają się do powierzchni szkła losowo poprzez wiązania kowalencyjne kulek zmodyfikowanych 3' i szkła.

- Etap 5, reakcja sekwencjonowania: Jak wspomniano wcześniej, w przeciwieństwie do innych metod nowej generacji, które przeprowadzają sekwencjonowanie poprzez syntezę, kodowanie 2-zasadowe opiera się na sekwencjonowaniu przez ligację. Ligację przeprowadza się przy użyciu specyficznych 8-merowych sond:

Sondy te mają długość ośmiu zasad z wolną grupą hydroksylową na końcu 3', barwnikiem fluorescencyjnym na końcu 5' i miejscem cięcia między piątym a szóstym nukleotydem. Pierwsze dwie zasady (począwszy od końca 3') są komplementarne do sekwencjonowanych nukleotydów. Zasady od 3 do 5 są zdegenerowane i mogą łączyć się w pary z dowolnymi nukleotydami w sekwencji matrycy. Zasady 6-8 są również zdegenerowane, ale są odszczepiane wraz z barwnikiem fluorescencyjnym w miarę trwania reakcji. Rozszczepienie barwnika fluorescencyjnego i zasad 6-8 pozostawia wolną grupę fosforanową 5' gotową do dalszej ligacji. W ten sposób pozycje n+1 i n+2 są prawidłowo sparowane, a następnie n+6 i n+7 są prawidłowo sparowane itd. Skład zasad n+3, n+4 i n+5 pozostaje nieokreślony do dalszych rundy reakcji sekwencjonowania.

Etap sekwencjonowania zasadniczo składa się z pięciu rund, a każda runda składa się z około 5-7 cykli (Rysunek 2). Każda runda rozpoczyna się od dodania podkładu uniwersalnego uzupełniającego P1. Starter ten ma na przykład n nukleotydów, a jego koniec 5' dokładnie pasuje do końca 3' P1. W każdym cyklu dodaje się 8-merowe sondy i poddaje ligacji zgodnie z ich pierwszą i drugą zasadą. Następnie pozostałe niezwiązane sondy są wypłukiwane, mierzony jest sygnał fluorescencyjny ze związanej sondy, a związana sonda jest cięta między jej piątym a szóstym nukleotydem. Na koniec starter i sondy są resetowane do następnej rundy.

W następnej rundzie nowy starter uniwersalny przyłącza pozycję n-1 (jego koniec 5' pasuje do podstawy dokładnie przed końcem 3' P1) i kolejne cykle są powtarzane podobnie jak w pierwszej rundzie. Pozostałe trzy rundy zostaną przeprowadzone z nowymi uniwersalnymi starterami łączącymi pozycje n-2, n-3 i n-4 względem 3'-końca P1.

Pełna reakcja pięciu rund umożliwia sekwencjonowanie około 25 par zasad matrycy z P1.

- Krok 6, dekodowanie danych: Aby zdekodować dane, które są reprezentowane jako kolory, musimy najpierw znać dwa ważne czynniki. Po pierwsze, musimy wiedzieć, że każdy kolor oznacza dwie bazy. Po drugie, musimy znać jedną z zasad sekwencji: ta zasada jest włączana do sekwencji w ostatniej (piątej) rundzie kroku 5. Ta znana zasada jest ostatnim nukleotydem 3'-końca znanego P1. Dlatego, ponieważ każdy kolor reprezentuje dwa nukleotydy, w których druga zasada każdej jednostki dinukleotydu stanowi pierwszą zasadę następnego dinukleotydu, znajomość tylko jednej zasady w sekwencji doprowadzi nas do interpretacji całej sekwencji (Rysunek 2).

2 Uwagi dotyczące kodowania podstawowego

W praktyce bezpośrednie tłumaczenie odczytów kolorów na odczyty podstawowe nie jest zalecane, ponieważ w momencie napotkania błędu w wywołaniach kolorów spowoduje to przesunięcie ramek wywołań podstawowych. Aby jak najlepiej wykorzystać właściwości „korekcji błędów” kodowania dwubazowego, najlepiej jest przekonwertować podstawową sekwencję odniesienia na przestrzeń kolorów. Istnieje jedna jednoznaczna konwersja podstawowej sekwencji referencyjnej na przestrzeń kolorów i chociaż odwrotność jest również prawdziwa, konwersja może być bardzo niedokładna, jeśli występują jakiekolwiek błędy w sekwencjonowaniu.

Odwzorowanie odczytów przestrzeni kolorów na odniesienie do przestrzeni kolorów może właściwie wykorzystać zasady kodowania dwubazowego, w których tylko sąsiednie różnice kolorów mogą reprezentować prawdziwy podstawowy polimorfizm. Bezpośrednie dekodowanie lub tłumaczenie odczytów kolorów na bazy nie może tego skutecznie zrobić bez innej wiedzy.

Mówiąc dokładniej, ta metoda nie jest narzędziem do korekcji błędów, ale narzędziem do przekształcania błędów. Przestrzeń kolorów przekształca twój najczęstszy tryb błędu (pojedyncze błędy pomiaru) na inną częstotliwość niż najczęstsza forma zmienności DNA (SNP lub zmiany pojedynczej zasady). Te pojedyncze zmiany bazowe wpływają na sąsiednie kolory w przestrzeni kolorów. Istnieją logiczne reguły, które pomagają korygować sąsiednie błędy na „ważne” i „nieważne” sąsiednie błędy.

Można oszacować prawdopodobieństwo uzyskania dwóch sąsiednich błędów w odczycie 50 pz. Istnieje 49 sposobów dokonywania sąsiednich zmian w ciągu 50 liter (odczyt 50 bp). Istnieje 1225 sposobów wprowadzania niesąsiadujących zmian w ciągu 50 liter (50 wybierz 2). Upraszczając, jeśli założy się, że błędy są całkowicie przypadkowe (zwykle mają wyższą częstotliwość na końcu odczytów), tylko 49 z 1225 błędów będzie kandydatami do SNP. Ponadto tylko jedna trzecia sąsiednich błędów może być prawidłowymi błędami zgodnie ze znanym etykietowaniem sond, dostarczając w ten sposób tylko 16 z 1225 błędów, które mogą być kandydatami na SNP. Jest to szczególnie przydatne w przypadku wykrywania SNP o niskim pokryciu, ponieważ zmniejsza liczbę fałszywych alarmów przy niskim pokryciu, Smith i in.

Zalety

Każda zasada w tej metodzie sekwencjonowania jest odczytywana dwukrotnie. Zmienia to kolor dwóch sąsiednich wywołań przestrzeni kolorów, dlatego aby błędnie wywołać SNP, należy błędnie wywołać dwa sąsiednie kolory. Z tego powodu współczynnik błędnych wywołań SNP jest rzędu e^2, gdzie e jest współczynnikiem błędów urządzenia.

Niedogodności

Gdy wywołanie podstawowe wywołania pojedynczego koloru powoduje błędy w pozostałej części odczytu. W wywołaniu SNP można to skorygować, co skutkuje niższym wskaźnikiem błędów wywołania SNP. Jednak w przypadku uproszczonego montażu de novo pozostaje wskaźnik błędów surowego urządzenia, który będzie znacznie wyższy niż 0,06% zgłaszane dla wywołań SNP. Filtrowanie jakości odczytów może zapewnić odczyty o wyższej dokładności, które po wyrównaniu w celu utworzenia kontigów kolorów mogą dostarczyć sekwencje referencyjne, w których można lepiej wykorzystać kodowanie 2-zasadowe. Zespoły hybrydowe z innymi technologiami mogą również lepiej wykorzystywać kodowanie bazowe 2.

Zobacz też