Sekwencjonowanie nanokulek DNA

Przepływ pracy dla sekwencjonowania nanokulek DNA

Sekwencjonowanie nanokulek DNA to technologia sekwencjonowania o wysokiej przepustowości , która służy do określenia całej sekwencji genomowej organizmu. Metoda wykorzystuje replikację toczącego się koła do amplifikacji małych fragmentów genomowego DNA w nanokulki DNA . Nukleotydy fluorescencyjne wiążą się z komplementarnymi nukleotydami, a następnie są polimeryzowane w celu zakotwiczenia sekwencji związanych ze znanymi sekwencjami na matrycy DNA. Kolejność zasad jest określana na podstawie fluorescencji związanych nukleotydów. Ta metoda sekwencjonowania DNA umożliwia sekwencjonowanie dużej liczby nanokulek DNA na cykl przy niższych kosztach odczynników w porównaniu z innymi platformami do sekwencjonowania nowej generacji . Jednak ograniczeniem tej metody jest to, że generuje ona tylko krótkie sekwencje DNA, co stanowi wyzwanie dla mapowania jej odczytów na genom referencyjny . Po zakupie Complete Genomics, Beijing Genomics Institute (BGI) udoskonalił sekwencjonowanie nanokulek DNA w celu sekwencjonowania próbek nukleotydów na własnej platformie.

Procedura

Sekwencjonowanie DNA Nanoball obejmuje izolację DNA , który ma być sekwencjonowany, pocięcie go na małe fragmenty o długości 100–350 par zasad (bp), ligację sekwencji adaptorowych z fragmentami i zakreślenie fragmentów. Okrągłe fragmenty są kopiowane przez replikację toczącego się koła, w wyniku czego powstaje wiele jednoniciowych kopii każdego fragmentu. Kopie DNA łączą się od głowy do ogona w długą nić i są zagęszczane w nanokule DNA. Nanokulki są następnie adsorbowane na komorze przepływowej do sekwencjonowania. Kolor fluorescencji w każdej badanej pozycji jest rejestrowany przez kamerę o wysokiej rozdzielczości. Bioinformatyka jest wykorzystywana do analizy danych fluorescencyjnych i wykonywania połączeń podstawowych oraz do mapowania lub kwantyfikowania odczytów 50 pz, 100 pz lub 150 pz na jednym lub par końcówkach.

Izolacja DNA, fragmentacja i przechwytywanie rozmiaru

Komórki poddaje się lizie , az lizatu komórkowego ekstrahuje się DNA . DNA o dużej masie cząsteczkowej, często o długości kilku megazasad, jest fragmentowane metodami fizycznymi lub enzymatycznymi w celu rozbicia podwójnych nici DNA w przypadkowych odstępach czasu. Mapowanie bioinformatyczne odczytów sekwencjonowania jest najbardziej wydajne, gdy próbka DNA zawiera wąski zakres długości. W przypadku sekwencjonowania małych RNA wybór idealnych długości fragmentów do sekwencjonowania przeprowadza się za pomocą elektroforezy żelowej ; w przypadku sekwencjonowania większych fragmentów fragmenty DNA są rozdzielane przez selekcję wielkości na podstawie kulek.

Dołączanie sekwencji adapterów

Sekwencje adaptera DNA muszą być przyłączone do nieznanego fragmentu DNA, tak aby segmenty DNA o znanych sekwencjach flankowały nieznany DNA. W pierwszej rundzie ligacji adapterów prawy (Ad153_right) i lewy (Ad153_left) adaptery są przyłączane do prawego i lewego boku fragmentowanego DNA, a DNA jest amplifikowane przez PCR . Następnie splint oligo hybrydyzuje z końcami fragmentów, które są połączone w celu utworzenia koła. Dodaje się egzonukleazę w celu usunięcia wszystkich pozostałych liniowych jednoniciowych i dwuniciowych produktów DNA. Rezultatem jest ukończony okrągły szablon DNA.

Replikacja toczącego się koła

Po utworzeniu jednoniciowej kolistej matrycy DNA, zawierającej próbkę DNA, która jest zligowana z dwiema unikalnymi sekwencjami adaptorowymi, pełna sekwencja jest amplifikowana do długiego łańcucha DNA. Osiąga się to poprzez replikację toczącego się koła z polimerazą DNA Phi 29 , która wiąże i replikuje matrycę DNA. Nowo zsyntetyzowana nić jest uwalniana z okrągłej matrycy, w wyniku czego powstaje długa jednoniciowa DNA zawierająca kilka kopii kolistej matrycy od głowy do ogona. Powstała nanocząstka samoorganizuje się w ciasną kulę DNA o średnicy około 300 nanometrów (nm). Nanokulki pozostają oddzielone od siebie, ponieważ są naładowane ujemnie, naturalnie odpychają się nawzajem, zmniejszając wszelkie splątanie między różnymi długościami jednoniciowego DNA.

DNA nanoball creation and adsorption to the patterned array flowcell
Tworzenie nanokulek DNA i adsorpcja do wzorzystej matrycy przepływowej

Macierz z wzorami nanokulek DNA

Aby uzyskać sekwencję DNA, nanokule DNA są przyłączane do wzorzystej matrycy przepływowej. Komórka przepływowa to płytka krzemowa pokryta dwutlenkiem krzemu , tytanem , heksametylodisilazanem (HMDS) i materiałem fotorezystu . Nanokulki DNA są dodawane do kuwety przepływowej i selektywnie wiążą się z dodatnio naładowanym aminosilanem w wysoce uporządkowany sposób, umożliwiając sekwencjonowanie nanokulek DNA o bardzo dużej gęstości.

Obrazowanie

Po każdym etapie włączania nukleotydu DNA komórka przepływowa jest obrazowana w celu określenia, która zasada nukleotydowa wiąże się z nanokulką DNA. Fluorofor jest wzbudzany laserem , który wzbudza określone długości fal światła. Emisja fluorescencji z każdej nanokulki DNA jest rejestrowana przez kamerę CCD o wysokiej rozdzielczości . Obraz jest następnie przetwarzany w celu usunięcia szumu tła i oceny intensywności każdego punktu. Kolor każdej nanokuli DNA odpowiada podstawie w pozycji przesłuchującej, a komputer rejestruje informacje o pozycji podstawowej.

Format danych sekwencjonowania

Dane wygenerowane z nanokulek DNA są sformatowane jako standardowe pliki w formacie FASTQ z ciągłymi podstawami (bez przerw). Pliki te mogą być używane w dowolnym potoku analizy danych, który jest skonfigurowany do odczytu pojedynczych lub sparowanych plików FASTQ.

Na przykład:

Odczytaj 1, ze sparowanego końca o długości 100 pz

@CL100011513L1C001R013_126365/1 CTAGGCAACTATAGGTCTCAGTTAAGTCAAATAAAATTCACATCAAATTTTTACTCCCACCATCCCAACACTTTCCTGCCTGGCATATGCCGTGTCTGCC + FFFFFFFFFGFGFFFFFF;FFFFFFGFGFGFFFFFF;FFFFGFGFGFFEFFFFFEDGF DFF@FCFGFGCFFFFFEFFEGDFDFFFFFGDAFFEFGFF

Odpowiednie czytanie 2:

3E9E E?FD<<@EFE>>ECEF5CE:B6E:CEE?6B>B+@??31/FD:0?@:E9<3FE2/A:/8>9CB&=E<7:-+>;29: 7+/5D9)?5F/:

Wskazówki dotyczące informatyki

Referencyjne dopasowanie genomu

Domyślne parametry popularnych nakładek są wystarczające.

Przeczytaj nazwy

W pliku FASTQ utworzonym przez sekwenatory BGI/MGI przy użyciu nanokulek DNA na wzorzystej matrycy przepływowej odczytane nazwy wyglądają następująco:

BGISEQ read name anatomy
Anatomia odczytywanej nazwy sekwencera BGI
MGISEQ read name anatomy
Anatomia odczytywanej nazwy sekwensera MGI

BGISEQ-500: CL100025298L1C002R050_244547

MGISEQ-2000: V100006430L1C001R018613883

Nazwy odczytów można przeanalizować, aby wyodrębnić trzy zmienne opisujące fizyczne położenie odczytu na wzorcowej tablicy: (1) kafelek/region, (2) współrzędna x i (3) współrzędna y. Należy zauważyć, że ze względu na kolejność tych zmiennych, te odczytane nazwy nie mogą być natywnie analizowane przez Picard MarkDuplicates w celu identyfikacji duplikatów optycznych. Ponieważ jednak nie ma ich na tej platformie, nie stanowi to problemu dla analizy danych opartej na Picard.

Duplikaty

Ponieważ nanokulki DNA pozostają ograniczone w swoich miejscach na wzorzystej macierzy, nie ma optycznych duplikatów, z którymi można by się uporać podczas bioinformatycznej analizy odczytów sekwencjonowania. Sugeruje się uruchomienie Picard MarkDuplicates w następujący sposób:

java -jar picard.jar MarkDuplicates I=input.bam O=marked_duplicates.bam M=marked_dup_metrics.txt READ_NAME_REGEX=null

Test z przyjaznymi dla Picarda, przeformatowanymi nazwami odczytów pokazuje brak tej klasy zduplikowanych odczytów:

Picard MarkDuplicates test results
Test Picarda MarkDuplicates zmieniający parametr OPTICAL_DUPLICATE_PIXEL_DISTANCE

Pojedynczy odczyt oznaczony jako duplikat optyczny jest z całą pewnością artefaktem. W każdym razie wpływ na szacowany rozmiar biblioteki jest pomijalny.

Zalety

Technologia sekwencjonowania nanokulek DNA ma pewne zalety w porównaniu z innymi platformami do sekwencjonowania. Jedną z zalet jest eliminacja duplikatów optycznych. Nanokulki DNA pozostają na swoim miejscu na wzorzystym układzie i nie kolidują z sąsiednimi nanokulkami.

Inną zaletą sekwencjonowania nanokulek DNA jest zastosowanie polimerazy DNA Phi 29 o wysokiej wierności w celu zapewnienia dokładnej amplifikacji kolistej matrycy, kilkaset kopii kolistej matrycy sprasowanej na niewielkim obszarze, co daje intensywny sygnał oraz przyłączenie fluoroforu do sonda w dużej odległości od punktu ligacji powoduje poprawę ligacji.

Niedogodności

Główną wadą sekwencjonowania nanokulek DNA jest krótka długość odczytu sekwencji DNA uzyskanych tą metodą. Krótkie odczyty, zwłaszcza w przypadku DNA z dużą liczbą powtórzeń DNA , mogą być mapowane na dwa lub więcej regionów genomu referencyjnego. Drugą wadą tej metody jest konieczność stosowania wielu rund PCR. Może to wprowadzić błąd PCR i ewentualnie amplifikować zanieczyszczenia w fazie konstrukcji matrycy. Jednak te wady są wspólne dla wszystkich platform do sekwencjonowania z krótkim odczytem i nie są specyficzne dla nanokulek DNA.

Aplikacje

W ostatnich badaniach zastosowano sekwencjonowanie nanokulek DNA. Lee i in. wykorzystali tę technologię do znalezienia mutacji obecnych w raku płuc i porównali je z normalną tkanką płuc. Byli w stanie zidentyfikować ponad 50 000 wariantów pojedynczych nukleotydów . Roach i in. wykorzystali sekwencjonowanie nanokulek DNA do sekwencjonowania genomów rodziny składającej się z czterech krewnych i byli w stanie zidentyfikować SNP, które mogą być odpowiedzialne za zaburzenie mendlowskie , i byli w stanie oszacować wskaźnik mutacji międzypokoleniowych. Institute for Systems Biology wykorzystał tę technologię do sekwencjonowania 615 kompletnych próbek ludzkiego genomu w ramach badania dotyczącego chorób neurodegeneracyjnych , a National Cancer Institute wykorzystuje sekwencjonowanie nanokulek DNA do sekwencjonowania 50 guzów i dopasowanych normalnych tkanek z nowotworów dziecięcych . [ potrzebne źródło ]

Znaczenie

Masowo równoległe platformy sekwencjonowania nowej generacji, takie jak sekwencjonowanie nanokulek DNA, mogą przyczynić się do diagnozowania i leczenia wielu chorób genetycznych. Koszt sekwencjonowania całego ludzkiego genomu spadł z około miliona dolarów w 2008 roku do 4400 dolarów w 2010 roku dzięki technologii nanokulek DNA. Sekwencjonowanie całych genomów pacjentów z chorobami dziedzicznymi lub nowotworami pozwoliło zidentyfikować mutacje związane z tymi chorobami , otwierając nowe strategie, takie jak ukierunkowane terapie dla osób z grupy ryzyka oraz poradnictwo genetyczne . Ponieważ cena sekwencjonowania całego ludzkiego genomu zbliża się do 1000 dolarów , sekwencjonowanie genomu każdej osoby może stać się wykonalne jako część normalnej medycyny prewencyjnej .