ScGET-seq

Genom i epigenom pojedynczej komórki przez sekwencjonowanie transpozaz (scGET-seq) to metoda sekwencjonowania DNA do profilowania chromatyny otwartej i zamkniętej . W przeciwieństwie do testu jednokomórkowego dla chromatyny dostępnej dla transpozazy z sekwencjonowaniem (scATAC-seq), który celuje tylko w aktywną euchromatynę . scGET-seq jest również zdolny do sondowania nieaktywnej heterochromatyny .

Osiąga się to dzięki zastosowaniu TnH, który jest tworzony przez połączenie chromodomeny ( CD) białka heterochromatyny-1-alfa (HP-1 ) z transpozazą Tn5 . TnH jest wtedy w stanie celować w trimetylację lizyny 9 histonu 3 ( H3K9me3 ), marker heterochromatyny.

Podobnie jak prędkość RNA, która wykorzystuje stosunek splicingu do nieskładania RNA do wnioskowania o kinetyce zmian ekspresji genów w trakcie rozwoju komórki, stosunek sygnałów TnH do Tn5 uzyskany z scGET-seq może być wykorzystany do obliczenia prędkości chromatyny, który mierzy dynamikę dostępności chromatyny w trakcie komórkowych ścieżek rozwojowych.

Historia

Regulacja transkrypcji jest ściśle powiązana ze stanami chromatyny. Chromatyna , która jest otwarta lub podatna na transkrypcję, stanowi tylko 2-3% genomu , ale obejmuje 94,4% miejsc wiążących czynniki transkrypcyjne . I odwrotnie, bardziej ciasno upakowane DNA lub heterochromatyna odpowiada za organizację i stabilność genomu. Gęstość chromatyny zmienia się również w trakcie procesów różnicowania komórkowego, ale brakuje wysokowydajnych metod sekwencjonowania do bezpośredniego oznaczania heterochromatyny.

Wiele chorób związanych z genomem, takich jak rak , jest silnie powiązanych ze zmianami w ich epigenomie . W szczególności nowotwory charakteryzują się heterogenicznością pojedynczych komórek, co może prowadzić do powstawania przerzutów i oporności na leczenie. Mechanizmy leżące u podstaw tych procesów są nadal w dużej mierze nieznane, chociaż pojawienie się technologii jednokomórkowych , w tym epigenomiki jednokomórkowej , znacznie przyczyniło się do ich wyjaśnienia.

W 2015 roku ATAC-seq , który wykorzystuje transpozazę Tn5 do fragmentacji i znakowania dostępnej chromatyny lub euchromatyny do sekwencjonowania, stał się wykonalny w rozdzielczości pojedynczej komórki. scGET-seq opiera się na tej technologii, dostarczając również informacji na temat heterochromatyny , zapewniając pełniejsze spojrzenie na strukturę i dynamikę chromatyny w każdej komórce.

Metody

Szeroki przegląd sposobu wykonywania scGET-seq

przygotowanie próbki

Przygotowanie próbki do scGET-seq rozpoczyna się od uzyskania zawiesiny jąder z komórek metodą odpowiednią dla materiału wyjściowego.

Następnym krokiem jest wytworzenie transpozazy TnH . Tn5 jest transpozazą , która tnie i liguje adaptery do regionów genomowych niezwiązanych przez nukleosomy (otwarta chromatyna). HP-1a jest członkiem rodziny HP1 i jest w stanie rozpoznać i specyficznie wiązać się z H3K9me3 . Jej chromodomena wykorzystuje mechanizm indukowanego dopasowania do rozpoznawania tej modyfikacji chromatyny. Połączenie pierwszych 112 aminokwasów HP-1a zawierających chromodomenę z Tn5 za pomocą łącznika składającego się z trzech polityrozyny-glicyny-seryny (TGS) prowadzi do utworzenia TnH transpozaza , która jest zdolna do celowania w heterochromatynę oznaczoną przez H3K9me3 .

Przygotowanie biblioteki przeprowadza się stosując zmodyfikowany protokół dla pojedynczej komórki ATAC-seq , w którym zawiesinę jąder kolejno inkubuje się najpierw z transpozazą Tn5 , a następnie z TnH.

Analiza danych

Cele analizy danych to:

  1. Aby zidentyfikować i scharakteryzować różne populacje komórek za pomocą grupowania
  2. Profilowanie dostępności chromatyny w całym genomie
  3. Przewidywanie wariantów liczby kopii i wariantów pojedynczych nukleotydów

Wstępne przetwarzanie

  1. Po sekwencjonowaniu odczyty muszą zostać zdemultipleksowane i zmapowane do odpowiedniego genomu referencyjnego . Zduplikowane odczyty są identyfikowane i usuwane.
  2. Zidentyfikowano „szczyty” lub regiony w DNA wzbogacone o liczbę zmapowanych odczytów.
  3. Przeprowadzana jest kontrola jakości, a komórki z małą liczbą odczytów lub z niewielką liczbą wykrytych cech są odfiltrowywane.
  4. Generowane są cztery macierze zliczania (macierze, w których każda kolumna jest komórką, a każdy wiersz jest cechą): Tn5-dhs, Tn5-dopełnienie, TnH-dhs i TnH-dopełnienie, reprezentujące sygnał z dostępnej i zagęszczonej chromatyny.

Analiza

Redukcja wymiarów, wizualizacja i grupowanie

Każda z macierzy jest filtrowana ze wspólnych regionów, a następnie normalizowana i transformowana log2. Redukcja wymiarów liniowych odbywa się za pomocą analizy głównych składowych (PCA). Grupy komórek identyfikuje się za pomocą k-NN i algorytmu Leiden. Na koniec cztery macierze są łączone przy użyciu faktoryzacji macierzy i redukcji UMAP.

Adnotacja identyfikująca komórkę

Istnieją dwa podejścia do adnotacji tożsamości komórki: adnotacja oparta na adnotacji cech pików ATAC i adnotacja oparta na integracji z danymi referencyjnymi scRNA-seq.

Aplikacje

Różnice między scGET-seq i scATAC-seq

Aktualny

Wykorzystując stosunek sygnałów Tn5 do TnH, można obliczyć wartości ilościowe opisujące, jak szybko iw jakim kierunku zachodzi przebudowa chromatyny (prędkość chromatyny). Izolując regiony, które są najbardziej dynamiczne i identyfikując, które czynniki transkrypcyjne się tam wiążą, prędkość chromatyny można wykorzystać do wywnioskowania dynamicznych procesów epigenetycznych zachodzących w danej komórce i udziału różnych czynników transkrypcyjnych w tych procesach.

Przyszły

Przebudowa chromatyny poprzedza zmiany w ekspresji genów i poprawia zrozumienie trajektorii i mechanizmów zmian komórkowych. W związku z tym platformy i narzędzia do integracji danych multimodalnych są obszarami aktywnych badań. Zaproponowano włączenie elementów czasowych i kierunkowych poprzez integrację prędkości chromatyny z prędkością RNA, aby ujawnić jeszcze więcej informacji o szlakach różnicowania.

Ograniczenia

scGET-seq ma takie same ograniczenia jak scATAC-seq. Oba procesy wymagają próbek jąder z żywych komórek i wysokiej żywotności komórek. Niska żywotność komórek prowadzi do wysokiego zanieczyszczenia DNA w tle, które nie odzwierciedla dokładnie autentycznych sygnałów biologicznych. Ponadto rzadkość i hałaśliwy charakter danych scATAC-seq i scGET-seq sprawia, że ​​analiza jest trudna i nie ma jeszcze zgody co do najlepszego zarządzania tymi danymi

Innym ograniczeniem jest to, że scGET-seq nadal wymaga walidacji wyników SNV przez masowe sekwencjonowanie genomu. Mimo że istnieje wysoka korelacja mutacji między masowym sekwencjonowaniem egzomu a wynikami scGET-seq, scGET-seq nie wychwytuje wszystkich SNV egzomu.