Badanie asocjacyjne obejmujące cały epigenom
Badanie asocjacyjne całego epigenomu ( EWAS ) to badanie zestawu wymiernych cech epigenetycznych obejmujących cały genom , takich jak metylacja DNA , u różnych osób w celu uzyskania powiązań między zmiennością epigenetyczną a konkretnym możliwym do zidentyfikowania fenotypem /cechą. Kiedy zmieniają się wzorce, takie jak metylacja DNA w określonych loci , odróżniająca fenotypowo dotknięte przypadki od osobników kontrolnych, uważa się to za wskazanie, że miało miejsce zaburzenie epigenetyczne, które jest związane, przyczynowo lub w konsekwencji, z fenotypem.
Tło
Epigenomem rządzą zarówno czynniki genetyczne, jak i środowiskowe, co powoduje, że jest on bardzo dynamiczny i złożony . Informacje epigenetyczne istnieją w komórce w postaci DNA i znaków histonowych , a także niekodujących RNA . Wzory metylacji DNA (DNAm) zmieniają się w czasie i różnią się w zależności od etapu rozwoju i typu tkanki. Główny typ DNAm znajduje się w cytozynach w dinukleotydach CpG , o których wiadomo, że biorą udział w regulacji ekspresji genów . Zmiany wzoru DNAm były szeroko badane w złożonych chorobach, takich jak rak i cukrzyca. W normalnej komórce genom masowy jest silnie zmetylowany w CpG, podczas gdy wyspy CpG (CPI) w regionach promotora genów pozostają wysoce niemetylowane. Nieprawidłowy DNAm jest najczęstszym rodzajem nieprawidłowości molekularnych w komórkach nowotworowych, w których genom masowy ulega globalnej „hipometylacji”, a CPI w regionach promotorowych ulegają „hipermetylacji”, co zwykle prowadzi do wyciszenia genów supresorowych nowotworów. Niedawno badania nad cukrzycą ujawniły dalsze dowody na poparcie epigenetycznego składnika chorób, w tym różnice w znakach epigenetycznych związanych z chorobą między bliźniętami jednojajowymi , rosnącą częstość występowania cukrzycy typu 1 w populacji ogólnej oraz zdarzenia przeprogramowania rozwojowego, w których in utero lub środowiska z dzieciństwa mogą wpływać na przebieg choroby w wieku dorosłym.
Posttranslacyjne modyfikacje histonów obejmują między innymi metylację, acetylację i fosforylację rdzeniowych ogonów histonów. Te modyfikacje potranslacyjne są odczytywane przez białka, które mogą następnie modyfikować chromatyny w tym locus. Zmienność epigenetyczna powstaje na trzy różne sposoby; może być dziedziczona i dlatego może być obecna we wszystkich komórkach osoby dorosłej, w tym w linii zarodkowej (proces znany jako międzypokoleniowe dziedziczenie epigenetyczne ; kontrowersyjne zjawisko, którego nie zaobserwowano jeszcze u ludzi); może występować losowo i być obecny w podzbiorze komórek osoby dorosłej, której ilość zależy od tego, jak wcześnie w rozwoju występuje zmienność; lub może być wywołany w wyniku czynników behawioralnych lub środowiskowych. EWAS wcześniej powiązał zmiany w metylacji z kilkoma chorobami i złożonymi stanami, które nie mają znanej epidemiologii i dlatego są kluczowe dla identyfikacji czynników epigenetycznych, które przyczyniają się do lub są konsekwencją patogenezy tych chorób.
Metody
Rodzaje projektów studiów
Retrospektywa (kontrola przypadków)
Badania retrospektywne porównują niespokrewnione osoby, które dzielą się na dwie kategorie, kontrole bez choroby lub interesującego fenotypu oraz przypadki, które mają interesujący fenotyp. Zaletą takich badań jest to, że istnieje już wiele kohort próbek kliniczno-kontrolnych z dostępnymi danymi genotypowymi i ekspresyjnymi, które można zintegrować z danymi epigenomu. Wadą jest jednak to, że nie mogą ustalić, czy różnice epigenetyczne są wynikiem różnic genetycznych związanych z chorobą, procesów pochorobowych lub interwencji lekowych związanych z chorobą.
Studia rodzinne
Przydatne do badania międzypokoleniowych wzorców dziedziczenia znaków epigenetycznych. Głównym ograniczeniem EWAS jest rozszyfrowanie, czy fenotyp jest powiązany ze zmianami epigenetycznymi w wyniku danej zmiennej lub w wyniku wcześniejszych wariantów genomowych prowadzących do zmian epigenetycznych. Porównania między danymi genomowymi i epigenomicznymi rodziców i potomstwa pozwalają wykluczyć możliwość, że choroba lub fenotyp są spowodowane zmiennością genomową. Ograniczeniem tego projektu badania jest to, że istnieje bardzo niewiele wystarczająco dużych kohort.
Badania bliźniąt monozygotycznych
Bliźnięta monozygotyczne niosą identyczną informację genomową. Dlatego jeśli są one niezgodne dla określonej choroby lub fenotypu, jest to prawdopodobnie wynikiem różnic epigenetycznych. Jednakże, o ile bliźnięta nie są badane podłużnie, niemożliwe jest ustalenie, czy zmienność epigenetyczna jest przyczyną lub konsekwencją choroby. Innym ograniczeniem jest rekrutacja wystarczająco dużej kohorty niezgodnych bliźniąt jednojajowych z chorobą będącą przedmiotem zainteresowania.
Kohorty podłużne
Badania podłużne śledzą kohortę osób przez dłuższy czas, zwykle od urodzenia lub przed wystąpieniem choroby. Próbki są pobierane, a zapisy przechowywane przez wiele lat, dzięki czemu badania te są niezwykle przydatne do określenia przyczynowości poszczególnych fenotypów. Ponieważ te same osoby są śledzone w punktach czasowych przed i po wystąpieniu choroby, eliminuje to zakłócające skutki różnic między przypadkami i kontrolami. Badania podłużne są przydatne nie tylko w badaniach ryzyka (przy użyciu próbek DNA przed wystąpieniem choroby), ale także w badaniach interwencyjnych wykorzystujących leczenie przed i po leczeniu określonymi ekspozycjami w celu zbadania wpływu środowiska na epigenom. Poważną wadą jest długi harmonogram studiów, a także koszt. Badania podłużne z wykorzystaniem niezgodnych z chorobą bliźniąt monozygotycznych dają dodatkową korzyść w postaci wykluczenia wpływu genetycznego na zmienność epigenetyczną.
Interesująca tkanka
Specyficzność tkankowa znaków epigenomicznych stanowi kolejne wyzwanie przy projektowaniu EWAS. Wybór tkanki jest ograniczony zarówno dostępnością, jak i stabilnością wzorców epigenetycznych. Kluczowe znaczenie ma wybór tkanki, w której znamiona epigenetyczne są zmienne w populacji, ale stabilne w czasie. Jeśli nie jest to możliwe, konieczne byłoby użycie wielu seryjnie pobranych próbek od tych samych osób, aby zgłosić solidne powiązania z określonym fenotypem. EWAS dla chorób często mierzy się za pomocą metylacji DNA w próbkach krwi, ponieważ trudno jest uzyskać tkanki związane z chorobą. W niektórych przypadkach wzór metylacji niekoniecznie jest biologicznie istotny dla proponowanego fenotypu. Wybór krwi wymaga również rygorystycznej analizy i starannej interpretacji ze względu na zmienny skład komórek. Wybór tkanki zastępczej wymaga zatem, aby różnice międzyosobnicze były skorelowane między tkanką będącą przedmiotem zainteresowania a substytutem, ale także aby ekspozycja wywołała podobne zmiany w obu tkankach. Do tej pory podstawowym problemem jest to, że nie ma wyraźnych dowodów na to, że ogólnie znaki epigenetyczne reagują na ekspozycje środowiskowe w podobny sposób we wszystkich tkankach.
Metoda ilościowa: metylacja DNA
Platforma do kwantyfikacji DNA w całym epigenomie wykorzystuje wysokowydajną technologię Illumina Methylation Assay . W przeszłości macierz 27k Illumina obejmowała średnio dwa miejsca CpG w regionach promotorowych około 14 000 genów i stanowiła mniej niż 0,1% z 28 milionów miejsc CpG w ludzkim genomie. To nie jest reprezentatywne dla całego ludzkiego epigenomu. Żaden z wczesnych EWAS korzystających z tej macierzy nie wykorzystywał niezależnej walidacji do weryfikacji powiązanych sond. Interesującą obserwacją było odchylenie w różnicach między przypadkami i kontrolami w kierunku sond wyspowych innych niż CpG (które były znacznie niedoreprezentowane w tym projekcie macierzy), zdecydowanie argumentując za użyciem ostatnio zaprojektowanej macierzy 450k, która obejmuje wyspy inne niż CpG z większa gęstość sond. Obecnie macierz Illumina 450k jest najczęściej używaną platformą w ciągu ostatnich dwóch lat do badań raportujących EWAS. Macierz nadal obejmuje tylko mniej niż 2% miejsc CpG w genomie, ale próbuje objąć wszystkie znane geny o dużej gęstości sond w promotorach (w tym wyspy CpG i otaczające je sekwencje), ale obejmuje również mniejszą gęstość w ciałach genów, nieulegających translacji regionach 3' i innych sekwencjach międzygenowych .
Analiza i interpretacja danych
Analiza witryna po witrynie
Metylację DNA zazwyczaj określa się ilościowo w skali 0–1, ponieważ macierz metylacji mierzy proporcję cząsteczek DNA, które są metylowane w określonym miejscu CpG. Wstępne przeprowadzone analizy to jednoczynnikowe testy asocjacji w celu zidentyfikowania miejsc, w których metylacja DNA zmienia się w zależności od ekspozycji i/lub fenotypu. Po tym następuje wiele poprawek testowych i wykorzystanie strategii analitycznej w celu zmniejszenia efektów partii i innych zakłócających efektów technicznych w ilościowej ocenie metylacji DNA. Uwzględnia się również potencjalne zakłócające skutki wynikające ze zmian w składzie tkanki. Dodatkowo przeprowadza się dostosowanie do czynników zakłócających, takich jak wiek, płeć i zachowania, które mogą wpływać na status metylacji jako współzmienne. Wyniki asocjacji są również korygowane pod kątem czynnika inflacji kontroli genomowej w celu uwzględnienia rozwarstwienia populacji.
Ogólnie, średnie poziomy metylacji CpG porównuje się w różnych kategoriach przy użyciu regresji liniowej, która pozwala na dostosowanie czynników zakłócających i efektów partii. Próg wartości P wynoszący P < 1e-7 jest zwykle używany do identyfikacji CpG związanych z badanym fenotypem/bodźcem. Uważa się, że te CpG osiągają znaczenie dla całego epigenomu. Wielkość efektu jest również obliczana na tym poziomie istotności, wskazując różnicę w metylacji przy porównywaniu dwóch grup jakościowych lub różne wartości ilościowe w zależności od twojego fenotypu. Miejsca CpG istotnie związane z fenotypem i/lub leczeniem/bodźcem środowiskowym są zazwyczaj reprezentowane na wykresie Manhattan.
Analiza zmian regionalnych
Pojedyncze miejsca CpG są podatne na naturalne efekty zmienności pojedynczego miejsca i zmiany techniczne, takie jak złe sondy mikromacierzy i wartości odstające. Aby uzyskać bardziej solidne skojarzenia i uwzględnić takie zróżnicowanie, użycie sąsiednich pomiarów może pomóc w zwiększeniu mocy. W poprzednich badaniach funkcjonalnie istotne odkrycia były powiązane z regionami genomowymi, w przeciwieństwie do pojedynczych CpG. Dlatego spojrzenie na poziom regionalny może pomóc z większą pewnością zidentyfikować powiązane regiony, kierując badaniami funkcjonalnymi na dalszych etapach.
Wstępne grupowanie lub grupowanie witryn CpG
Inną metodą analizy jest wykorzystanie grupowania bez nadzoru do tworzenia klas miejsc CpG na podstawie podobieństwa zmienności metylacji w próbkach. Średnie wartości metylacji w każdej klasie są wykorzystywane do konstruowania zestawów danych o zmniejszonej wymiarowości, ułatwiając wydajne testy związku między metylacją DNA a interesującymi fenotypami. Jest to wykorzystywane do zmniejszenia wymiarowości dużych zestawów danych i wykorzystania znacznej korelacji indukowanej biologicznie. Ta metoda jest przydatna do identyfikacji ogólnych wzorców metylacji związanych z badaną zmienną, ale może pomijać określone interesujące miejsca CpG. Oprócz różnic w średnich poziomach metylacji, różnice w zmienności metylacji DNA w próbkach mogą również mieć znaczenie biologiczne, motywując skany pod kątem zróżnicowanej zmienności między grupami.
Wzbogacanie funkcjonalne i zestawu genów
Położenie powiązanych miejsc CpG lub wysp/regionów można następnie przeanalizować in silico , aby zasugerować możliwe znaczenie funkcjonalne. Na przykład rozważenie, czy powiązane CpG znajdują się w regionie promotora lub określenie odległości od miejsca startu transkrypcji, które mogą być istotne, zwłaszcza gdy założymy, że metylacja DNA związana z fenotypem działa poprzez regulację transkrypcji genu. Wiele innych wniosków opartych na wiedzy biologicznej z przeszłości można wywnioskować, jeśli ten konkretny region CpG został zbadany i powiązany ze zmianami w transkrypcji. Może to służyć jako dodatkowy filtr do identyfikowania regionów, które należy przeszukać w celu walidacji funkcjonalnej. Kilka narzędzi bioinformatycznych, które zostały opracowane do analizy wzbogacenia funkcjonalnego, można zastosować do regionów o zróżnicowanej metylacji, najpierw mapując te regiony na geny. Odbywa się to poprzez mapowanie odległości między CpG a promotorem genu, który jest potencjalnie regulowany przez ten region. Analiza wzbogacania oparta na regionie genomowym została zatem zasugerowana jako podejście uzupełniające i zapewnia znaczny potencjał interpretacyjny. Regiony metylowane w różny sposób można następnie porównać z katalogiem regionów genomowych obejmujących na przykład miejsca wzbogacone o specyficzne modyfikacje chromatyny lub miejsca wiązania czynników transkrypcyjnych.
Iloraz szans metylacji
Iloraz szans metylacji można obliczyć, jeśli weźmiemy pod uwagę średnią szybkość metylacji w miejscu w przypadkach (lub kontrolach), aby przedstawić prawdopodobieństwo metylacji dla losowo wybranej nici DNA w próbkach tkanek przypadku (lub kontroli). Iloraz szans na metylację to prawdopodobieństwo, że losowa nić DNA w próbce tkanki z losowego przypadku zostanie zmetylowana, podzielone przez takie same szanse dla kontroli. Zapewnia to miarę wielkości efektu, która obejmuje względne wielkości, ale także nie pozwala na różnicę między przypadkami i kontrolami cech widma metylacji, takich jak wariancja. Iloraz szans metylacji jest również porównywalny w badaniach prospektywnych i retrospektywnych, a jego wartość mierzy jedynie związek i nie implikuje związku przyczynowego. Obliczono również oceny ryzyka metylacji, które mogą integrować informacje w miejscach CpG, obliczając ważoną ocenę ryzyka metylacji jako sumę wartości metylacji dla każdego z markerów związanych z fenotypem, ważoną wielkością efektu specyficznego dla markera
Replikacja
Wymagana jest replikacja przy użyciu niezależnej kohorty, aby wykluczyć fałszywe alarmy zidentyfikowane w początkowym badaniu. Można to zrobić w kohorcie ludzkiej lub w bardziej ukierunkowany sposób na modelach zwierzęcych. Ważne jest, aby przy wyborze kohorty replikacyjnej poszczególne osoby odzwierciedlały początkową kohortę i aby wzięto pod uwagę te same zmienne zakłócające. Replikacja może być jednak ograniczona ze względu na dostępność osobników i próbek.
Ograniczenia i obawy
Przyczynowość lub konsekwencja
Zmiany w epigenomie mogą powodować choroby, ale mogą również powstawać w wyniku choroby, a rozróżnienie między nimi jest głównym ograniczeniem w EWAS. Sposobem na obejście tego jest ustalenie, czy zmienność epigenetyczna jest obecna przed wystąpieniem jakichkolwiek objawów choroby, najlepiej poprzez badania podłużne obejmujące tę samą grupę ludzi przez wiele lat (to samo w sobie ma swoje własne niepowodzenia związane z kosztami i ramami czasowymi badania). Należy również wziąć pod uwagę możliwość, że zmienność epigenetyczna, która pojawia się przed wystąpieniem choroby, niekoniecznie stanowi przyczynę choroby.
Przykładowa heterogeniczność
Najczęściej używaną tkanką w EWAS jest krew. Jednak próbki krwi zawierają wiele różnych typów komórek, z których każdy ma unikalną sygnaturę epigenetyczną. W ten sposób niezwykle trudno jest określić, czy pobrana próbka jest jednorodna, a zatem trudno jest określić, czy różnice w znakach epigenetycznych wynikają z różnic w fenotypie/bodźcu, czy też z heterogeniczności próbki.
Dostępność tkanek
Obecnie wiele EWAS wykorzystuje krew jako tkankę zastępczą ze względu na jej dostępność i łatwość pobierania. Jednak zmiany epigenetyczne we krwi mogą nie być związane ze zmianami w konkretnej tkance związanej z chorobą. Wiele intrygujących zaburzeń, które mogą mieć epigenetyczne czynniki sprawcze, wpływa na tkanki, takie jak mózg, płuca, serce itp. Jednak podczas badania pacjentów ludzkich nie jest możliwe pobranie tych tkanek do pobierania próbek i dlatego nie są one badane.
Powiązana baza danych
EWASdb
EWASdb ( http://www.bioapp.org/ewasdb/ ) to pierwsza baza danych asocjacji obejmująca cały epigenom (pierwsza w Internecie w 2015 r., a po raz pierwszy opublikowana w Nucleic Acids Res. 13 października 2018 r.), która przechowuje wyniki 1319 badań EWAS powiązanych z 302 chorobami/fenotypami (p<1e-7). Trzy rodzaje wyników EWAS były przechowywane w EWASdb: EWAS dla pojedynczego epi-markera; EWAS dla ścieżki KEGG i EWAS dla kategorii GO ( Gene Ontology ).
Atlas EWAS
EWAS Atlas ( http://bigd.big.ac.cn/ewas ) to wyselekcjonowana baza wiedzy EWAS, która zapewnia obszerny zbiór wiedzy o EWAS. W przeciwieństwie do istniejących zasobów epigenetycznych zorientowanych na dane, EWAS Atlas oferuje ręczne zbieranie wiedzy EWAS z obszernych publikacji. W obecnym wdrożeniu EWAS Atlas koncentruje się na metylacji DNA – jednej z kluczowych cech epigenetycznych; integruje dużą liczbę 388 851 wysokiej jakości powiązań EWAS, obejmujących 126 tkanek/linii komórkowych i obejmujących 351 cech, 2230 kohort i 390 jednostek ontologicznych, które są całkowicie oparte na ręcznym wybieraniu z 649 badań opisanych w 495 publikacjach. Ponadto jest wyposażone w potężne narzędzie do analizy wzbogacania cech, które jest w stanie profilować relacje cecha-cecha i cecha-epigenom. Przyszłe zmiany obejmują regularne sprawdzanie ostatnich publikacji EWAS, włączanie większej liczby znaków epigenetycznych i możliwą integrację EWAS z GWAS . Podsumowując, Atlas EWAS jest poświęcony gromadzeniu, integracji i standaryzacji wiedzy o EWAS i ma ogromny potencjał, aby pomóc naukowcom analizować mechanizmy molekularne modyfikacji epigenetycznych związanych z cechami biologicznymi.
Centrum danych EWAS
Centrum danych EWAS ( https://bigd.big.ac.cn/ewas/datahub ) to źródło gromadzenia i normalizacji danych z macierzy metylacji DNA, a także archiwizowania powiązanych metadanych. Bieżąca wersja EWAS Data Hub integruje obszerny zbiór danych macierzy metylacji DNA z 75 344 próbek i wykorzystuje skuteczną metodę normalizacji w celu usunięcia efektów wsadowych między różnymi zestawami danych. W związku z tym, korzystając zarówno z ogromnych, wysokiej jakości danych dotyczących metylacji DNA, jak i ze znormalizowanych metadanych, EWAS Data Hub zapewnia referencyjne profile metylacji DNA w różnych kontekstach, obejmujące 81 rodzajów tkanek/komórek (które zawierają 25 części mózgu i 25 rodzajów komórek krwi), sześć przodków kategorii i 67 chorób (w tym 39 nowotworów). Podsumowując, EWAS Data Hub jest obiecującą pomocą w wyszukiwaniu i odkrywaniu biomarkerów opartych na metylacji na potrzeby charakterystyki fenotypu, leczenia klinicznego i opieki zdrowotnej.
Zobacz też
- Epigenetyka
- Epigenom
- Metylacja DNA
- Epidemiologia
- Interakcja gen-środowisko
- Epidemiologia molekularna
- Badanie asocjacyjne całego genomu (GWAS)
- Badanie asocjacyjne obejmujące cały transkryptom