Profilowanie ekspresji genów

Mapy cieplne wartości ekspresji genów pokazują, w jaki sposób warunki eksperymentalne wpłynęły na produkcję (ekspresję) mRNA dla zestawu genów. Kolor zielony oznacza zmniejszoną ekspresję. Analiza skupień umieściła grupę genów o obniżonej regulacji w lewym górnym rogu.

W dziedzinie biologii molekularnej profilowanie ekspresji genów to pomiar aktywności ( ekspresji ) tysięcy genów jednocześnie, w celu stworzenia globalnego obrazu funkcji komórki. Profile te mogą na przykład rozróżniać komórki, które aktywnie się dzielą, lub pokazywać, w jaki sposób komórki reagują na określone traktowanie. Wiele eksperymentów tego rodzaju mierzy jednocześnie cały genom , to znaczy każdy gen obecny w określonej komórce.

Do generowania danych niezbędnych do analizy można zastosować kilka technologii transkryptomiki . Mikromacierze DNA mierzą względną aktywność wcześniej zidentyfikowanych genów docelowych. Techniki oparte na sekwencjach, takie jak RNA-Seq , dostarczają informacji o sekwencjach genów oprócz ich poziomu ekspresji.

Tło

Profilowanie ekspresji jest kolejnym logicznym krokiem po zsekwencjonowaniu genomu : sekwencja mówi nam, co komórka mogłaby zrobić, podczas gdy profil ekspresji mówi nam, co faktycznie robi w danym momencie. Geny zawierają instrukcje tworzenia informacyjnego RNA ( mRNA ), ale w każdej chwili każda komórka wytwarza mRNA tylko z części genów, które przenosi. Jeśli gen jest używany do produkcji mRNA, jest uważany za „włączony”, w przeciwnym razie „wyłączony”. Wiele czynników decyduje o tym, czy gen jest włączony, czy wyłączony, na przykład pora dnia, czy komórka aktywnie się dzieli, jej lokalne środowisko i sygnały chemiczne z innych komórek. Na przykład komórki skóry , komórki wątroby i komórki nerwowe włączają (wyrażają) nieco inne geny i to w dużej mierze czyni je odmiennymi. Dlatego profil ekspresji pozwala wydedukować typ, stan, środowisko komórki i tak dalej.

Eksperymenty z profilowaniem ekspresji często obejmują pomiar względnej ilości mRNA wyrażanego w dwóch lub więcej warunkach doświadczalnych. Dzieje się tak, ponieważ zmienione poziomy określonej sekwencji mRNA sugerują zmienione zapotrzebowanie na białko kodowane przez mRNA, być może wskazując na odpowiedź homeostatyczną lub stan patologiczny. Na przykład wyższe poziomy mRNA kodującego dehydrogenazę alkoholową sugerują, że badane komórki lub tkanki reagują na zwiększone poziomy etanolu w swoim środowisku. Podobnie, jeśli komórki raka piersi wykazują wyższy poziom mRNA związanego z określonym receptorem transbłonowym niż normalne komórki, może to oznaczać, że ten receptor odgrywa rolę w raku piersi. Lek, który wpływa na ten receptor, może zapobiegać lub leczyć raka piersi. Opracowując lek, można przeprowadzić eksperymenty profilowania ekspresji genów, aby pomóc ocenić toksyczność leku, być może szukając zmieniających się poziomów ekspresji cytochromu P450 , które mogą być biomarkerem metabolizmu leków. Profilowanie ekspresji genów może stać się ważnym testem diagnostycznym.

Porównanie do proteomiki

Ludzki genom zawiera około 20 000 genów, które współpracując, wytwarzają około 1 000 000 różnych białek. Wynika to z alternatywnego splicingu , a także dlatego, że komórki dokonują ważnych zmian w białkach poprzez modyfikację potranslacyjną po ich pierwszej konstrukcji, więc dany gen służy jako podstawa dla wielu możliwych wersji określonego białka. W każdym razie pojedynczy eksperyment ze spektrometrią mas może zidentyfikować około 2000 białek, czyli 0,2% całości. Chociaż wiedza na temat dokładnych białek wytwarzanych przez komórkę ( proteomika ) jest bardziej istotna niż wiedza o tym, ile informacyjnego RNA powstaje z każdego genu, profilowanie ekspresji genów zapewnia najbardziej globalny obraz, jaki jest możliwy w jednym eksperymencie. Jednak metodologia proteomiki ulega poprawie. U innych gatunków, takich jak drożdże, możliwe jest zidentyfikowanie ponad 4000 białek w nieco ponad godzinę.

Zastosowanie w generowaniu i testowaniu hipotez

Czasami naukowiec ma już pojęcie o tym, co się dzieje, hipotezę i przeprowadza eksperyment profilowania ekspresji z myślą o potencjalnym obaleniu tej hipotezy. Innymi słowy, naukowiec dokonuje określonej prognozy dotyczącej poziomów ekspresji, które mogą okazać się fałszywe.

Częściej profilowanie ekspresji ma miejsce, zanim będzie wystarczająco dużo wiedzy na temat interakcji genów z warunkami eksperymentalnymi, aby istniała możliwa do przetestowania hipoteza. Bez hipotezy nie ma nic do obalenia, ale profilowanie ekspresji może pomóc w zidentyfikowaniu potencjalnej hipotezy do przyszłych eksperymentów. Większość wczesnych eksperymentów profilowania ekspresji i wiele obecnych ma tę formę, która jest znana jako odkrywanie klas. Popularne podejście do odkrywania klas polega na grupowaniu podobnych genów lub próbek razem przy użyciu jednej z wielu istniejących metod grupowania, takich jak tradycyjne k-średnie lub klastrowanie hierarchiczne lub nowsza MCL . Oprócz wyboru algorytmu grupowania, użytkownik zwykle musi wybrać odpowiednią miarę bliskości (odległość lub podobieństwo) między obiektami danych. Powyższy rysunek przedstawia wynik dwuwymiarowego klastra, w którym podobne próbki (rzędy, powyżej) i podobne sondy genowe (kolumny) zostały zorganizowane tak, że leżały blisko siebie. Najprostszą formą odkrycia klas byłoby wypisanie wszystkich genów, które zmieniły się o więcej niż określoną wartość między dwoma warunkami eksperymentalnymi.

Przewidywanie klasy jest trudniejsze niż odkrycie klasy, ale pozwala odpowiedzieć na pytania o bezpośrednim znaczeniu klinicznym, takie jak, biorąc pod uwagę ten profil, jakie jest prawdopodobieństwo, że ten pacjent zareaguje na ten lek? Wymaga to wielu przykładów profili, które odpowiedziały i nie odpowiedziały, a także walidacji krzyżowej w celu ich rozróżnienia.

Ograniczenia

Ogólnie rzecz biorąc, badania profilowania ekspresji zgłaszają te geny, które wykazały statystycznie istotne różnice w zmienionych warunkach eksperymentalnych. Jest to zazwyczaj niewielka część genomu z kilku powodów. Po pierwsze, różne komórki i tkanki wykazują ekspresję podzbioru genów, co jest bezpośrednią konsekwencją różnicowania komórek , tak więc wiele genów jest wyłączonych. Po drugie, wiele genów koduje białka, które są wymagane do przeżycia w bardzo określonych ilościach, więc wiele genów się nie zmienia. Po trzecie, komórki wykorzystują wiele innych mechanizmów do regulacji białek oprócz zmiany ilości mRNA , więc te geny mogą pozostawać konsekwentnie eksprymowane, nawet gdy stężenie białek rośnie i spada. Po czwarte, ograniczenia finansowe ograniczają eksperymenty profilowania ekspresji do niewielkiej liczby obserwacji tego samego genu w identycznych warunkach, zmniejszając moc statystyczną eksperymentu, uniemożliwiając eksperymentowi zidentyfikowanie ważnych, ale subtelnych zmian. Wreszcie, omówienie biologicznego znaczenia każdego regulowanego genu wymaga ogromnego wysiłku, więc naukowcy często ograniczają dyskusję do podzbioru. Nowsze techniki analizy mikromacierzy automatyzują pewne aspekty przypisywania znaczenia biologicznego wynikom profilowania ekspresji, ale pozostaje to bardzo trudnym problemem.

Stosunkowo krótka długość list genów opublikowanych z eksperymentów profilowania ekspresji ogranicza zakres, w jakim eksperymenty przeprowadzone w różnych laboratoriach wydają się zgadzać. Umieszczenie wyników profilowania ekspresji w publicznie dostępnej bazie danych mikromacierzy umożliwia naukowcom ocenę wzorców ekspresji poza zakresem opublikowanych wyników, być może identyfikację podobieństwa z ich własną pracą.

Walidacja pomiarów o dużej przepustowości

Zarówno mikromacierze DNA , jak i ilościowy PCR wykorzystują preferencyjne wiązanie lub „ parowanie zasad ” komplementarnych sekwencji kwasu nukleinowego i oba są wykorzystywane w profilowaniu ekspresji genów, często w sposób seryjny. Podczas gdy wysokowydajne mikromacierze DNA nie mają dokładności ilościowej qPCR, pomiar ekspresji genów kilkudziesięciu genów za pomocą qPCR zajmuje mniej więcej tyle samo czasu, co pomiar całego genomu za pomocą mikromacierzy DNA. Dlatego często sensowne jest przeprowadzanie półilościowych eksperymentów z analizą mikromacierzy DNA w celu zidentyfikowania genów kandydujących, a następnie wykonanie qPCR na niektórych z najciekawszych genów kandydujących w celu zweryfikowania wyników mikromacierzy. Inne eksperymenty, takie jak Western blot niektórych produktów białkowych genów o różnej ekspresji, sprawiają, że wnioski oparte na profilu ekspresji są bardziej przekonujące, ponieważ poziomy mRNA niekoniecznie korelują z ilością eksprymowanego białka.

Analiza statystyczna

Analiza danych z mikromacierzy stała się obszarem intensywnych badań. Samo stwierdzenie, że grupa genów była regulowana co najmniej dwukrotnie, niegdyś powszechna praktyka, nie ma solidnych podstaw statystycznych. Przy pięciu lub mniej powtórzeniach w każdej grupie, co jest typowe dla mikromacierzy, pojedyncza odstająca może spowodować pozorną różnicę większą niż dwukrotność. Ponadto arbitralne ustawienie podwójnej poprzeczki nie jest biologicznie uzasadnione, ponieważ eliminuje z rozważań wiele genów o oczywistym znaczeniu biologicznym.

Zamiast identyfikować geny o różnej ekspresji za pomocą odcięcia krotności zmiany, można użyć różnych testów statystycznych lub testów zbiorczych , takich jak ANOVA , z których wszystkie uwzględniają zarówno krotność zmiany, jak i zmienność, aby stworzyć wartość p , oszacowanie, jak często bylibyśmy obserwować dane przez przypadek. Stosowanie wartości p do mikromacierzy jest skomplikowane ze względu na dużą liczbę wielokrotnych porównań (genów). Na przykład uważa się, że wartość p wynosząca 0,05 wskazuje na istotność, ponieważ szacuje się, że prawdopodobieństwo przypadkowej obserwacji danych wynosi 5%. Ale przy 10 000 genów na mikromacierzy, 500 genów zostałoby zidentyfikowanych jako znaczące przy p < 0,05, nawet jeśli nie byłoby różnicy między grupami eksperymentalnymi. Jednym z oczywistych rozwiązań jest uznanie za istotne tylko tych genów, które spełniają znacznie bardziej rygorystyczne kryterium wartości p, np. można wykonać poprawkę Bonferroniego na wartościach p lub użyć obliczenia wskaźnika fałszywych odkryć , aby dostosować wartości p proporcjonalnie do liczby równoległych testów. Niestety, te podejścia mogą zredukować liczbę znaczących genów do zera, nawet jeśli geny w rzeczywistości ulegają różnej ekspresji. Bieżące statystyki, takie jak produkty Rank, mają na celu znalezienie równowagi między fałszywym odkryciem genów z powodu przypadkowej zmienności a brakiem odkrycia genów o zróżnicowanej ekspresji. Powszechnie cytowane metody obejmują analizę istotności mikromacierzy (SAM), a szeroka gama metod jest dostępna w firmie Bioconductor oraz w różnych pakietach analitycznych firm bioinformatycznych .

Wybranie innego testu zwykle identyfikuje inną listę znaczących genów, ponieważ każdy test opiera się na określonym zestawie założeń i kładzie inny nacisk na pewne cechy danych. Wiele testów rozpoczyna się od założenia rozkładu normalnego w danych, ponieważ wydaje się to rozsądnym punktem wyjścia i często daje wyniki, które wydają się bardziej znaczące. Niektóre testy uwzględniają łączną dystrybucję wszystkich obserwacji genów w celu oszacowania ogólnej zmienności pomiarów, podczas gdy inne patrzą na każdy gen z osobna. Wiele nowoczesnych technik analizy mikromacierzy obejmuje bootstrapping (statystyka) , uczenie maszynowe lub metody Monte Carlo .

Wraz ze wzrostem liczby powtarzanych pomiarów w eksperymencie z mikromacierzami różne podejścia statystyczne dają coraz bardziej podobne wyniki, ale brak zgodności między różnymi metodami statystycznymi sprawia, że ​​wyniki tablicowe wydają się mniej wiarygodne. Projekt MAQC przedstawia zalecenia, które mają pomóc naukowcom w wyborze bardziej standardowych metod (np. jednoczesne stosowanie wartości p i zmiany krotności w celu wybrania genów o zróżnicowanej ekspresji), tak aby eksperymenty przeprowadzane w różnych laboratoriach były lepiej zgodne.

W odróżnieniu od analizy poszczególnych genów o różnej ekspresji, inny rodzaj analizy koncentruje się na zróżnicowanej ekspresji lub zaburzeniach predefiniowanych zestawów genów i nazywa się analizą zestawu genów. Analiza zestawu genów wykazała kilka głównych zalet w porównaniu z analizą różnicową ekspresji poszczególnych genów. Zestawy genów to grupy genów, które są funkcjonalnie powiązane zgodnie z aktualną wiedzą. Dlatego analiza zestawu genów jest uważana za podejście do analizy opartej na wiedzy. Powszechnie używane zestawy genów obejmują te pochodzące ze szlaków KEGG , terminy ontologii genów , grupy genów, które mają wspólne adnotacje funkcjonalne, takie jak wspólne regulatory transkrypcji itp. Reprezentatywne metody analizy zestawów genów obejmują analizę wzbogacania zestawu genów (GSEA), która szacuje znaczenie genów zestawy oparte na permutacji znaczników próbek oraz Wzbogacanie zestawu genów o ogólnym zastosowaniu (GAGE), które testuje znaczenie zestawów genów na podstawie permutacji znaczników genów lub rozkładu parametrycznego.

Adnotacja genu

Podczas gdy statystyki mogą identyfikować, które produkty genów zmieniają się w warunkach eksperymentalnych, tworzenie biologicznego sensu profilowania ekspresji opiera się na wiedzy, które białko wytwarza każdy produkt genu i jaką funkcję pełni to białko. Adnotacja genów dostarcza informacji funkcjonalnych i innych, na przykład lokalizacji każdego genu w określonym chromosomie. Niektóre adnotacje funkcjonalne są bardziej niezawodne niż inne; niektórych brakuje. Bazy danych adnotacji genów zmieniają się regularnie, a różne bazy danych odnoszą się do tego samego białka pod różnymi nazwami, odzwierciedlając zmieniające się rozumienie funkcji białek. Stosowanie znormalizowanej nomenklatury genów pomaga rozwiązać problem nazewnictwa, ale dokładne dopasowanie transkryptów do genów pozostaje ważną kwestią.

Kategoryzacja regulowanych genów

Po zidentyfikowaniu pewnego zestawu regulowanych genów, następnym krokiem w profilowaniu ekspresji jest poszukiwanie wzorców w ramach regulowanego zestawu. Czy białka zbudowane z tych genów pełnią podobne funkcje? Czy są chemicznie podobne? Czy znajdują się w podobnych częściach komórki? ontologii genów zapewnia standardowy sposób definiowania tych relacji. Ontologie genów zaczynają się od bardzo szerokich kategorii, np. „proces metaboliczny”, i dzielą je na mniejsze kategorie, np. „proces metaboliczny węglowodanów”, a na koniec na dość restrykcyjne kategorie, takie jak „fosforylacja inozytolu i pochodnych”.

Geny mają inne atrybuty poza funkcją biologiczną, właściwościami chemicznymi i lokalizacją w komórce. Można komponować zestawy genów w oparciu o bliskość innych genów, związek z chorobą oraz związki z lekami lub toksynami. Molecular Signatures Database i Comparative Toxicogenomics Database to przykłady zasobów do kategoryzacji genów na wiele sposobów.

Znalezienie wzorców wśród regulowanych genów

Diagram sieci genów pomysłowości, który dynamicznie łączy geny ze znanymi zależnościami. Zielony oznacza zmniejszoną ekspresję, czerwony oznacza zwiększoną ekspresję. Algorytm zawiera nieuregulowane geny, białe, aby poprawić łączność.

Regulowane geny są kategoryzowane pod względem tego, czym są i co robią, mogą pojawić się ważne relacje między genami. Na przykład możemy zobaczyć dowody na to, że pewien gen tworzy białko, aby wytworzyć enzym, który aktywuje białko, aby włączyć drugi gen z naszej listy. Ten drugi gen może być czynnikiem transkrypcyjnym , który reguluje kolejny gen z naszej listy. Obserwując te powiązania, możemy zacząć podejrzewać, że reprezentują one znacznie więcej niż przypadkowe skojarzenia w wynikach i że wszystkie one znajdują się na naszej liście z powodu leżącego u ich podłoża procesu biologicznego. Z drugiej strony może się zdarzyć, że wybierając przypadkowo geny, można znaleźć wiele, które wydają się mieć ze sobą coś wspólnego. W tym sensie potrzebujemy rygorystycznych procedur statystycznych, aby sprawdzić, czy pojawiające się motywy biologiczne są istotne, czy nie. I tu pojawia się analiza zestawu genów.

Związki przyczynowo-skutkowe

Dość proste statystyki dostarczają szacunków, czy powiązania między genami na listach są większe niż to, czego można by się spodziewać przez przypadek. Te statystyki są interesujące, nawet jeśli stanowią znaczne uproszczenie tego, co naprawdę się dzieje. Oto przykład. Załóżmy, że w eksperymencie bierze udział 10 000 genów, z których tylko 50 (0,5%) odgrywa znaną rolę w wytwarzaniu cholesterolu . Eksperyment identyfikuje 200 regulowanych genów. Spośród nich 40 (20%) znajduje się również na liście genów cholesterolu. Opierając się na ogólnej częstości występowania genów cholesterolu (0,5%), oczekuje się średnio 1 genu cholesterolu na każde 200 regulowanych genów, czyli 0,005 razy 200. To oczekiwanie jest wartością średnią, więc można się spodziewać więcej niż jednego genu czas. Powstaje pytanie, jak często widzieliśmy 40 zamiast 1 z powodu czystego przypadku.

Zgodnie z rozkładem hipergeometrycznym można by oczekiwać, że spróbujemy około 10^57 razy (10, po których następuje 56 zer), zanim wybierzemy 39 lub więcej genów cholesterolu z puli 10 000, losując 200 genów. Niezależnie od tego, czy zwraca się dużą uwagę na to, jak nieskończenie małe jest prawdopodobieństwo przypadkowego zaobserwowania tego, można dojść do wniosku, że regulowana lista genów jest wzbogacona o geny o znanym powiązaniu z cholesterolem.

Można dalej postawić hipotezę, że leczenie eksperymentalne reguluje poziom cholesterolu, ponieważ leczenie wydaje się selektywnie regulować geny związane z cholesterolem. Chociaż może to być prawda, istnieje wiele powodów, dla których wyciąganie z tego mocnego wniosku na podstawie samego wzbogacenia stanowi nieuzasadniony skok wiary. Wspomniana wcześniej kwestia wiąże się z obserwacją, że regulacja genów może nie mieć bezpośredniego wpływu na regulację białek: nawet jeśli białka kodowane przez te geny nie robią nic poza wytwarzaniem cholesterolu, wykazanie, że ich mRNA jest zmienione, nie mówi nam bezpośrednio, co dzieje się na poziomie białka. Jest całkiem możliwe, że ilość tych białek związanych z cholesterolem pozostaje stała w warunkach doświadczalnych. Po drugie, nawet jeśli poziom białek się zmienia, być może zawsze jest ich wystarczająco dużo, aby cholesterol był wytwarzany tak szybko, jak to możliwe, to znaczy inne białko, którego nie ma na naszej liście, jest etapem decydującym o szybkości w procesie wytwarzania . cholesterol. Wreszcie, białka zwykle odgrywają wiele ról, więc te geny mogą być regulowane nie ze względu na ich wspólny związek z wytwarzaniem cholesterolu, ale ze względu na wspólną rolę w całkowicie niezależnym procesie.

Mając na uwadze powyższe zastrzeżenia, chociaż profile genów same w sobie nie dowodzą związków przyczynowych między leczeniem a skutkami biologicznymi, oferują one unikalne biologiczne spostrzeżenia, które często byłyby bardzo trudne do osiągnięcia w inny sposób.

Używanie wzorców do znajdowania regulowanych genów

Jak opisano powyżej, można najpierw zidentyfikować znacząco regulowane geny, a następnie znaleźć wzorce, porównując listę znaczących genów z zestawami genów, o których wiadomo, że mają wspólne pewne powiązania. Można również rozwiązać problem w odwrotnej kolejności. Oto bardzo prosty przykład. Załóżmy, że istnieje 40 genów związanych ze znanym procesem, na przykład predyspozycją do cukrzycy. Patrząc na dwie grupy profili ekspresji, jedną dla myszy karmionych dietą wysokowęglowodanową i jedną dla myszy karmionych dietą niskowęglowodanową, można zauważyć, że wszystkie 40 genów cukrzycy ulega ekspresji na wyższym poziomie w grupie wysokowęglowodanowej niż w grupie niskowęglowodanowej. Niezależnie od tego, czy którykolwiek z tych genów znalazłby się na liście znacząco zmienionych genów, obserwowanie wszystkich 40 w górę i żadnego w dół wydaje się mało prawdopodobne, aby było wynikiem czystego przypadku: przewiduje się, że odwrócenie 40 reszek z rzędu nastąpi mniej więcej raz w bilionach prób przy użyciu uczciwej monety.

W przypadku typu komórki grupa genów, których połączony wzór ekspresji jest unikalnie charakterystyczny dla danego stanu, stanowi sygnaturę genu tego stanu. W idealnej sytuacji sygnatura genowa może być wykorzystana do wybrania grupy pacjentów w określonym stanie choroby z dokładnością ułatwiającą wybór leczenia. Analiza wzbogacania zestawu genów (GSEA) i podobne metody wykorzystują tego rodzaju logikę, ale wykorzystują bardziej wyrafinowane statystyki, ponieważ geny składowe w rzeczywistych procesach wykazują bardziej złożone zachowanie niż zwykłe poruszanie się w górę lub w dół jako grupa, a także stopień, w jakim geny poruszają się w górę iw dół ma znaczenie, a nie tylko kierunek. W każdym razie te statystyki mierzą, jak różne jest zachowanie pewnego małego zestawu genów w porównaniu z genami, które nie należą do tego małego zestawu.

GSEA wykorzystuje statystykę w stylu Kołmogorowa Smirnowa , aby sprawdzić, czy jakiekolwiek wcześniej zdefiniowane zestawy genów wykazywały nietypowe zachowanie w bieżącym profilu ekspresji. Prowadzi to do wyzwania polegającego na testowaniu wielu hipotez, ale istnieją rozsądne metody, aby temu zaradzić.

Wnioski

Profilowanie ekspresji dostarcza nowych informacji o tym, co geny robią w różnych warunkach. Ogólnie rzecz biorąc, technologia mikromacierzy zapewnia niezawodne profile ekspresji. Na podstawie tych informacji można generować nowe hipotezy dotyczące biologii lub testować istniejące. Jednak rozmiar i złożoność tych eksperymentów często skutkuje szeroką gamą możliwych interpretacji. W wielu przypadkach analiza wyników profilowania ekspresji wymaga znacznie więcej wysiłku niż przeprowadzenie początkowych eksperymentów.

Większość badaczy stosuje wiele metod statystycznych i eksploracyjną analizę danych przed opublikowaniem wyników profilowania ekspresji, koordynując swoje wysiłki z bioinformatykiem lub innym ekspertem w dziedzinie mikromacierzy DNA . Dobry projekt eksperymentu, odpowiednia replikacja biologiczna i dalsze eksperymenty odgrywają kluczową rolę w udanych eksperymentach profilowania ekspresji.

Zobacz też

Linki zewnętrzne