Sieć koekspresji genów
Sieć koekspresji genów (GCN) to graf nieskierowany , w którym każdy węzeł odpowiada genowi , a para węzłów jest połączona krawędzią, jeśli występuje znacząca koekspresja związek między nimi. Dysponując profilami ekspresji wielu genów dla kilku próbek lub warunków eksperymentalnych, można skonstruować sieć koekspresji genów, szukając par genów, które wykazują podobny wzór ekspresji w różnych próbkach, ponieważ poziomy transkryptów dwóch koeksprymowanych genów wznoszą się i opadają razem w próbkach. Sieci koekspresji genów są przedmiotem zainteresowania biologicznego, ponieważ geny podlegające koekspresji są kontrolowane przez ten sam program regulujący transkrypcję, funkcjonalnie powiązane lub należące do tego samego szlaku lub kompleksu białkowego.
Kierunek i rodzaj relacji koekspresji nie są określone w sieciach koekspresji genów; mając na uwadze, że w sieci regulacyjnej genów (GRN) skierowana krawędź łączy dwa geny reprezentujące proces biochemiczny, taki jak reakcja, transformacja, interakcja, aktywacja lub hamowanie. W porównaniu z GRN, GCN nie próbuje wywnioskować związków przyczynowych między genami, aw GCN krawędzie reprezentują jedynie związek korelacji lub zależności między genami. Moduły lub wysoce połączone podgrafy w sieciach koekspresji genów odpowiadają grupom genów, które pełnią podobną funkcję lub biorą udział we wspólnym procesie biologicznym, który powoduje wiele interakcji między sobą.
Sieci koekspresji genów są zwykle konstruowane przy użyciu zestawów danych generowanych przez technologie profilowania ekspresji genów o dużej przepustowości , takie jak Microarray lub RNA-Seq . Ostatnio sieci koekspresyjne są wykorzystywane do analizy danych RNA-Seq pojedynczej komórki w celu lepszego scharakteryzowania relacji gen-gen w kohorcie komórek z określonego typu komórek.
Historia
Koncepcja sieci koekspresji genów została po raz pierwszy wprowadzona przez Butte'a i Kohane'a w 1999 roku jako sieci istotności . Zebrali dane pomiarowe z badań laboratoryjnych (np. poziom hemoglobiny) dla pewnej liczby pacjentów i obliczyli korelację Pearsona między wynikami dla każdej pary testów, a pary testów, które wykazały korelację wyższą niż określony poziom, połączono w sieć (np. poziom insuliny z cukrem we krwi). Butte i Kohane zastosowali to podejście później z wzajemnymi informacjami jako miarą koekspresji i wykorzystując dane dotyczące ekspresji genów do skonstruowania pierwszej sieci koekspresji genów.
Konstruowanie sieci koekspresji genów
Opracowano wiele metod konstruowania sieci koekspresji genów. Zasadniczo wszystkie stosują podejście dwuetapowe: obliczanie miary koekspresji i wybór progu istotności. W pierwszym etapie wybiera się miarę koekspresji i przy użyciu tej miary oblicza się wynik podobieństwa dla każdej pary genów. Następnie określa się próg i uważa się, że pary genów, które mają wynik podobieństwa wyższy niż wybrany próg, mają znaczący związek koekspresji i są połączone krawędzią w sieci.
Dane wejściowe do konstruowania sieci koekspresji genów są często przedstawiane jako macierz. Jeśli mamy wartości ekspresji genów m genów dla n próbek (warunków), danymi wejściowymi byłaby macierz m×n , zwana macierzą ekspresji. Na przykład w eksperymencie na mikromacierzy mierzy się wartości ekspresji tysięcy genów dla kilku próbek. W pierwszym kroku obliczana jest ocena podobieństwa (miara koekspresji) między każdą parą wierszy w macierzy ekspresji. Wynikowa macierz to m×m macierz zwana macierzą podobieństwa. Każdy element w tej macierzy pokazuje, jak podobnie zmieniają się poziomy ekspresji dwóch genów. W drugim kroku elementy macierzy podobieństwa, które znajdują się powyżej pewnego progu (tj. wskazują na znaczącą koekspresję) są zastępowane przez 1, a pozostałe elementy przez 0. Otrzymana macierz, zwana macierzą sąsiedztwa, reprezentuje wykres konstruowanej sieci koekspresji genów. W tej macierzy każdy element pokazuje, czy dwa geny są połączone w sieć (elementy 1), czy nie (elementy 0).
Miara koekspresji
Wartości ekspresji genu dla różnych próbek można przedstawić jako wektor, a zatem obliczenie miary koekspresji między parą genów jest takie samo, jak obliczenie wybranej miary dla dwóch wektorów liczb.
Współczynnik korelacji Pearsona , informacja wzajemna , współczynnik korelacji rang Spearmana i odległość euklidesowa to cztery najczęściej stosowane miary koekspresji do konstruowania sieci koekspresji genów. Odległość euklidesowa mierzy odległość geometryczną między dwoma wektorami, a zatem uwzględnia zarówno kierunek, jak i wielkość wektorów wartości ekspresji genów. Wzajemne informacje mierzą, o ile znajomość poziomów ekspresji jednego genu zmniejsza niepewność co do poziomów ekspresji innego. Współczynnik korelacji Pearsona mierzy tendencję dwóch wektorów do wspólnego wzrostu lub spadku, dając miarę ich ogólnej zgodności. Korelacja rang Spearmana to korelacja Pearsona obliczona dla rang wartości ekspresji genów w wektorze ekspresji genów. Kilka innych środków, np wykorzystano również korelację częściową , regresję i kombinację korelacji częściowej i wzajemnej informacji.
Każdy z tych środków ma swoje zalety i wady. Odległość euklidesowa nie jest odpowiednia, gdy bezwzględne poziomy funkcjonalnie powiązanych genów są bardzo różne. Co więcej, jeśli dwa geny mają stale niski poziom ekspresji, ale poza tym są losowo skorelowane, mogą nadal wydawać się bliskie w przestrzeni euklidesowej. Jedną z zalet wzajemnej informacji jest to, że może wykryć relacje nieliniowe; może to jednak okazać się wadą ze względu na wykrywanie wyrafinowanych nieliniowych zależności, które nie wyglądają na biologicznie znaczące. Ponadto do obliczania informacji wzajemnej należy oszacować rozkład danych, co wymaga dużej liczby próbek do dobrego oszacowania. Współczynnik korelacji rang Spearmana jest bardziej odporny na wartości odstające, ale z drugiej strony jest mniej wrażliwy na wartości wyrażeń iw zbiorach danych o małej liczbie próbek może wykryć wiele fałszywych trafień.
Współczynnik korelacji Pearsona jest najpopularniejszą miarą koekspresji stosowaną w konstruowaniu sieci koekspresji genów. Współczynnik korelacji Pearsona przyjmuje wartość między -1 a 1, gdzie wartości bezwzględne bliskie 1 wykazują silną korelację. Wartości dodatnie odpowiadają mechanizmowi aktywacji, w którym ekspresja jednego genu wzrasta wraz ze wzrostem ekspresji jego koeksprymowanego genu i odwrotnie. Gdy wartość ekspresji jednego genu zmniejsza się wraz ze wzrostem ekspresji jego koeksprymowanego genu, odpowiada to leżącemu u podstaw mechanizmowi supresji i miałoby korelację ujemną.
Miara korelacji Pearsona ma dwie wady: może wykrywać tylko zależności liniowe i jest wrażliwa na wartości odstające. Ponadto korelacja Pearsona zakłada, że dane dotyczące ekspresji genów mają rozkład normalny. Piosenka i in. zasugerowali środkową korelację dwuwag (bicor) jako dobrą alternatywę dla korelacji Pearsona. „Bicor jest miarą korelacji opartą na medianie i jest bardziej niezawodna niż korelacja Pearsona, ale często silniejsza niż korelacja Spearmana”. Ponadto wykazano, że „większość par genów spełnia zależności liniowe lub monotoniczne”, co wskazuje, że „sieci wzajemnej informacji można bezpiecznie zastąpić sieciami korelacji, jeśli chodzi o pomiar relacji koekspresji w danych stacjonarnych”.
Wybór progu
Do wyboru progu w konstruowaniu sieci koekspresji genów zastosowano kilka metod. Prostą metodą progowania jest wybranie punktu odcięcia koekspresji i wybranie relacji, których współekspresja przekracza ten punkt odcięcia. Innym podejściem jest użycie transformacji Z Fishera , która oblicza z-score dla każdej korelacji na podstawie liczby próbek. Ten z-score jest następnie konwertowany na wartość p dla każdej korelacji, a odcięcie jest ustawione na wartość p. Niektóre metody permutują dane i obliczają wynik z na podstawie rozkładu korelacji znalezionych między genami w permutowanym zbiorze danych. Zastosowano również inne podejścia, takie jak wybór progu na podstawie współczynnika grupowania lub teoria macierzy losowej.
Problem z metodami opartymi na wartości p polega na tym, że ostateczne odcięcie wartości p jest wybierane na podstawie procedur statystycznych (np. wartość p 0,01 lub 0,05 jest uważana za istotną), a nie na podstawie wiedzy biologicznej.
WGCNA to platforma do konstruowania i analizowania ważonych sieci koekspresji genów . Metoda WGCNA wybiera próg do konstruowania sieci w oparciu o bezskalową topologię sieci koekspresji genów. Ta metoda konstruuje sieć dla kilku progów i wybiera próg, który prowadzi do sieci bez skali topologia. Ponadto metoda WGCNA konstruuje sieć ważoną, co oznacza, że w sieci pojawiają się wszystkie możliwe krawędzie, ale każda krawędź ma wagę, która pokazuje, jak istotna jest relacja koekspresji odpowiadająca tej krawędzi. Warto zauważyć, że wybór progu ma na celu zmuszenie sieci do topologii bez skali. Jednak podstawowa przesłanka, że sieci biologiczne są pozbawione skali, jest kontrowersyjna.
lmQCM jest alternatywą dla WGCNA, która osiąga ten sam cel, jakim jest analiza sieci koekspresji genów. lmQCM oznacza lokalne maksymalne połączenie quasi-kliki, którego celem jest wykorzystanie lokalnie gęstych struktur w sieci, dzięki czemu można wydobywać mniejsze i gęsto współwyrażane moduły, umożliwiając nakładanie się modułów. algorytm lmQCM ma swój pakiet R i moduł Pythona (dołączony w Biolearns). Ogólnie mniejszy rozmiar wydobywanych modułów może również generować bardziej znaczące wyniki wzbogacania ontologii genów (GO).
Wyzwania
Sieci koekspresji próbują oszacować bezpośrednie, a czasem pośrednie korelacje między parami genów. Jednak pojedynczy gen może być kontrolowany przez wiele regulatorów. Po drugie, jak omówiono w poprzednich sekcjach, każda miara obliczeniowa koekspresji jest zaprojektowana specjalnie w celu uchwycenia unikalnej cechy, która niekoniecznie jest optymalna do zobrazowania wszystkich typów wzajemnych relacji transkrypcyjnych między genami, na przykład korelacja Pearsona dla liniowej relacje, Spearman dla rankingu genów i tak dalej. Po trzecie i ostatnie, obliczenie sieci koekspresji genu do genu dla całego genomu skutkuje bardzo dużymi macierzami, które zawierają znaczną ilość szumu, co stwarza znaczną trudność w badaniu ich zróżnicowania w kohortach. Wyzwania te należy odnieść, stosując zaawansowane metody koekspresji na danych dotyczących ekspresji genów.
Aplikacje
- Sekwencjonowanie pojedynczej komórki - sieci koekspresji genów wygenerowane przy użyciu masowych danych RNA-Seq zostały wykorzystane do zwiększenia stosunku sygnału do szumu w scenariuszach pojedynczych komórek, aby uzyskać lepsze przewidywania obecności określonych mutacji w pojedynczej komórce, przy użyciu ekspresji genów profile jako zmienne niezależne
- Inżynieria odwrotna sieci genów - istnieją setki metod wnioskowania o sieciach regulacyjnych genów, a kilkadziesiąt jest obecnie opartych na analizie koekspresji, opartej na prostej korelacji, wzajemnej informacji lub metodach bayesowskich.
- Biologia roślin — analizy koekspresji były szeroko stosowane do poszukiwania nowych genów zaangażowanych w określone szlaki roślinne. Jednym z przykładów jest synteza ściany komórkowej: charakterystyka brakujących ogniw w tym mechanizmie metabolicznym była możliwa dzięki odkryciu nowych genów syntazy celulozy (CESA), których profile ekspresji są skorelowane z wcześniej znanymi elementami szlaku.
Zobacz też
- Ważona analiza sieci korelacji
- Sieci regulacyjne genów
- Wnioskowanie o sieci biologicznej
- Sieć biologiczna