Ważona analiza sieci korelacji
Ważona analiza sieci korelacji , znana również jako ważona analiza sieci koekspresji genów (WGCNA), jest szeroko stosowaną metodą eksploracji danych , szczególnie do badania sieci biologicznych w oparciu o korelacje parami między zmiennymi. Chociaż można go zastosować do większości wielowymiarowych zestawów danych, był najczęściej stosowany w genomice Aplikacje. Pozwala definiować moduły (klastry), wewnątrzmodułowe koncentratory i węzły sieci w odniesieniu do członkostwa w modułach, badać relacje między modułami współekspresji i porównywać topologię sieci różnych sieci (analiza różnicowa sieci). WGCNA może być stosowana jako technika redukcji danych (związana z ukośną analizą czynnikową ), jako metoda grupowania (ang. fuzzy clustering), jako cecha metoda selekcji (np. jako metoda przeszukiwania genów), jako ramy integracji danych komplementarnych (genomowych) (oparte na ważonych korelacjach między zmiennymi ilościowymi) oraz jako technika eksploracji danych . Chociaż WGCNA zawiera tradycyjne techniki eksploracji danych, jej intuicyjny język sieciowy i struktura analizy wykraczają poza wszelkie standardowe techniki analizy. Ponieważ wykorzystuje metodologię sieciową i dobrze nadaje się do integrowania komplementarnych zestawów danych genomowych, może być interpretowana jako biologia systemów lub systemowa metoda analizy danych genetycznych. Wybierając koncentratory wewnątrzmodułowe w modułach konsensusowych, WGCNA daje również początek metaanalizy opartym na sieci .
Historia
Metoda WGCNA została opracowana przez Steve'a Horvatha , profesora genetyki człowieka w David Geffen School of Medicine na UCLA i biostatystyki w UCLA Fielding School of Public Health i jego kolegów z UCLA oraz (byłych) członków laboratorium (w szczególności Petera Langfelder, Bin Zhang, Jun Dong). Wiele prac powstało w wyniku współpracy z naukowcami stosowanymi. W szczególności ważone sieci korelacji zostały opracowane we wspólnych dyskusjach z badaczami raka Paulem Mischelem , Stanleyem F. Nelsonem i neuronaukowcami Daniel H. Geschwind , Michael C. Oldham (zgodnie z częścią podziękowania w). Istnieje obszerna literatura na temat sieci zależności, sieci bez skali i sieci koekspresji. [ potrzebne źródło ]
Porównanie ważonych i nieważonych sieci korelacji
Ważona sieć korelacji może być interpretowana jako szczególny przypadek sieci ważonej , sieci zależności lub sieci korelacji. Ważona analiza sieci korelacji może być atrakcyjna z następujących powodów:
- Konstrukcja sieci (oparta na miękkim progowaniu współczynnika korelacji ) zachowuje ciągły charakter podstawowych informacji o korelacji. Na przykład ważone sieci korelacji, które są zbudowane na podstawie korelacji między zmiennymi numerycznymi, nie wymagają wyboru twardego progu. Dychotomizacja informacji i (twarde) progi mogą prowadzić do utraty informacji.
- Konstrukcja sieci daje bardzo solidne wyniki w odniesieniu do różnych wyborów miękkiego progu. W przeciwieństwie do tego, wyniki oparte na sieciach nieważonych, skonstruowanych przez progowanie miary asocjacji parami, często silnie zależą od progu.
- Ważone sieci korelacji ułatwiają interpretację geometryczną opartą na interpretacji kątowej korelacji, rozdział 6 w.
- Uzyskane statystyki sieciowe można wykorzystać do ulepszenia standardowych metod eksploracji danych, takich jak analiza skupień, ponieważ miary (nie)podobieństwa można często przekształcić w sieci ważone; patrz rozdział 6 w.
- WGCNA zapewnia zaawansowane statystyki zachowania modułów, które można wykorzystać do ilościowego określenia podobieństwa do innego stanu. Również statystyka zachowania modułów pozwala badać różnice między modułową strukturą sieci.
- Sieci ważone i sieci korelacji często można aproksymować za pomocą sieci „rozkładalnych na czynniki”. Takie przybliżenia są często trudne do osiągnięcia w rzadkich, nieważonych sieciach. Dlatego sieci ważone (korelacyjne) pozwalają na oszczędną parametryzację (pod względem modułów i członkostwa w modułach) (rozdziały 2, 6 w ) i.
metoda
miarę podobieństwa koekspresji genów , która jest używana do definiowania sieci. Oznaczamy miarę podobieństwa koekspresji genów pary genów i i j przez . Wiele badań koekspresji wykorzystuje wartość bezwzględną korelacji jako miarę podobieństwa koekspresji bez znaku,
profile ekspresji genów składają genów i i j w wielu Jednak użycie bezwzględnej wartości korelacji może zaciemnić biologicznie istotne informacje, ponieważ nie ma rozróżnienia między represją a aktywacją genu. Natomiast w sieciach ze znakiem podobieństwo między genami odzwierciedla znak korelacji ich profili ekspresji. Aby zdefiniować podpisaną miarę koekspresji między profilami ekspresji genów i można użyć prostej transformacji korelacji:
jot u n podobieństwo ze znakiem przyjmuje wartość od 0 do 1. Należy zauważyć, że podobieństwo bez znaku między dwoma genami o przeciwnej ekspresji ( ) równa się 1, podczas gdy jest równe 0 dla podobieństwa ze znakiem. Podobnie, podczas gdy miara koekspresji bez znaku dwóch genów z zerową korelacją pozostaje zerowa, podobieństwo ze znakiem wynosi 0,5.
Następnie macierz sąsiedztwa (sieć) ze sobą połączone jest definiowany przez progowanie macierzy podobieństwa koekspresji . „Twarde” progowanie (dychotomizacja) miary podobieństwa skutkuje nieważoną siecią koekspresji genów. W szczególności nieważone sąsiedztwo sieci jest zdefiniowane jako 1, jeśli w przeciwnym razie. Ponieważ twarde progowanie koduje połączenia genów w sposób binarny, może być wrażliwe na wybór progu i skutkować utratą informacji o koekspresji. Ciągły charakter informacji o koekspresji można zachować przez zastosowanie miękkiego wyznaczania progów, w wyniku czego powstaje sieć ważona. W szczególności WGCNA wykorzystuje następującą funkcję zasilania do oceny siły połączenia:
,
gdzie moc miękkim parametrem progowym Wartości domyślne są sieci Alternatywnie, wybrać przy użyciu kryterium topologii bezskalowej które sprowadza się do wybrania najmniejszej wartości takiej aby została osiągnięta przybliżona topologia bezskalowa
Ponieważ , ważone sąsiedztwo sieci jest liniowo związane z podobieństwo koekspresji w skali logarytmicznej. Zauważ, że duża moc przekształca wysokie podobieństwa w wysokie sąsiedztwa, jednocześnie przesuwając niskie podobieństwa w kierunku 0. Ponieważ ta procedura miękkiego progu zastosowana do macierzy korelacji parami prowadzi do ważonej macierzy sąsiedztwa, wynikająca z tego analiza jest określana jako ważona analiza sieci koekspresji genów.
Głównym krokiem w analizie skoncentrowanej na modułach jest grupowanie genów w moduły sieciowe przy użyciu miary bliskości sieci. Z grubsza rzecz biorąc, para genów jest blisko siebie, jeśli jest ze sobą ściśle powiązana. Zgodnie z konwencją, maksymalna bliskość między dwoma genami wynosi 1, a minimalna bliskość to 0. Zazwyczaj WGCNA używa miary nakładania się topologicznego (TOM) jako bliskości. które można również zdefiniować dla sieci ważonych. TOM łączy sąsiedztwo dwóch genów i siły połączeń, które te dwa geny dzielą z innymi genami „stron trzecich”. TOM jest bardzo solidną miarą wzajemnych powiązań sieciowych (bliskości). Ta bliskość jest wykorzystywana jako dane wejściowe dla hierarchicznego grupowania średniego powiązania. Moduły są definiowane jako gałęzie wynikowego drzewa klastrów przy użyciu metody dynamicznego wycinania gałęzi. Następnie geny wewnątrz danego modułu są sumowane z modułem eigengene , które można uznać za najlepsze podsumowanie danych wyrażeń standaryzowanego modułu. Moduł własny danego modułu jest zdefiniowany jako pierwszy główny składnik standaryzowanych profili ekspresji. Eigengenes definiują solidne biomarkery i mogą być wykorzystywane jako funkcje w złożonych uczenia maszynowego, takich jak sieci Bayesa . Aby znaleźć moduły, które odnoszą się do cechy klinicznej będącej przedmiotem zainteresowania, moduły własne są skorelowane z cechą kliniczną będącą przedmiotem zainteresowania, co daje podstawę do pomiaru istotności genów własnych. Eigengenes mogą być wykorzystywane jako cechy w bardziej złożonych modelach predykcyjnych, w tym w drzewach decyzyjnych i sieciach Bayesa. Można także konstruować sieci koekspresji pomiędzy modułowymi genami własnymi (sieci własne), czyli sieci, których węzłami są moduły. Aby zidentyfikować wewnątrzmodułowe geny piasty w danym module, można zastosować dwa rodzaje miar łączności. Pierwszy, określany jako jest definiowany na podstawie skorelowania każdego genu z odpowiednim genem własnym modułu. Drugi, określany jako kIN, jest definiowany jako suma sąsiedztw w odniesieniu do genów modułu. W praktyce te dwa środki są równoważne. Aby sprawdzić, czy moduł jest zachowany w innym zbiorze danych, można użyć różnych statystyk sieciowych, np. .
Aplikacje
WGCNA jest szeroko stosowana do analizowania danych dotyczących ekspresji genów (tj. danych transkrypcyjnych), np. do znajdowania wewnątrzmodułowych genów centralnych. Na przykład badanie WGCNA ujawnia, że nowe czynniki transkrypcyjne są związane z odpowiedzią na dawkę bisfenolu A (BPA) .
Jest często używany jako etap redukcji danych w zastosowaniach genetycznych systemów, w których moduły są reprezentowane przez „własne geny modułów”, np. Własne geny modułów można wykorzystać do skorelowania modułów z cechami klinicznymi. Sieci własne to sieci koekspresyjne pomiędzy modułowymi genami własnymi (tj. sieciami, których węzłami są moduły). WGCNA jest szeroko stosowany w zastosowaniach neurobiologicznych, np. i do analizy danych genomowych, w tym z mikromacierzy , danych dotyczących pojedynczej komórki RNA-Seq , danych dotyczących metylacji DNA , danych miRNA, liczby peptydów i mikroflory dane (sekwencjonowanie genu 16S rRNA). Inne zastosowania obejmują dane obrazowania mózgu, np. dane MRI .
Pakiet oprogramowania R
oprogramowania WGCNA R zapewnia funkcje do przeprowadzania wszystkich aspektów ważonej analizy sieci (konstrukcja modułów, selekcja genów piasty, statystyki zachowania modułów, różnicowa analiza sieci, statystyki sieci). Pakiet WGCNA jest dostępny w Comprehensive R Archive Network (CRAN), standardowym repozytorium pakietów dodatkowych języka R.