Analiza wzbogacania zestawu genów
Analiza wzbogacenia zestawu genów (GSEA) (zwana również analizą wzbogacenia funkcjonalnego lub analizą wzbogacenia szlaku ) to metoda identyfikacji klas genów lub białek , które są nadreprezentowane w dużym zestawie genów lub białek i mogą mieć związek z fenotypami choroby . Metoda wykorzystuje podejścia statystyczne do identyfikacji znacznie wzbogaconych lub zubożonych grup genów. Technologie transkryptomiczne i wyniki proteomiki często identyfikują tysiące genów, które są wykorzystywane do analizy.
Naukowcy przeprowadzający wysokowydajne eksperymenty , które dają zestawy genów (na przykład geny, które ulegają różnej ekspresji w różnych warunkach) często chcą odzyskać profil funkcjonalny tego zestawu genów, aby lepiej zrozumieć podstawowe procesy biologiczne. Można to zrobić, porównując zestaw genów wejściowych z każdym z przedziałów (terminów) w ontologii genów – dla każdego przedziału można przeprowadzić test statystyczny , aby sprawdzić, czy jest on wzbogacony o geny wejściowe.
Tło
Po zakończeniu projektu Human Genome Project pozostał problem jego interpretacji i analizy. Aby znaleźć geny związane z chorobami, mikromacierze DNA do pomiaru poziomu ekspresji genów w różnych komórkach. Przeprowadzono mikromacierze na tysiącach różnych genów i porównano wyniki dwóch różnych kategorii komórek, np. komórek normalnych i komórek nowotworowych. Jednak ta metoda porównywania nie jest wystarczająco czuła, aby wykryć subtelne różnice między ekspresją poszczególnych genów, ponieważ choroby zazwyczaj obejmują całe grupy genów. Wiele genów jest połączonych z jednym szlakiem biologicznym, więc to addytywna zmiana ekspresji w obrębie zestawów genów prowadzi do różnicy w ekspresji fenotypowej. Analiza wzbogacania zestawu genów została opracowana w celu skupienia się na zmianach ekspresji w grupach zdefiniowanych a priori zestawów genów. W ten sposób metoda ta rozwiązuje problem niewykrywalnych, niewielkich zmian w ekspresji pojedynczych genów.
Metody
Analiza wzbogacania zestawu genów wykorzystuje zestawy genów a priori , które zostały pogrupowane razem na podstawie ich zaangażowania w ten sam szlak biologiczny lub bliższej lokalizacji na chromosomie. Bazę danych tych predefiniowanych zestawów można znaleźć w bazie danych sygnatur molekularnych (MSigDB). W GSEA mikromacierze DNA, a teraz RNA-Seq , są nadal wykonywane i porównywane między dwiema kategoriami komórek, ale zamiast skupiać się na poszczególnych genach na długiej liście, nacisk kładzie się na zestaw genów. Badacze analizują, czy większość genów w zestawie mieści się w skrajnościach tej listy: góra i dół listy odpowiadają największym różnicom w ekspresji między dwoma typami komórek. Jeśli zestaw genów znajduje się na górze (nadmierna ekspresja) lub na dole (niedostateczna ekspresja), uważa się, że jest to związane z różnicami fenotypowymi.
W metodzie, która jest zwykle określana jako standardowa GSEA, proces analityczny składa się z trzech etapów. Ogólne kroki podsumowano poniżej:
- Oblicz wynik wzbogacenia (ES), który reprezentuje ilość, do której geny w zestawie są nadreprezentowane na górze lub na dole listy. Ten wynik jest Kołmogorowa-Smirnowa .
- Oszacuj istotność statystyczną ES. To obliczenie jest wykonywane za pomocą testu permutacji opartego na fenotypie w celu uzyskania rozkładu zerowego dla ES. Wartość P jest określana przez porównanie z rozkładem zerowym.
- Obliczanie istotności w ten sposób sprawdza zależność zestawu genów od znaczników diagnostycznych/fenotypowych
- Dostosuj do testowania wielu hipotez, gdy jednocześnie analizowana jest duża liczba zestawów genów. Wyniki wzbogacenia dla każdego zestawu są normalizowane i obliczany jest wskaźnik fałszywych odkryć.
Można to opisać jako:
Ograniczenia i proponowane alternatywy
MORZE
Kiedy w 2003 roku po raz pierwszy zaproponowano GSEA, pojawiły się pewne obawy dotyczące jej metodologii. Ta krytyka doprowadziła do zastosowania ważonego korelacją testu Kołmogorowa-Smirnowa , znormalizowanego ES i obliczenia wskaźnika fałszywych odkryć, z których wszystkie są czynnikami, które obecnie definiują standard GSEA. Jednak GSEA była teraz również krytykowana za fakt, że jej rozkład zerowy jest zbędny i zbyt trudny, aby warto go było obliczyć, a także za fakt, że jego statystyka podobna do Kołmogorowa-Smirnowa nie jest tak czuła jak oryginał. Jako alternatywę zaproponowano metodę znaną jako Simpler Enrichment Analysis (SEA). Ta metoda zakłada niezależność genów i wykorzystuje prostsze podejście do obliczania testu t. Uważa się jednak, że te założenia są w rzeczywistości zbyt upraszczające i nie można lekceważyć korelacji genów.
SGSE
Innym ograniczeniem analizy wzbogacania zestawu genów jest to, że wyniki są bardzo zależne od algorytmu grupującego geny i liczby testowanych klastrów. Wzbogacanie zestawu genów spektralnych (SGSE) to proponowany test bez nadzoru. Twórcy metody twierdzą, że jest to lepszy sposób znajdowania powiązań między zestawami genów MSigDB a danymi z mikromacierzy. Ogólne kroki obejmują:
1. Obliczanie związku między głównymi składnikami a zestawami genów.
2. Wykorzystanie ważonej metody Z do obliczenia związku między zestawami genów a strukturą widmową danych.
Narzędzia
GSEA korzysta ze skomplikowanych statystyk, więc do przeprowadzenia obliczeń potrzebny jest program komputerowy. GSEA stało się standardową praktyką i istnieje wiele stron internetowych i programów do pobrania, które dostarczają zestawy danych i przeprowadzają analizę.
MOET
Multi-Ontology Enrichment Tool (MOET): MOET to internetowe narzędzie do analizy ontologii, które zapewnia funkcjonalność dla wielu ontologii, w tym chorób, GO, ścieżek, fenotypów i jednostek chemicznych (ChEBI) dla wielu gatunków, w tym szczura, myszy, człowieka , bonobo, wiewiórka, pies, świnia, szynszyla, nagi kretoszczur i vervet (zielona małpa). Wyprowadza wykres do pobrania i listę statystycznie nadreprezentowanych terminów na liście genów użytkownika przy użyciu rozkładu hipergeometrycznego. MOET wyświetla również odpowiednią poprawkę Bonferroniego i iloraz szans na stronie wyników. Jest prosty w użyciu, a wyniki są dostarczane za pomocą kilku kliknięć w ciągu kilku sekund; nie są wymagane żadne instalacje oprogramowania ani umiejętności programowania. Ponadto MOET jest aktualizowany co tydzień, dostarczając użytkownikowi najświeższe dane do analiz.
NASQAR
NASQAR (Nucleic Acid SeQuence Analysis Resource) to internetowa platforma typu open source do wysokowydajnej analizy i wizualizacji danych sekwencjonowania. Użytkownicy mogą wykonywać GSEA za pomocą popularnego pakietu clusterProfiler opartego na języku R w prostej, przyjaznej dla użytkownika aplikacji internetowej. NASQAR obsługuje obecnie wzbogacanie GO Term i KEGG Pathway o wszystkie organizmy obsługiwane przez bazę danych Org.Db.
PlantRegMap
adnotacja ontologii genów (GO) dla 165 gatunków roślin i analiza wzbogacenia GO.
MSigDB
Baza danych sygnatur molekularnych zawiera obszerną kolekcję zestawów genów z adnotacjami, których można używać z większością programów GSEA.
Szeroki Instytut
Witryna internetowa Broad Institute współpracuje z MSigDB i zawiera oprogramowanie GSEA do pobrania, a także ogólny samouczek dla osób, które nie znają tej techniki analitycznej.
WebGestalt
WebGestalt to internetowy zestaw narzędzi do analizy zestawu genów. Obsługuje trzy dobrze ugruntowane i uzupełniające się metody analizy wzbogacania, w tym analizę nadreprezentacji (ORA), analizę wzbogacania zestawu genów (GSEA) i analizę opartą na topologii sieci (NTA). Analizę można przeprowadzić na 12 organizmach i 321 251 kategoriach funkcjonalnych przy użyciu 354 identyfikatorów genów z różnych baz danych i platform technologicznych.
Wzbogacać
Enrichr to narzędzie do analizy wzbogacania zestawu genów dla zestawów genów ssaków. Zawiera biblioteki tła dla regulacji transkrypcji, szlaków i interakcji białek, ontologie, w tym GO oraz ontologie fenotypów człowieka i myszy, sygnatury z komórek leczonych lekami oraz ekspresję genów w różnych komórkach i tkankach. Enrichr został opracowany przez laboratorium Ma'ayan na górze Synaj . Biblioteki tła pochodzą z ponad 70 zasobów i zawierają ponad 200 000 zestawów genów z adnotacjami. Dostęp do narzędzia można uzyskać za pośrednictwem interfejsu API i zapewnia różne sposoby wizualizacji wyników.
GeneSCF
GeneSCF to działające w czasie rzeczywistym narzędzie do wzbogacania funkcjonalnego z obsługą wielu organizmów i zaprojektowane w celu przezwyciężenia problemów związanych z korzystaniem z przestarzałych zasobów i baz danych. Zalety korzystania z GeneSCF: analiza w czasie rzeczywistym, użytkownicy nie muszą polegać na narzędziach do wzbogacania, aby uzyskać aktualizację, łatwa integracja GeneSCF z rurociągiem NGS dla biologów obliczeniowych, obsługuje wiele organizmów, analiza wzbogacania dla wielu list genów przy użyciu wielu źródłowych baz danych w jednym przebiegu, pobierz lub pobierz kompletne terminy/ścieżki/funkcje GO z powiązanymi genami jako prosty format tabeli w zwykłym pliku tekstowym.
DAWID
DAVID to baza danych do adnotacji, wizualizacji i zintegrowanego odkrywania, narzędzie bioinformatyczne , które gromadzi informacje z większości głównych źródeł bioinformatycznych w celu analizy dużych list genów w sposób wysokowydajny . DAVID wykracza poza standardowe GSEA o dodatkowe funkcje, takie jak przełączanie między identyfikatorami genów i białek w skali całego genomu, jednak adnotacje używane przez DAVID nie były aktualizowane od października 2016 r. do grudnia 2021 r., co może mieć znaczny wpływ na praktyczną interpretację wyników . Jednak ostatnia aktualizacja została przeprowadzona w 2021 roku
Metascape
Metascape to zorientowany na biologów portal do analizy listy genów. Metascape integruje analizę wzbogacania szlaków, analizę kompleksów białkowych i metaanalizę wielu list w jeden płynny przepływ pracy dostępny za pośrednictwem znacznie uproszczonego interfejsu użytkownika. Metascape utrzymuje dokładność analiz, aktualizując co miesiąc swoje 40 podstawowych baz wiedzy. Metascape prezentuje wyniki za pomocą łatwych do interpretacji grafik, arkuszy kalkulacyjnych i prezentacji jakości publikacji i jest ogólnodostępny.
amiGO 2
Gene Ontology (GO) opracowało również własne internetowe narzędzie do wzbogacania terminów GO, umożliwiające analizę wzbogacania specyficznego dla gatunku w porównaniu z kompletną bazą danych, gruboziarnistymi danymi GO lub niestandardowymi referencjami.
ŚWIETNIE
W 2010 roku Gill Bejerano z Uniwersytetu Stanforda wypuścił narzędzie do wzbogacania adnotacji w regionie genomowym (GREAT), oprogramowanie, które wykorzystuje domeny regulacyjne do lepszego powiązania terminów ontologii genów z genami. Jego głównym celem jest identyfikacja ścieżek i procesów, które są istotnie związane z aktywnością regulującą czynniki. Ta metoda odwzorowuje geny z regionami regulatorowymi za pomocą testu hipergeometrycznego nad genami, wnioskując o proksymalnych domenach regulatorowych genów. Robi to, wykorzystując całkowitą część genomu związaną z danym terminem ontologicznym jako oczekiwaną część regionów wejściowych powiązanych z tym terminem przez przypadek. Wzbogacenie jest obliczane przez wszystkie regiony regulacyjne i przeprowadzono kilka eksperymentów w celu sprawdzenia poprawności GREAT, z których jednym były analizy wzbogacenia wykonane na 8 zestawach danych ChIP-seq.
FunRich
Narzędzie Functional Enrichment Analysis (FunRich) jest używane głównie do wzbogacania funkcjonalnego i analizy sieciowej danych Omics .
FuncAssociate
FuncAssociate umożliwia analizę ontologii genów i niestandardowe wzbogacanie. Umożliwia wprowadzanie uporządkowanych zestawów, jak również ważonych plików przestrzeni genów dla tła.
InterMine
Instancje InterMine automatycznie zapewniają analizę wzbogacania przesłanych zestawów genów i innych jednostek biologicznych.
Pakiet ToppGene
ToppGene to kompleksowy portal do analizy wzbogacania listy genów i ustalania priorytetów genów kandydujących w oparciu o adnotacje funkcjonalne i sieć interakcji białek. Opracowany i utrzymywany przez Wydział Informatyki Biomedycznej Centrum Medycznego Szpitala Dziecięcego w Cincinnati .
QuSAGE
Quantitative Set Analysis for Gene Expression (QuSAGE) to metoda obliczeniowa do analizy wzbogacania zestawu genów. QuSAGE poprawia moc, uwzględniając korelacje między genami i ilościowo określając aktywność zestawu genów za pomocą pełnej funkcji gęstości prawdopodobieństwa (PDF). Z tego pliku PDF można łatwo wyodrębnić wartości P i przedziały ufności . Zachowanie pliku PDF pozwala również na analizę post-hoc (np. porównania parami aktywności zestawu genów) przy zachowaniu identyfikowalności statystycznej. Turnera i in. rozszerzył zastosowanie QuSAGE do badań podłużnych , dodając funkcjonalność dla ogólnych liniowych modeli mieszanych. QuSAGE został wykorzystany przez konsorcjum NIH/NIAID Human Immunology Project Consortium do zidentyfikowania podstawowych sygnatur transkrypcyjnych, które były związane z odpowiedziami na szczepienie przeciw grypie u ludzi . QuSAGE jest dostępny jako pakiet R/Bioconductor i jest utrzymywany przez Kleinstein Lab w Yale School of Medicine .
Blast2GO
Blast2GO to platforma bioinformatyczna do funkcjonalnej adnotacji i analizy zbiorów danych genomowych. To narzędzie pozwala między innymi na przeprowadzanie analizy wzbogacania zestawu genów ( GSEA ).
g:Profiler
g:Profiler to szeroko stosowany zestaw narzędzi do wyszukiwania kategorii biologicznych wzbogacony o listy genów, konwersje między identyfikatorami genów i mapowania do ich ortologów. Misją g:Profiler jest świadczenie rzetelnej usługi opartej na aktualnych danych wysokiej jakości w wygodny sposób dla wielu rodzajów dowodów, przestrzeni identyfikacyjnych i organizmów. g:Profiler polega na Ensembl jako głównym źródle danych i przestrzega ich kwartalnego cyklu wydawniczego, jednocześnie aktualizując inne źródła danych. g:Profiler zapewnia nowoczesny responsywny interaktywny interfejs sieciowy, standardowe API, pakiet R gprofiler2 i biblioteki. Wyniki dostarczane są poprzez interaktywny i konfigurowalny interfejs. Wyniki można pobrać jako gotowe do publikacji wizualizacje lub rozdzielane pliki tekstowe. g:Profiler obsługuje blisko 500 gatunków i szczepów, w tym kręgowce, rośliny, grzyby, owady i pasożyty. Dzięki obsłudze przesyłanych przez użytkowników niestandardowych plików GMT, g:Profiler jest w stanie analizować dane z dowolnego organizmu. Wszystkie poprzednie wersje są zachowywane w celu zapewnienia powtarzalności i przejrzystości. g:Profiler jest bezpłatnie dostępny dla wszystkich użytkowników pod adresem https://biit.cs.ut.ee/gprofiler .
Aplikacje
Badania asocjacyjne całego genomu
Polimorfizmy pojedynczego nukleotydu lub SNP to mutacje pojedynczej zasady, które mogą być związane z chorobami. Jedna zmiana zasady może potencjalnie wpłynąć na białko będące wynikiem ekspresji tego genu; jednak może również nie mieć żadnego wpływu. Badania asocjacyjne obejmujące cały genom to porównania genotypów zdrowych i chorych w celu znalezienia SNP, które są nadreprezentowane w genomach choroby i mogą być związane z tym schorzeniem. Przed GSEA dokładność badań asocjacji SNP całego genomu była poważnie ograniczona przez dużą liczbę fałszywie dodatnich wyników. Metoda GSEA-SNP opiera się na teorii, że SNP przyczyniające się do choroby są zazwyczaj zgrupowane w zestawie genów, które są zaangażowane w ten sam szlak biologiczny. To zastosowanie GSEA nie tylko pomaga w odkryciu SNP związanych z chorobą, ale pomaga naświetlić odpowiednie ścieżki i mechanizmy chorób.
Spontaniczny poród przedwczesny
Metody wzbogacania zestawu genów doprowadziły do odkrycia nowych podejrzanych genów i szlaków biologicznych związanych ze spontanicznymi porodami przedwczesnymi . Sekwencje egzomu kobiet, które doświadczyły SPTB, porównano z sekwencjami kobiet z projektu 1000 Genome Project, używając narzędzia, które oceniało możliwe warianty chorobotwórcze. Geny z wyższymi wynikami zostały następnie poddane różnym programom, aby pogrupować je w zestawy genów na podstawie ścieżek i grup ontologicznych. Badanie to wykazało, że warianty były znacząco skupione w zestawach związanych z kilkoma ścieżkami, wszystkie podejrzane w SPTB.
Profilowanie komórek rakowych
Analiza wzbogacania zestawu genów może być wykorzystana do zrozumienia zmian zachodzących w komórkach podczas rakotwórczości i przerzutów . W badaniu przeprowadzono mikromacierze na raka nerkowokomórkowego , pierwotnych guzach nerek i prawidłowej tkance nerki, a dane przeanalizowano za pomocą GSEA. Ta analiza wykazała znaczące zmiany ekspresji w genach zaangażowanych w szlaki, które nie były wcześniej związane z progresją raka nerki. Dzięki temu badaniu GSEA dostarczyła potencjalnych nowych celów dla terapii raka nerkowokomórkowego.
Schizofrenia
GSEA może pomóc w zrozumieniu mechanizmów molekularnych złożonych zaburzeń. Schizofrenia jest w dużej mierze chorobą dziedziczną, ale jest również bardzo złożona, a początek choroby obejmuje wiele genów wchodzących w interakcje w ramach wielu szlaków, jak również interakcję tych genów z czynnikami środowiskowymi. Na przykład na zmiany epigenetyczne, takie jak metylacja DNA , wpływa środowisko, ale są one również z natury zależne od samego DNA. Metylacja DNA jest najlepiej zbadaną zmianą epigenetyczną i została niedawno przeanalizowana przy użyciu GSEA w odniesieniu do pośrednich fenotypów związanych ze schizofrenią. Naukowcy uszeregowali geny pod kątem ich korelacji między wzorcami metylacji a każdym z fenotypów. Następnie wykorzystali GSEA do poszukiwania wzbogacenia genów, które według przewidywań będą celem mikroRNA w postępie choroby.
Depresja
GSEA może pomóc w dostarczeniu dowodów molekularnych na powiązanie szlaków biologicznych z chorobami. Wcześniejsze badania wykazały, że długotrwałe objawy depresji są skorelowane ze zmianami odpowiedzi immunologicznej i szlaków zapalnych. Poszukiwano dowodów genetycznych i molekularnych na poparcie tego. Naukowcy pobrali próbki krwi od osób cierpiących na depresję i wykorzystali dane dotyczące ekspresji w całym genomie wraz z GSEA, aby znaleźć różnice w ekspresji w zestawach genów związanych ze szlakami zapalnymi. To badanie wykazało, że osoby, które oceniły najcięższe objawy depresji, również miały znaczące różnice w ekspresji w tych zestawach genów, a wynik ten potwierdza hipotezę asocjacyjną.
Zobacz też
Dalsza lektura
- Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA i in. (październik 2005). „Analiza wzbogacania zestawu genów: oparte na wiedzy podejście do interpretacji profili ekspresji całego genomu” . Proceedings of the National Academy of Sciences of the United States of America . 102 (43): 15545–15550. doi : 10.1073/pnas.0506580102 . PMC 1239896 . PMID 16199517 .
- Reimand J, Isserlin R, Voisin V, Kucera M, Tannus-Lopes C, Rostamianfar A, et al. (luty 2019). „Analiza wzbogacania ścieżki i wizualizacja danych omicznych przy użyciu g: Profiler, GSEA, Cytoscape i EnrichmentMap” . Protokoły natury . 14 (2): 482–517. doi : 10.1038/s41596-018-0103-9 . PMC 6607905 . PMID 30664679 .
- Chicco D, Agapito G (sierpień 2022). „Dziewięć szybkich wskazówek dotyczących analizy wzbogacania ścieżki” . Biologia obliczeniowa PLOS . 18 (8): e1010348. doi : 10.1371/journal.pcbi.1010348 . PMC 9371296 . PMID 35951505 . S2CID 251494694 .