PANTERA
Treść | |
---|---|
Opis | Baza danych PANTHER klasyfikuje produkty genów w rodziny |
Przechwycone typy danych |
Rodziny genów |
Kontakt | |
Centrum Badań | Uniwersytet Południowej Kalifornii |
Autorski | Paweł D Tomasz |
Cytowanie podstawowe | PMID 12520017 |
Dostęp | |
Strona internetowa | [1] |
Różnorodny | |
Obiekty z zakładkami |
Tak |
W bioinformatyce system klasyfikacji PANTHER ( analiza białek poprzez relacje ewolucyjne ) jest obszerną , wyselekcjonowaną biologiczną bazą danych rodzin genów/białek i ich funkcjonalnie powiązanych podrodzin, którą można wykorzystać do klasyfikowania i identyfikowania funkcji produktów genów. PANTHER jest częścią Gene Ontology Reference Genome Project, którego celem jest klasyfikowanie białek i ich genów do wysokowydajnych analiz.
Projekt składa się zarówno z algorytmów ręcznej kuracji, jak i bioinformatyki. Białka są klasyfikowane według rodziny (i podrodziny), funkcji molekularnej, procesu biologicznego i szlaku. Jest to jedna z baz danych wprowadzanych do InterPro Europejskiego Instytutu Bioinformatyki. — Zastosowanie PANTHER — Najważniejszym zastosowaniem PANTHER jest dokładne wnioskowanie o funkcji niescharakteryzowanych genów dowolnego organizmu na podstawie ich ewolucyjnych powiązań z genami o znanych funkcjach. Poprzez połączenie funkcji genów, ontologia , ścieżek i narzędzi do analizy statystycznej, PANTHER umożliwia biologom analizowanie wielkoskalowych danych obejmujących cały genom, uzyskanych z obecnej zaawansowanej technologii, w tym: sekwencjonowania, proteomiki lub eksperymentów z ekspresją genów . Wkrótce, korzystając z danych i narzędzi PANTHER, użytkownicy będą mogli:
- Uzyskaj informacje o konkretnym genie będącym przedmiotem zainteresowania.
- Odkryj rodziny i podrodziny białek, szlaki, procesy biologiczne, funkcje molekularne i składniki komórkowe.
- Twórz listy genów związanych z określoną rodziną/podrodziną białek, funkcją molekularną, procesem biologicznym lub szlakiem.
- Analizuj listy genów, białek lub transkryptów.
Historia PANTERY
- 1998: Projekt został uruchomiony w Molecular Application Group.
- 1999: Przejęcie przez Celera Genomics.
- 2000: PANTHER 1 wydany w Celera Discovery Systems (CDS).
- 2001: Wydanie PANTHER 2, które jest używane w adnotacji do pierwszego opublikowanego ludzkiego genomu Celera.
- 2002: Premiera PANTHER 3. Adnotacje PANTHER są zintegrowane z FlyBase . Przeniesiony do ABI.
- 2003: Wydanie PANTHER 4 wraz z publicznym wydaniem systemu klasyfikacji PANTHER.
- 2005: Wydanie PANTHER 5 z PANTHER Pathway i narzędziem analitycznym. Nawiąż współpracę z InterPro.
- 2006: Premiera PANTHER 6. Przenieś się do SRI.
- 2010: Premiera PANTHER 7.
- 2011: Przenieś się do USC.
- 2012: Premiera PANTHER 8.
- 2014: Premiera PANTHER 9.
- 2015: Premiera PANTHER 10.
- 2016: Premiera PANTHER 11.
Drzewo filogenetyczne
W PANTHER istnieje drzewo filogenetyczne dla każdej z rodzin białek. Adnotacja drzewa odbywa się w oparciu o następujące kryteria:
- Każdy węzeł jest opisany przez atrybuty genów, w tym „przynależność do podrodziny”, „klasa białka”, „funkcja genu”. Te cechy są dziedziczne. Nazwy białek Swiss-Prot są zwykle używane do nazywania podrodzin. Ponieważ PANTHER jest częścią projektu genomu referencyjnego GO, terminy ontologii genów (GO) są używane do określania funkcji genów. Terminy ontologii PANTHER/X są używane dla klasy białek.
- Każdy węzeł wewnętrzny jest opatrzony adnotacjami o wydarzeniach ewolucyjnych, takich jak „ specjacja ”, „ duplikacja genów ” i „ poziomy transfer genów ”.
Do generowania drzew filogenetycznych PANTHER używa algorytmu GIGA. GIGA wykorzystuje gatunki drzew do rozwijania konstrukcji drzew. W każdej iteracji próbuje pogodzić drzewo w formie zdarzenia specjacji i duplikacji genów.
Proces generowania danych biblioteki PANTHER
Proces generowania danych dzieli się na trzy etapy:
- Grupowanie rodzin
- Budowa drzewa pytologentycznego
- Adnotacja węzłów drzewa
Grupowanie rodzin
Zestaw sekwencji
Drzewa PANTHER przedstawiają ewolucję rodziny genów z szerokiego wyboru genomów, które są w pełni zsekwencjonowane. PANTHER mają jedną sekwencję na gen, dzięki czemu drzewo może reprezentować zdarzenie zachodzące w trakcie ewolucji, tj. duplikację, specjację. Zestaw genomów PANTHER wybierany jest na podstawie następujących kryteriów:
- Zestaw powinien zawierać główny eksperymentalny organizm modelowy , co pomoże w zobrazowaniu informacji funkcjonalnych organizmu, które są mniej zbadane.
- Zestaw powinien zawierać szeroki zakres taksonomiczny innych genomów, najlepiej w pełni zsekwencjonowanych i opatrzonych adnotacjami, co pomoże w powiązaniu eksperymentalnego organizmu modelowego.
Klastry rodzinne
Poniżej znajdują się wymagania, aby być klastrami rodzinnymi w PANTHER:
- Rodzina musi zawierać co najmniej pięciu członków, wśród których co najmniej jeden gen musi pochodzić z genomu referencyjnego GO.
- Aby wesprzeć wnioskowanie filogenetyczne, rodzina musi zawierać dopasowanie sekwencji wysokiej jakości .
- Ocenę wielokrotnie dopasowanej sekwencji przeprowadza się przez ocenę długości dopasowanej sekwencji, co najmniej 30 miejsc dopasowanych u 75% lub więcej członków rodziny.
Budowa drzewa filogenetycznego
Dla każdej rodziny wielokrotne sekwencje są wyrównane przy użyciu domyślnego ustawienia MAFFT , każda kolumna, która jest wyrównana mniej niż 75% sekwencji jest usuwana. Dane te są następnie wykorzystywane jako dane wejściowe dla programu GIGA. Drzewo wyjściowe z GIGA jest oznaczone. Każdy węzeł wewnętrzny jest oznaczony jako zdarzenie dywergencji jako specjacja lub duplikacja genu.
Adnotacja węzłów drzewa
Każdy węzeł w drzewie PANTHER ma adnotację z atrybutem dziedziczenia. Atrybuty dziedziczne mogą być trzech rodzajów przynależności do podrodzin, funkcji genów i przynależności do klas białek. Te adnotacje węzłów dotyczą sekwencji podstawowej, która została użyta do skonstruowania drzewa. Przy stosowaniu tych adnotacji do sekwencji pierwotnej stosowana jest prosta zasada ewolucyjna, tj. adnotacja każdego węzła jest propagowana przez jego potomny węzeł.
Komponenty PANTHER
PANTHER/LIB (biblioteka PANTHER): Biblioteka składa się z kolekcji książek. Każda z tych książek reprezentuje rodzinę białek. Istnieje ukryty model Markowa (HMM), dopasowanie wielu sekwencji (MSA) i drzewo genealogiczne dla każdej rodziny białek w bibliotece.
PANTHER/X (indeks PANTEHR): Indeks zawiera skróconą ontologię, która pomaga w podsumowaniu, poruszaniu się po funkcjach molekularnych i biologicznych. Chociaż ontologia PANTHER/X ma hierarchiczną organizację, jest skierowanym grafem acyklicznym , więc kiedy jest to biologicznie uzasadnione, kategorie potomne pojawiają się pod więcej niż jednym rodzicem. PANTHER/X został zmapowany do GO i ułożony w inny sposób, aby ułatwić analizę białek na dużą skalę.
Ścieżki PANTHER
PANTHER zawiera 176 ścieżek wykorzystujących narzędzie CellDesigner. Ścieżki PANTHER można pobrać w następujących formatach plików.
- Język znaczników biologii systemów ( SBML )
- Notacja graficzna biologii systemów (SBGN - ML)
- BioPAX
Najnowsze wersje PANTHER oraz ich statystyki i aktualizacje
Wersja 6.0
Wersja 6 wykorzystuje sekwencje UniProt jako sekwencje treningowe. Istnieje 19132 sekwencji treningowych UniProt bezpośrednio powiązanych ze składnikami szlaku. Ta wersja ma ~ 1500 reakcji w 130 ścieżkach, a liczba ścieżek związanych z podrodzinami została zwiększona. PANTHER została członkiem Konsorcjum InterPro. Poprawiono dostępność danych PANTHER (HMM można pobrać przez FTP ). Wersja 6.1 PANTHER/LIB zawiera 221609 sekwencji UniProt z 53 organizmów, pogrupowanych w 5546 rodzin i 24561 podrodzin. (2006)
Wersja 7.0
W tej wersji drzewa filogenetyczne reprezentują zdarzenia specjacji i duplikacji genów. Możliwa jest identyfikacja ortologów genów. Istnieje większe wsparcie dla alternatywnych identyfikatorów baz danych dla genów, białek i sond mikromacierzy . PANTHER wersja 7 wykorzystuje standard SBGN do zobrazowania ścieżek biologicznych. Zawiera 48 zestawów genomów. Aby zdefiniować nowe rodziny i we współpracy z grupą InterPro Europejskiego Instytutu Bioinformatyki, do tej wersji dodano około 1000 rodzin genomów niezwierzęcych. Źródłami zestawów genów były bazy danych organizmów modelowych, Ensembl adnotacja genomu i gen Entrez . Od tej wersji używany jest stały identyfikator każdego węzła w drzewie. Ten stabilny identyfikator to dziewięciocyfrowy numer z prefiksem PTN (skrót od PANTHER Tree Node). (2009)
Wersja 8.0 (2012)
Zestaw proteomów referencyjnych utrzymywany przez zasoby UniProt jest używany w tej wersji PANTHER, więc źródłem zestawów genów jest UniProt. Obejmuje 82 zestawy genomów (w przybliżeniu dwa razy więcej w porównaniu z wersją 7) i 991985 genów kodujących białka, z których 642319 genów (64,75%) wykorzystano do tworzenia klastrów rodzinnych. Witryna PANTHER została przeprojektowana, aby ułatwić wspólny przepływ pracy użytkowników.
Wersja 9.0 (2014)
Ta wersja zawiera 7180 rodzin białek, podzielonych na 52 768 funkcjonalnie odrębnych podrodzin białek. Wersja 9.0 zawiera genomy wszystkich 85 organizmów.
Wersja 11.1 (2016)
Ta wersja zawiera 78442 podrodzin i 1 064 054 genów z adnotacjami.
strona PANTERA
Strona główna witryny PANTHER zawiera kilka zakładek folderów dla głównych przepływów pracy, w tym: analiza listy genów, przeglądanie, wyszukiwanie sekwencji, ocenianie cSNP i wyszukiwanie słów kluczowych. Poniżej przedstawiono szczegółowe informacje na temat każdego z tych przepływów pracy.
Analiza listy genów
Ta karta jest wybrana domyślnie, ponieważ jest to najczęściej używana opcja. Możesz wprowadzić ważne identyfikatory w polu lub przesłać plik, a następnie wybrać typ listy, organizm będący przedmiotem zainteresowania oraz typ analizy.
Praktyczny przykład: wypróbujmy ten przepływ pracy na przykładzie małej listy genów zawierającej trzy geny AKT1, AKT2, AKT3. Najpierw wpisujemy te nazwy genów w ramce i oddzielamy je przecinkiem (lub spacją). Jako typ listy wybieramy „Lista ID”, „Homo Sapiens” (człowiek) jako organizm, a jako rodzaj operacji „Klasyfikacja funkcjonalna widziana na liście genów”; następnie kliknij Prześlij. Dostarcza informacji o wszystkich trzech genach, którymi są:
- Identyfikatory genów z Ensembl i identyfikatory białek z Uniprot: jeśli chodzi o ten przykład, musisz zobaczyć „ENSG00000142208” i „P31749”.
- Zmapowane identyfikatory: są to po prostu nazwy genów, które zostały zmapowane do zapytania (AKT1, AKT2 i AKT3)
- Nazwy genów, symbole genów i ortologi: ortologi można kliknąć i klikając na nie, można zobaczyć listę innych organizmów i ich identyfikatory, a także typ ortologów („LDO” dla najmniej rozbieżnych ortologów, „O” dla inne, które są bardziej rozbieżnymi ortologami i „P” dla paralogów).
- Rodzina i podrodzina PANTHER: To da ci nazwę rodziny i podrodziny dla twoich genów. Istnieje kilka linków, np. link do drzewa genealogicznego, który można kliknąć. Wreszcie będziesz mieć geny z różnych gatunków przypisanych do tej podrodziny. W tym przykładzie masz podrodzinę PANTHER „PTHR24352:SF30” dla AKT1.
- Funkcja molekularna GO: To mówi ci, jakie są funkcje twojego genu zapytania; np. AKT1 ma aktywność kinazy białkowej i może selektywnie i niekowalencyjnie oddziaływać z jonami wapnia, kalmoduliną i fosfolipidami.
- Proces biologiczny GO: Patrząc na tę kolumnę, zrozumiesz, w jakie procesy biologiczne zaangażowany jest gen; np. AKT1 odgrywa rolę w wytwarzaniu gamet, apoptozie, cyklu komórkowym itp.
- Składnik komórkowy GO: informuje, gdzie w komórce można znaleźć białko zapytania. W naszym przykładzie informacje nie są dostępne, ale jeśli spróbujesz innych przykładów (takich jak gen p53), zobaczysz niektóre składniki komórkowe, takie jak „jądro”, „cytoplazma”, „chromosomy” itp.
- Klasa białka PANTHER: podaje nazwy i identyfikatory klasy białka PANTHER dla każdego z genów; np. AKT1 należy do klasy białek PANTHER „niereceptorowa kinaza białkowa serynowo/treoninowa” z klasą ID „PC00167”. Możesz także zobaczyć jego rodowód rodzica i dziecka.
- Ścieżki: zostanie wyświetlona lista klikalnych nazw ścieżek, w których znajduje się Twój gen zapytania; np. AKT1 bierze udział w kilku szlakach, takich jak „odpowiedź na hipoksję poprzez HIF”, „szlak sygnałowy apoptozy”, „szlak kinazy PI3” itp.
- Gatunek: To jest nazwa gatunku, który wybrałeś; w tym przypadku wybraliśmy „Homo sapiens”.
Przeglądać
Korzystając z tej zakładki folderów i wybierając interesującą Cię ontologię, możesz przeglądać różne klasyfikacje. Możliwe jest również wybranie więcej niż jednej ontologii; w takim przypadku wyniki będą spełniać kryteria ze wszystkich selekcji. Możesz zobaczyć związek między terminami ontologicznymi a rodzinami, podrodzinami i sekwencjami treningowymi PANTHER.
Wyszukiwanie sekwencji
Umieszczając sekwencję białka w polu wyszukiwania sekwencji, PANTHER przeszuka bibliotekę HMM rodziny i podrodziny i zwróci podrodzinę, która najlepiej pasuje do sekwencji. Jeśli klikniesz na nazwę podrodziny, wyświetli się kilka szczegółów, np. geny związane z tą podrodziną i możliwość przeglądania podrodziny w większym drzewie genealogicznym. Pobierając narzędzie punktacji PANTHER ze strony pobierania, będziesz mógł zdobyć punkty w wielu sekwencjach przeciwko PANTHER HMM.
punktacja cSNP
Korzystając z tej zakładki folderów, możesz przeprowadzić analizę ewolucji kodowania SNP . W pierwszym polu należy wpisać sekwencję białka, aw drugim podstawienia odnoszące się do tej sekwencji białka; podstawienia te należy wpisać w standardowym formacie podstawień aminokwasowych, np. L46P. PANTHER użyje dopasowania ewolucyjnie pokrewnych białek, obliczy ewolucyjną konserwację specyficzną dla pozycji podstawienia (subPSEC) i oszacuje prawdopodobieństwo, że ten niesynonimiczny kodujący SNP będzie wywierał funkcjonalny wpływ na białko. To narzędzie wykorzystuje dane z PANTHER w wersji 6.1 ze względów technicznych. Jedną z nowych funkcji PANTHER jest to, że jeśli chcesz przeanalizować wiele SNP, możesz przejść do strony pobierania i pobrać narzędzie PANTHER Coding Snp Analysis.
Szukanie słowa kluczowego
Wpisując wyszukiwane hasło w polu wyszukiwania słowa kluczowego, PANTHER poda liczbę rekordów pasujących do słowa kluczowego dla genów, rodzin, ścieżek i terminów ontologicznych. Możesz je filtrować, określając interesujące Cię gatunki lub zawężając wyszukiwanie według innych kryteriów. Aby wyświetlić szczegóły genu, należy kliknąć identyfikator genu.