Baza danych nadrodzin
Treść | |
---|---|
Opis | Baza danych SUPERFAMILY zawiera adnotacje strukturalne i funkcjonalne dla wszystkich białek i genomów. |
Przechwycone typy danych |
Rodziny białek, adnotacja genomu, dopasowanie, ukryte modele Markowa (HMM) |
Organizmy | Wszystko |
Kontakt | |
Centrum Badań | Uniwersytet w Bristolu |
Laboratorium | |
Cytowanie podstawowe | PMID 19036790 |
Dostęp | |
Format danych | formacie FASTA |
Strona internetowa | |
Pobierz URL | |
Różnorodny | |
Licencja | Powszechna Licencja Publiczna GNU |
Wersja | 1,75 |
SUPERFAMILY to baza danych i platforma wyszukiwania adnotacji strukturalnych i funkcjonalnych dla wszystkich białek i genomów. Klasyfikuje sekwencje aminokwasowe do znanych domen strukturalnych , zwłaszcza do nadrodzin SCOP . Domeny to jednostki funkcjonalne, strukturalne i ewolucyjne, które tworzą białka. Domeny o wspólnym przodku są pogrupowane w nadrodziny. Domeny i nadrodziny domen są zdefiniowane i opisane w SCOP. Nadrodziny to grupy białek, które mają dowody strukturalne na poparcie wspólnego ewolucyjnego przodka, ale mogą nie być wykrywalne homologia sekwencji .
Adnotacje
Adnotacja SUPERFAMILY jest oparta na zbiorze ukrytych modeli Markowa (HMM), które reprezentują strukturalne domeny białkowe na poziomie nadrodziny SCOP . Nadrodzina grupuje domeny , które mają związek ewolucyjny . Adnotacja jest tworzona przez skanowanie sekwencji białek z całkowicie zsekwencjonowanych genomów w stosunku do ukrytych modeli Markowa.
Dla każdego białka możesz:
- Prześlij sekwencje do klasyfikacji SCOP
- Zobacz organizację domen, dopasowanie sekwencji i szczegóły sekwencji białek
Dla każdego genomu możesz:
- Zbadaj przypisania nadrodzin, drzewa filogenetyczne , listy organizacji domen i sieci
- Sprawdź nadreprezentowane i niedostatecznie reprezentowane nadrodziny w genomie
Dla każdej nadrodziny możesz:
- Sprawdź klasyfikację SCOP, adnotację funkcjonalną, adnotację Gene Ontology , abstrakt InterPro i przypisania genomu
- Zbadaj rozmieszczenie taksonomiczne nadrodziny na drzewie życia
Wszystkie adnotacje, modele i zrzut bazy danych są bezpłatnie dostępne do pobrania dla każdego.
Cechy
Wyszukiwanie sekwencji
Prześlij sekwencję białka lub DNA do klasyfikacji na poziomie nadrodziny i rodziny SCOP za pomocą HMM SUPERFAMILY. Sekwencje można przesyłać za pomocą surowych danych wejściowych lub przesyłając plik, ale wszystkie muszą być w formacie FASTA . Sekwencjami mogą być aminokwasy, sekwencja nukleotydowa o ustalonej ramce lub wszystkie ramki przedłożonej sekwencji nukleotydowej. Jednorazowo można uruchomić do 1000 sekwencji.
Szukanie słowa kluczowego
Przeszukaj bazę danych, używając nazwy nadrodziny, rodziny lub gatunku oraz sekwencji, identyfikatorów SCOP, PDB lub HMM. Pomyślne wyszukiwanie daje klasę, fałdy, nadrodziny, rodziny i pojedyncze białka pasujące do zapytania.
Przypisania domen
Baza danych zawiera przypisania domen, dopasowania i architektury dla pełnej sekwencji organizmów eukariotycznych i prokariotycznych, a także kolekcje sekwencji.
Narzędzia genomiki porównawczej
Przeglądaj niezwykłe (nadreprezentowane i niedostatecznie reprezentowane) nadrodziny i rodziny, listy i wykresy sąsiadujących par domen, unikalne pary domen, kombinacje domen, sieci współwystępowania architektury domen oraz dystrybucję domen w królestwach taksonomicznych dla każdego organizmu.
Statystyki genomu
Dla każdego genomu: liczba sekwencji, liczba sekwencji z przypisaniem, procent sekwencji z przypisaniem, procent całkowitego pokrycia sekwencji, liczba przypisanych domen, liczba przypisanych nadrodzin, liczba przypisanych rodzin, średnia wielkość nadrodziny, odsetek wytworzony przez duplikację, średnia długość sekwencji, dopasowana średnia długość, liczba par domen i liczba unikalnych architektur domen.
Ontologia genów
Oparta na domenach Ontologia Genetyczna (GO) automatycznie opatrzona adnotacjami.
Ze względu na rosnącą lukę między sekwencjonowanymi białkami a znanymi funkcjami białek, coraz ważniejsze staje się opracowanie bardziej zautomatyzowanej metody funkcjonalnego opisywania białek, zwłaszcza białek o znanych domenach. SUPERFAMILY wykorzystuje adnotacje GO na poziomie białek zaczerpnięte z projektu Genome Ontology Annotation (GOA), który oferuje wysokiej jakości adnotacje GO bezpośrednio powiązane z białkami w UniprotKB w szerokim spektrum gatunków. W ramach projektu SUPERFAMILY wygenerowano adnotacje GO dla domen zamkniętych ewolucyjnie (na poziomie rodziny SCOP) i domen odległych (na poziomie nadrodziny SCOP).
Ontologia fenotypowa
fenotypu /anatomii skoncentrowana na domenie, w tym ontologia chorób, fenotyp człowieka, fenotyp myszy, fenotyp robaka, fenotyp drożdży, fenotyp muchy, anatomia muchy, anatomia danio pręgowanego, anatomia Xenopus i roślina Arabidopsis.
Adnotacja nadrodziny
Abstrakty InterPro dla ponad 1000 nadrodzin i adnotacje Gene Ontology (GO) dla ponad 700 nadrodzin. Ta funkcja pozwala na bezpośrednią adnotację kluczowych cech, funkcji i struktur nadrodziny.
Adnotacja funkcjonalna
Adnotacja funkcjonalna nadrodzin SCOP 1.73.
Baza danych SUPERFAMILY wykorzystuje schemat 50 szczegółowych kategorii funkcji, które odwzorowują 7 ogólnych kategorii funkcji, podobnie jak schemat stosowany w bazie danych COG. Ogólna funkcja przypisana do nadrodziny została użyta do odzwierciedlenia głównej funkcji dla tej nadrodziny. Ogólne kategorie funkcji to:
- Informacja: przechowywanie, utrzymanie kodu genetycznego; replikacja i naprawa DNA; ogólna transkrypcja i translacja .
- Regulacja: Regulacja ekspresji genów i aktywności białek; przetwarzanie informacji w odpowiedzi na dane środowiskowe; transdukcja sygnału ; ogólna aktywność regulacyjna lub receptorowa.
- Metabolizm : procesy anaboliczne i kataboliczne ; utrzymanie komórek i homeostaza ; metabolizm wtórny.
- Procesy wewnątrzkomórkowe: ruchliwość i podziały komórkowe; śmierć komórki ; transport wewnątrzkomórkowy ; wydzielina .
- Procesy zewnątrzkomórkowe: procesy między- i zewnątrzkomórkowe, takie jak adhezja komórek; organizmu, takich jak krzepnięcie krwi lub układ odpornościowy.
- Ogólne: Ogólne i wiele funkcji; oddziaływania z białkami , lipidami , małymi cząsteczkami i jonami .
- Inne/nieznane: nieznana funkcja, białka wirusowe lub toksyny .
Każda nadrodzina domen w klasach SCOP od a do g została ręcznie opatrzona adnotacjami przy użyciu tego schematu, a wykorzystane informacje zostały dostarczone przez SCOP , InterPro , Pfam , Swiss Prot i różne źródła literaturowe.
Drzewa filogenetyczne
Twórz niestandardowe drzewa filogenetyczne , wybierając 3 lub więcej dostępnych genomów na stronie SUPERFAMILY. Drzewa są generowane przy użyciu heurystycznych metod oszczędzania i są oparte na danych architektury domeny białkowej dla wszystkich genomów w SUPERFAMILY. Kombinacje genomów lub określone klady mogą być wyświetlane jako pojedyncze drzewa.
Podobne architektury domen
Ta funkcja pozwala użytkownikowi znaleźć 10 architektur domen, które są najbardziej podobne do architektury domeny będącej przedmiotem zainteresowania.
Ukryte modele Markowa
Utwórz przypisania domen SCOP dla sekwencji, używając ukrytych modeli Markowa SUPERFAMILY .
Porównanie profili
Znajdź dopasowania domeny zdalnej, gdy wyszukiwanie HMM nie znajdzie znaczącego dopasowania. Porównanie profili (PRC) do wyrównywania i oceniania wykorzystuje dwa profile HMM.
Usługi internetowe
Rozproszony serwer adnotacji i połączenie z SUPERFAMILY.
Pliki do pobrania
Sekwencje, przypisania, modele, baza danych MySQL i skrypty — aktualizowane co tydzień.
Użyj w badaniach
Baza danych SUPERFAMILY ma wiele zastosowań badawczych i była wykorzystywana przez wiele grup badawczych do różnych badań. Może służyć jako baza danych dla białek, które użytkownik chce zbadać innymi metodami, lub przypisać funkcję i strukturę nowemu lub niescharakteryzowanemu białku. Jedno z badań wykazało, że SUPERFAMILY jest bardzo biegły w prawidłowym przypisywaniu odpowiedniej funkcji i struktury do dużej liczby domen o nieznanej funkcji, porównując je z ukrytymi w bazach danych modelami Markowa. W innym badaniu wykorzystano SUPERFAMILY do wygenerowania zestawu danych 1733 domen nadrodziny (FSF) z użyciem porównania proteomów i funkcji, aby zidentyfikować pochodzenie zróżnicowania komórkowego.