Przewidywanie funkcji białek
przewidywania funkcji białek to techniki stosowane przez badaczy bioinformatyki w celu przypisywania białek ról biologicznych lub biochemicznych . Białka te są zwykle słabo zbadane lub przewidywane na podstawie danych dotyczących sekwencji genomowej. Przewidywania te często opierają się na procedurach obliczeniowych wymagających dużej ilości danych. Informacje mogą pochodzić z homologii sekwencji kwasów nukleinowych , profili ekspresji genów , struktur domen białkowych , eksploracji tekstu publikacji, profile filogenetyczne, profile fenotypowe i interakcje białko-białko. Funkcja białka to szerokie pojęcie: role białek obejmują katalizę reakcji biochemicznych, transport i przekazywanie sygnału , a pojedyncze białko może odgrywać rolę w wielu procesach lub szlakach komórkowych.
Ogólnie rzecz biorąc, funkcję można traktować jako „wszystko, co dzieje się z białkiem lub przez białko”. Konsorcjum Gene Ontology zapewnia użyteczną klasyfikację funkcji w oparciu o słownik dobrze zdefiniowanych terminów podzielonych na trzy główne kategorie: funkcja molekularna, proces biologiczny i składnik komórkowy . Badacze mogą przeszukiwać tę bazę danych, podając nazwę białka lub numer dostępu , aby wyszukać powiązane terminy lub adnotacje z ontologii genów w oparciu o dowody obliczeniowe lub eksperymentalne.
Chociaż techniki takie jak analiza mikromacierzy , interferencja RNA i system dwuhybrydowy drożdży mogą być stosowane do eksperymentalnego wykazania funkcji białka, postęp w technologiach sekwencjonowania sprawił, że szybkość, z jaką białka można eksperymentalnie scharakteryzować, jest znacznie mniejsza niż szybkość jakie nowe sekwencje staną się dostępne. Zatem adnotacja nowych sekwencji odbywa się głównie w drodze przewidywania za pomocą metod obliczeniowych, ponieważ tego typu adnotacje często można wykonać szybko i dla wielu genów lub białek jednocześnie. Pierwsze takie metody wnioskowały o funkcji na podstawie homologii białka o znanych funkcjach ( przewidywanie funkcji na podstawie homologii ). Rozwój metod opartych na kontekście i strukturze poszerzył zakres informacji, które można przewidzieć, i obecnie można zastosować kombinację metod, aby uzyskać obraz kompletnych szlaków komórkowych w oparciu o dane dotyczące sekwencji. Znaczenie i powszechność obliczeniowego przewidywania funkcji genów podkreśla analiza „kodów dowodowych” wykorzystywanych w bazie danych GO: od 2010 r. 98% adnotacji figurowało pod kodem IEA (wywnioskowano z adnotacji elektronicznej), podczas gdy tylko 0,6% opierały się na dowodach eksperymentalnych.
Metody oparte na homologii
Białka o podobnej sekwencji są zwykle homologiczne i dlatego pełnią podobną funkcję. Dlatego białka w nowo zsekwencjonowanym genomie są rutynowo opisywane przy użyciu sekwencji podobnych białek w pokrewnych genomach.
Jednak blisko spokrewnione białka nie zawsze mają tę samą funkcję. Na przykład białka Gal1 i Gal3 drożdży są paralogami (73% identyczności i 92% podobieństwa), które wyewoluowały bardzo różne funkcje, przy czym Gal1 jest galaktokinazą , a Gal3 jest induktorem transkrypcji.
Nie ma twardego progu podobieństwa sekwencji dla „bezpiecznego” przewidywania funkcji; wiele białek o ledwo wykrywalnym podobieństwie sekwencji pełni tę samą funkcję, podczas gdy inne (takie jak Gal1 i Gal3) są bardzo podobne, ale wyewoluowały różne funkcje. Z reguły sekwencje, które są identyczne w ponad 30-40%, są zwykle uważane za posiadające tę samą lub bardzo podobną funkcję.
W przypadku enzymów przewidywanie specyficznych funkcji jest szczególnie trudne, ponieważ potrzebują one tylko kilku kluczowych reszt w swoim miejscu aktywnym , dlatego bardzo różne sekwencje mogą mieć bardzo podobne aktywności. Dla kontrastu, nawet przy identyczności sekwencji wynoszącej 70% lub więcej, 10% dowolnej pary enzymów ma różne substraty; a różnice w rzeczywistych reakcjach enzymatycznych nie są rzadkością w pobliżu 50% identyczności sekwencji.
Metody oparte na motywach sekwencji
Rozwój baz danych domen białkowych, takich jak Pfam (baza danych rodzin białek), pozwala nam znaleźć znane domeny w sekwencji zapytania, dostarczając dowodów na prawdopodobne funkcje. Strona dcGO zawiera adnotacje zarówno do poszczególnych domen, jak i supradomen (tj. kombinacji dwóch lub więcej kolejnych domen), dzięki czemu za pośrednictwem dcGO Predictor pozwala na bardziej realistyczne przewidywanie funkcji. W domenach białkowych krótsze sygnatury zwane „ motywami ” są powiązane z określonymi funkcjami, a bazy danych motywów, takie jak PROSITE („baza danych domen białek, rodzin i miejsc funkcjonalnych”) można przeszukiwać za pomocą sekwencji zapytania. Motywy można na przykład wykorzystać do przewidywania lokalizacji subkomórkowej białka (do miejsca, w którym w komórce białko jest wysyłane po syntezie). Peptydy o krótkim sygnale kierują określone białka do określonego miejsca, takiego jak mitochondria, i istnieją różne narzędzia do przewidywania tych sygnałów w sekwencji białka. Na przykład SignalP, który był kilkakrotnie aktualizowany w miarę ulepszania metod. Zatem aspekty funkcji białka można przewidzieć bez porównania z innymi homologicznymi sekwencjami białek pełnej długości.
Metody oparte na strukturze
Ponieważ struktura białek 3D jest na ogół lepiej zachowana niż sekwencja białek, podobieństwo strukturalne jest dobrym wskaźnikiem podobnej funkcji w dwóch lub większej liczbie białek. Opracowano wiele programów do sprawdzania znanej struktury białka względem Protein Data Bank i raportowania podobnych struktur (na przykład FATCAT (Flexible Structure Alignment by Chaining AFPs (Aligned Fragment Pairs) with Twists), CE (rozszerzenie kombinatoryczne)) i DeepAlign ( dopasowanie struktury białka poza bliskość przestrzenną). Podobnie główne bazy danych białek, takie jak UniProt , mają wbudowane narzędzia do wyszukiwania dowolnych sekwencji białek w bazach danych struktur i łączenia z pokrewnymi białkami o znanej strukturze.
Przewidywanie struktury białek
Aby poradzić sobie z sytuacją, w której wiele sekwencji białek nie ma rozwiązanych struktur, opracowano również niektóre serwery przewidywania funkcji, takie jak RaptorX , które mogą najpierw przewidzieć model 3D sekwencji, a następnie użyć metody opartej na strukturze do przewidywania funkcji w oparciu o przewidywany model 3D . W wielu przypadkach zamiast całej struktury białka można celować w strukturę 3D konkretnego motywu reprezentującego miejsce aktywne lub miejsce wiązania. Metoda strukturalnie wyrównanych lokalnych miejsc aktywności (SALSA) opracowana przez Mary Jo Ondrechen i studenci, wykorzystuje obliczone właściwości chemiczne poszczególnych aminokwasów w celu identyfikacji lokalnych miejsc aktywnych biochemicznie. Opracowano bazy danych, takie jak Atlas miejsc katalitycznych, które można przeszukiwać przy użyciu nowych sekwencji białek w celu przewidywania konkretnych miejsc funkcjonalnych.
Obliczeniowe mapowanie rozpuszczalników
Jednym z wyzwań związanych z przewidywaniem funkcji białek jest odkrycie miejsca aktywnego. Sprawę komplikuje fakt, że pewne miejsca aktywne nie powstają – w zasadzie istnieją – dopóki białko nie ulegnie zmianom konformacyjnym spowodowanym wiązaniem małych cząsteczek. Większość struktur białkowych określono metodą krystalografii rentgenowskiej , która wymaga oczyszczonego kryształu białka . W rezultacie istniejące modele strukturalne zazwyczaj dotyczą oczyszczonego białka i jako takie nie wykazują zmian konformacyjnych, które powstają, gdy białko wchodzi w interakcję z małymi cząsteczkami.
Obliczeniowe mapowanie rozpuszczalników wykorzystuje sondy (małe cząsteczki organiczne), które są obliczeniowo „przesuwane” po powierzchni białka w poszukiwaniu miejsc, w których mają tendencję do skupiania się. Na ogół stosuje się wiele różnych sond, a celem jest uzyskanie dużej liczby różnych konformacji białko-sonda. Wygenerowane klastry są następnie klasyfikowane na podstawie średniej darmowej energii klastra. Po obliczeniowym mapowaniu wielu sond miejsce białka, w którym tworzy się stosunkowo duża liczba klastrów, zazwyczaj odpowiada miejscu aktywnemu białka.
Technika ta jest adaptacją obliczeniową pracy w „mokrym laboratorium” z 1996 r. Odkryto, że ustalenie struktury białka zawieszonego w różnych rozpuszczalnikach, a następnie nałożenie tych struktur na siebie, daje dane, gdzie cząsteczki rozpuszczalnika organicznego (tj. białka były zawieszone w) zazwyczaj skupiają się w miejscu aktywnym białka. Praca ta była odpowiedzią na odkrycie, że cząsteczki wody są widoczne na mapach gęstości elektronowej generowanych metodą krystalografii rentgenowskiej . Cząsteczki wody oddziałują z białkiem i mają tendencję do skupiania się w obszarach polarnych białka. Doprowadziło to do pomysłu zanurzenia oczyszczonych kryształów białka w innych rozpuszczalnikach (np. etanolu , izopropanolu itp.) w celu ustalenia, gdzie te cząsteczki skupiają się na białku. Rozpuszczalniki można wybrać na podstawie ich przybliżenia, czyli cząsteczki, z którą dane białko może oddziaływać (np. etanol może sondować interakcje z aminokwasem seryną , izopropanol sondą dla treoniny itp.). Istotne jest, aby kryształ białka zachował swoją trzeciorzędową strukturę w każdym rozpuszczalniku. Proces ten powtarza się dla wielu rozpuszczalników, a następnie dane te można wykorzystać do określenia potencjalnych miejsc aktywnych w białku. Dziesięć lat później technika ta została rozwinięta w algorytm przez Clodfeltera i in.
Metody oparte na kontekście genomu
Wiele nowszych metod przewidywania funkcji białek nie opiera się na porównaniu sekwencji lub struktury jak powyżej, ale na pewnym typie korelacji między nowymi genami/białkami a tymi, które mają już adnotacje. Opracowano kilka metod przewidywania funkcji genów na podstawie lokalnego kontekstu genomowego lub filogenomicznego i struktury genów:
Profilowanie filogenetyczne opiera się na obserwacji, że dwa lub więcej białek o tym samym wzorze obecności lub nieobecności w wielu różnych genomach najprawdopodobniej mają powiązanie funkcjonalne. Podczas gdy metody oparte na homologii można często stosować do identyfikacji funkcji molekularnych białka, podejścia oparte na kontekście można zastosować do przewidywania funkcji komórkowych lub procesu biologicznego, w którym działa białko. Na przykład białka biorące udział w tym samym szlaku metabolicznym prawdopodobnie będą obecne w genomie razem lub w ogóle nie będą obecne, co sugeruje, że te geny współpracują ze sobą w kontekście funkcjonalnym.
Operony to skupiska genów, które podlegają wspólnej transkrypcji. Dane dotyczące kotranskrypcji, ale także fakt, że u wielu bakterii kolejność genów w operonach jest często zachowana, wskazuje, że działają one wspólnie.
Fuzja genów ma miejsce, gdy dwa lub więcej genów koduje dwa lub więcej białek w jednym organizmie i w wyniku ewolucji zostały połączone, tworząc pojedynczy gen w innym organizmie (lub odwrotnie w przypadku rozszczepienia genu ). Koncepcję tę wykorzystano na przykład do przeszukania wszystkich E. coli pod kątem homologii w innych genomach i znalezienia ponad 6000 par sekwencji o wspólnej homologii z pojedynczymi białkami w innym genomie, co wskazuje na potencjalną interakcję między każdą z par. Ponieważ dwie sekwencje w każdej parze białek są niehomologiczne, interakcji tych nie można było przewidzieć przy użyciu metod opartych na homologii.
Ekspresja genów i metody oparte na lokalizacji
U prokariotów skupiska genów, które są fizycznie blisko siebie w genomie, często zachowują się razem w drodze ewolucji i mają tendencję do kodowania białek, które wchodzą w interakcję lub są częścią tego samego operonu . Zatem bliskość chromosomów , zwana także metodą sąsiada genu, można zastosować do przewidywania podobieństwa funkcjonalnego między białkami, przynajmniej u prokariotów. Zaobserwowano również, że bliskość chromosomów ma zastosowanie w przypadku niektórych szlaków w wybranych genomach eukariotycznych , w tym Homo sapiens , a przy dalszym rozwoju metody sąsiedztwa genów mogą być cenne w badaniu interakcji białek u eukariontów.
Geny zaangażowane w podobne funkcje są również często poddawane kotranskrypcji, tak więc często można przewidzieć, że białko bez adnotacji będzie miało pokrewną funkcję z białkami, z którymi współeksprymuje. Algorytmy oceny winy przez asocjację opracowane w oparciu o to podejście można wykorzystać do analizy dużych ilości danych dotyczących sekwencji i identyfikacji genów o wzorach ekspresji podobnych do znanych genów. Często badanie winy przez skojarzenie porównuje grupę genów kandydujących (nieznana funkcja) z grupą docelową (na przykład grupą genów, o których wiadomo, że są powiązane z konkretną chorobą) i szereguje geny kandydujące według prawdopodobieństwa przynależności do nich. grupę docelową na podstawie danych. Jednakże na podstawie ostatnich badań zasugerowano, że z tego typu analizą wiążą się pewne problemy. Na przykład, ponieważ wiele białek ma charakter wielofunkcyjny, kodujące je geny mogą należeć do kilku grup docelowych. Argumentuje się, że takie geny z większym prawdopodobieństwem zostaną zidentyfikowane jako wina w badaniach asocjacyjnych, a zatem przewidywania nie są szczegółowe.
Wraz z gromadzeniem danych dotyczących sekwencji RNA, które umożliwiają oszacowanie profili ekspresji izoform poddanych alternatywnie splicingowi, opracowano również algorytmy uczenia maszynowego do przewidywania i różnicowania funkcji na poziomie izoform. Stanowi to wyłaniający się obszar badań w zakresie przewidywania funkcji, który integruje heterogeniczne dane genomiczne na dużą skalę w celu wnioskowania o funkcjach na poziomie izoform.
Metody sieciowe
Algorytmy typu winy przez asocjację można zastosować do wytworzenia funkcjonalnej sieci asocjacji dla danej docelowej grupy genów lub białek. Sieci te służą jako reprezentacja dowodów na wspólną/podobną funkcję w obrębie grupy genów, gdzie węzły reprezentują geny/białka i są połączone ze sobą krawędziami reprezentującymi dowód wspólnej funkcji.
Zintegrowane sieci
Kilka sieci opartych na różnych źródłach danych można połączyć w sieć złożoną, którą następnie można wykorzystać w algorytmie predykcyjnym do opisywania potencjalnych genów lub białek. Na przykład twórcy systemu bioPIXIE wykorzystali szeroką gamę Saccharomyces cerevisiae (drożdży) dane genomiczne w celu stworzenia złożonej sieci funkcjonalnej dla tego gatunku. Zasób ten umożliwia wizualizację znanych sieci reprezentujących procesy biologiczne, a także przewidywanie nowych elementów tych sieci. Opracowano wiele algorytmów do przewidywania funkcji w oparciu o integrację kilku źródeł danych (np. genomicznych, proteomicznych, interakcji białek itp.), a testowanie genów z wcześniej opisanymi adnotacjami wskazuje na wysoki poziom dokładności. Wady niektórych algorytmów przewidywania funkcji obejmują brak dostępności i czas potrzebny na analizę. Szybsze i dokładniejsze algorytmy, takie jak GeneMANIA (algorytm integracji sieci wielu asocjacji), zostały jednak opracowane w ostatnich latach i są publicznie dostępne w Internecie, wskazując przyszły kierunek przewidywania funkcji.
Narzędzia i bazy danych do przewidywania funkcji białek
STRING : narzędzie internetowe integrujące różne źródła danych w celu przewidywania funkcji.
VisANT : Wizualna analiza sieci i zintegrowane wizualne eksplorowanie danych.
Mantis : narzędzie do przewidywania funkcji oparte na konsensusie, które dynamicznie integruje wiele referencyjnych baz danych.
Zobacz też
- Przewidywanie genów
- Przewidywanie interakcji białko-białko
- Przewidywanie struktury białek
- Genomika strukturalna
- Genomika funkcjonalna
Linki zewnętrzne
- Baza danych DCGO
- Bank danych o białkach
- Atlas miejsca katalitycznego
- Serwer RaptorX do przewidywania funkcji białek wspomaganych modelem
- Blast2GO , wysokowydajne narzędzie do przewidywania funkcji białek i adnotacji funkcjonalnych ( strona internetowa ).