Nawlekanie (sekwencja białek)

Nitkowanie białek , znane również jako rozpoznawanie fałd , to metoda modelowania białek, która służy do modelowania tych białek , które mają taki sam fałd jak białka o znanej strukturze, ale nie mają homologicznych białek o znanej strukturze. Różni się od modelowania homologii do przewidywania struktury tym, że jest stosowana dla białek, które nie mają swoich homologicznych struktur białkowych zdeponowanych w Protein Data Bank (PDB), podczas gdy modelowanie homologii jest stosowane dla tych białek, które to robią. Wątkowanie działa przy użyciu statystycznej wiedzy o związku między strukturami zdeponowanymi w PDB a sekwencją białka, które chce się modelować.

Przewidywania dokonuje się przez „przewlekanie” (tj. umieszczanie, dopasowywanie) każdego aminokwasu w sekwencji docelowej do pozycji w strukturze matrycy i ocenianie, jak dobrze cel pasuje do matrycy. Po wybraniu najlepiej dopasowanego szablonu budowany jest model strukturalny sekwencji w oparciu o dopasowanie do wybranego szablonu. Nitkowanie białek opiera się na dwóch podstawowych obserwacjach: liczba różnych fałd w przyrodzie jest dość mała (około 1300); oraz że 90% nowych struktur przedłożonych do WPB w ciągu ostatnich trzech lat ma podobne fałdy strukturalne do tych, które już znajdują się w WPB.

Klasyfikacja struktury białek

Structural Classification of Proteins (SCOP) zawiera szczegółowy i wyczerpujący opis zależności strukturalnych i ewolucyjnych znanej struktury. Białka są klasyfikowane w celu odzwierciedlenia zarówno pokrewieństwa strukturalnego, jak i ewolucyjnego. W hierarchii istnieje wiele poziomów, ale główne poziomy to rodzina , nadrodzina i fałd:

  • Rodzina (wyraźny związek ewolucyjny): Białka skupione razem w rodziny są wyraźnie spokrewnione ewolucyjnie. Ogólnie oznacza to, że identyczności parami reszt między białkami wynoszą 30% i więcej. Jednak w niektórych przypadkach podobne funkcje i struktury dostarczają ostatecznych dowodów na wspólne pochodzenie przy braku wysokiej identyczności sekwencji; na przykład wiele globin tworzy rodzinę, chociaż niektórzy członkowie mają tożsamość sekwencji wynoszącą zaledwie 15%.
  • Nadrodzina (prawdopodobne wspólne pochodzenie ewolucyjne): Białka, które mają niską identyczność sekwencji, ale których cechy strukturalne i funkcjonalne sugerują, że prawdopodobne jest wspólne pochodzenie ewolucyjne, są umieszczane razem w nadrodzinach. Na przykład aktyna , domena ATPazy białka szoku cieplnego i heksokinaza razem tworzą nadrodzinę.
  • Fałd (główne podobieństwo strukturalne): Białka definiuje się jako posiadające wspólny fałd, jeśli mają te same główne struktury drugorzędowe w tym samym układzie i z tymi samymi połączeniami topologicznymi. Różne białka z tym samym fałdem często mają obwodowe elementy struktury drugorzędowej i regiony skrętu różniące się rozmiarem i konformacją. W niektórych przypadkach te różne regiony peryferyjne mogą stanowić połowę struktury. Białka umieszczone razem w tej samej kategorii fałd mogą nie mieć wspólnego pochodzenia ewolucyjnego: podobieństwa strukturalne mogą wynikać po prostu z fizyki i chemii białek faworyzujących pewne układy upakowania i topologie łańcuchów.

metoda

Ogólny paradygmat gwintowania białek składa się z następujących czterech etapów:

  1. Budowa bazy danych szablonów struktur: Wybierz struktury białek z baz danych struktur białek jako szablony strukturalne. Obejmuje to na ogół wybieranie struktur białkowych z baz danych, takich jak PDB , FSSP , SCOP lub CATH , po usunięciu struktur białkowych o wysokim podobieństwie sekwencji.
  2. Projekt funkcji punktacji: Zaprojektuj dobrą funkcję punktacji do pomiaru dopasowania między docelowymi sekwencjami i szablonami w oparciu o znajomość znanych relacji między strukturami a sekwencjami. Dobra funkcja punktacji powinna zawierać potencjał mutacji, potencjał dopasowania środowiska, potencjał parowania, kompatybilność struktury drugorzędowej i kary za przerwy. Jakość funkcji energii jest ściśle związana z dokładnością predykcji, zwłaszcza z dokładnością wyrównania.
  3. Wyrównanie wątków: Dopasuj sekwencję docelową do każdego szablonu struktury, optymalizując zaprojektowaną funkcję oceniania. Ten krok jest jednym z głównych zadań wszystkich programów do przewidywania struktury opartych na wątkach, które uwzględniają potencjał kontaktu parami; w przeciwnym razie algorytm programowania dynamicznego może to spełnić.
  4. Przewidywanie wątków: Wybierz wyrównanie wątków, które jest statystycznie najbardziej prawdopodobne jako przewidywanie wątków. Następnie skonstruuj model struktury dla celu, umieszczając atomy szkieletu sekwencji docelowej w ich wyrównanych pozycjach szkieletu wybranego szablonu strukturalnego.

Porównanie z modelowaniem homologii

Modelowanie homologii i wątkowanie białek to metody oparte na szablonach i nie ma między nimi ścisłej granicy pod względem technik przewidywania. Ale struktury białkowe ich celów są różne. Modelowanie homologii dotyczy tych celów, które mają homologiczne białka o znanej strukturze (zwykle/być może z tej samej rodziny), podczas gdy gwintowanie białek dotyczy tych celów, w przypadku których znaleziona została tylko homologia na poziomie krotności. Innymi słowy, modelowanie homologii jest przeznaczone dla „łatwiejszych” celów, a gwintowanie białek dla „trudniejszych” celów.

Modelowanie homologii traktuje szablon w dopasowaniu jako sekwencję, a do przewidywania używana jest tylko homologia sekwencji. Wątkowanie białek traktuje szablon w dopasowaniu jako strukturę, a do przewidywania wykorzystuje się zarówno informacje o sekwencji, jak i strukturze wyodrębnione z dopasowania. Gdy nie znaleziono znaczącej homologii, nitkowanie białek może przewidywać na podstawie informacji o strukturze. To również wyjaśnia, dlaczego nitkowanie białek może być w wielu przypadkach skuteczniejsze niż modelowanie homologii.

W praktyce, gdy identyczność sekwencji w dopasowaniu sekwencji jest niska (tj. <25%), modelowanie homologii może nie dawać znaczącej prognozy. W takim przypadku, jeśli dla celu zostanie znaleziona odległa homologia, nitkowanie białek może wygenerować dobrą prognozę.

Więcej o gwintowaniu

Metody rozpoznawania fałd można zasadniczo podzielić na dwa typy: te, które wyprowadzają profil 1-D dla każdej struktury w bibliotece fałd i dopasowują sekwencję docelową do tych profili; oraz te, które uwzględniają pełną trójwymiarową strukturę matrycy białkowej. Prostym przykładem reprezentacji profilu byłoby wzięcie każdego aminokwasu w strukturze i po prostu oznakowanie go zgodnie z tym, czy jest zakopany w rdzeniu białka, czy odsłonięty na powierzchni. Bardziej złożone profile mogą uwzględniać lokalną strukturę drugorzędową (np. czy aminokwas jest częścią helisy alfa). ) lub nawet informacje ewolucyjne (jak konserwatywny jest aminokwas). W trójwymiarowej reprezentacji struktura jest modelowana jako zestaw odległości międzyatomowych, tj. odległości są obliczane między niektórymi lub wszystkimi parami atomów w strukturze. Jest to o wiele bogatszy i znacznie bardziej elastyczny opis struktury, ale znacznie trudniej jest go użyć do obliczenia wyrównania. Podejście do rozpoznawania fałd oparte na profilach zostało po raz pierwszy opisane przez Bowiego, Lüthy'ego i Davida Eisenberga w 1991 roku. Termin gwintowanie został po raz pierwszy ukuty przez Davida Jonesa , Williama R. Taylora i Janet Thornton w 1992 roku i pierwotnie odnosił się konkretnie do wykorzystania pełnej trójwymiarowej reprezentacji atomowej szablonu białka w rozpoznawaniu fałd. Obecnie terminy gwintowanie i rozpoznawanie fałd są często (choć nieco niepoprawnie) używane zamiennie.

Metody rozpoznawania fałd są szeroko stosowane i skuteczne, ponieważ uważa się, że w przyrodzie istnieje ściśle ograniczona liczba różnych fałd białkowych, głównie w wyniku ewolucji, ale także z powodu ograniczeń narzuconych przez podstawową fizykę i chemię łańcuchów polipeptydowych. Istnieje zatem duża szansa (obecnie 70-80%), że białko, które ma podobny fałd do białka docelowego, było już badane za pomocą krystalografii rentgenowskiej lub spektroskopii magnetycznego rezonansu jądrowego (NMR) i można je znaleźć w PDB. Obecnie znanych jest prawie 1300 różnych fałd białek, ale co roku odkrywane są nowe fałdy, w dużej mierze dzięki trwającym genomiki strukturalnej .

Zaproponowano wiele różnych algorytmów znajdowania poprawnego wplecenia sekwencji w strukturę, chociaż wiele z nich wykorzystuje programowanie dynamiczne w jakiejś formie. W przypadku pełnego gwintowania 3-D problem identyfikacji najlepszego wyrównania jest bardzo trudny (jest to NP-trudny dla niektórych modeli gwintowania). [ potrzebne źródło ] Naukowcy wykorzystali wiele kombinatorycznych metod optymalizacji, takich jak warunkowe pola losowe , symulowane wyżarzanie , programowanie rozgałęzione i związane oraz liniowe , poszukując rozwiązań heurystycznych. Interesujące jest porównanie metod wątkowania z metodami, które próbują wyrównać dwie struktury białek ( dopasowanie strukturalne białek ), i rzeczywiście wiele z tych samych algorytmów zostało zastosowanych do obu problemów.

Oprogramowanie do gwintowania białek

  • HHpred jest popularnym serwerem obsługującym wątki, na którym działa HHsearch , szeroko stosowane oprogramowanie do zdalnego wykrywania homologii oparte na porównywaniu parami ukrytych modeli Markowa .
  • RAPTOR (oprogramowanie) to oprogramowanie do wątków białkowych oparte na programowaniu liczb całkowitych. Został on zastąpiony przez nowy program do wątków białkowych RaptorX / oprogramowanie do modelowania i analizy białek , który wykorzystuje probabilistyczne modele graficzne i wnioskowanie statystyczne zarówno do wątków białkowych opartych na jednym szablonie, jak i na wielu szablonach. RaptorX znacznie przewyższa RAPTOR i jest szczególnie dobry w dopasowywaniu białek o rzadkim profilu sekwencji. Serwer RaptorX jest ogólnodostępny.
  • Phyre to popularny serwer wątków łączący HHsearch z modelowaniem ab initio i wieloma szablonami.
  • MUSTER to standardowy algorytm wątkowania oparty na programowaniu dynamicznym i dopasowaniu profilu do profilu sekwencji. Łączy również wiele zasobów strukturalnych, aby pomóc w dopasowaniu profilu sekwencji.
  • SPARKS X to oparte na probabilistyce dopasowanie sekwencji do struktury między przewidywanymi jednowymiarowymi właściwościami strukturalnymi zapytania i odpowiednimi natywnymi właściwościami szablonów.
  • BioShell to algorytm wielowątkowości wykorzystujący zoptymalizowany algorytm programowania dynamicznego profil-profil w połączeniu z przewidywaną strukturą drugorzędową.

Zobacz też

Dalsza lektura