Wyrównanie strukturalne
Dopasowanie strukturalne ma na celu ustalenie homologii między dwiema lub więcej strukturami polimerowymi na podstawie ich kształtu i trójwymiarowej konformacji . Ten proces jest zwykle stosowany do trzeciorzędowych struktur białkowych , ale może być również stosowany do dużych cząsteczek RNA . W przeciwieństwie do prostej superpozycji strukturalnej, w której znane są co najmniej niektóre równoważne reszty dwóch struktur, dopasowanie strukturalne nie wymaga a priori znajomość równorzędnych stanowisk. Dopasowanie strukturalne jest cennym narzędziem do porównywania białek o niskim podobieństwie sekwencji, gdzie zależności ewolucyjnych między białkami nie mogą być łatwo wykryte za pomocą standardowych dopasowywania sekwencji . Dopasowanie strukturalne można zatem wykorzystać do zasugerowania ewolucyjnych związków między białkami, które mają bardzo mało wspólnych sekwencji. Należy jednak zachować ostrożność przy wykorzystywaniu wyników jako dowodu na wspólne ewolucyjne pochodzenie ze względu na możliwe zakłócające skutki zbieżnej ewolucji , w wyniku której wiele niepowiązanych aminokwasów sekwencje zbiegają się we wspólnej strukturze trzeciorzędowej .
Dopasowania strukturalne mogą porównywać dwie sekwencje lub wiele sekwencji . Ponieważ te dopasowania opierają się na informacjach o trójwymiarowych konformacjach wszystkich sekwencji zapytań, metoda może być stosowana tylko w sekwencjach, w których te struktury są znane. Zwykle można je znaleźć za pomocą krystalografii rentgenowskiej lub spektroskopii NMR . Możliwe jest wykonanie wyrównania strukturalnego na konstrukcjach utworzonych przewidywania struktury . Rzeczywiście, ocena takich przewidywań często wymaga dopasowania strukturalnego między modelem a prawdziwą znaną strukturą, aby ocenić jakość modelu. Dopasowania strukturalne są szczególnie przydatne w analizie danych z genomiki strukturalnej i proteomiki i mogą być używane jako punkty porównawcze do oceny dopasowań uzyskanych za pomocą metod bioinformatycznych opartych wyłącznie na sekwencjach .
Dane wyjściowe wyrównania strukturalnego to superpozycja zestawów współrzędnych atomowych i minimalne odchylenie średniokwadratowe ( RMSD ) między strukturami. RMSD dwóch wyrównanych struktur wskazuje na ich rozbieżność względem siebie. Dopasowanie strukturalne może być skomplikowane przez istnienie wielu domen białkowych w jednej lub więcej struktur wejściowych, ponieważ zmiany względnej orientacji domen między dwiema strukturami, które mają być wyrównane, mogą sztucznie zawyżać RMSD.
Dane wygenerowane przez wyrównanie strukturalne
Minimalna informacja uzyskana z pomyślnego wyrównania strukturalnego to zestaw reszt, które są uważane za równoważne między strukturami. Ten zestaw równoważności jest następnie zwykle używany do nakładania trójwymiarowych współrzędnych dla każdej struktury wejściowej. (Zauważ, że jeden element wejściowy może być ustalony jako odniesienie, a zatem jego nałożone współrzędne nie ulegają zmianie). Dopasowane struktury mogą być używane do obliczania wzajemnych wartości RMSD, a także innych bardziej wyrafinowanych miar podobieństwa strukturalnego, takich jak globalny test odległości (GDT, metryka używana w CASP ). Dopasowanie strukturalne implikuje również odpowiednie jednowymiarowe dopasowanie sekwencji , z którego można obliczyć identyczność sekwencji lub procent reszt, które są identyczne między strukturami wejściowymi, jako miarę tego, jak blisko są spokrewnione dwie sekwencje.
Rodzaje porównań
Ponieważ struktury białkowe składają się z aminokwasów , których łańcuchy boczne są połączone wspólnym szkieletem białkowym, wiele różnych możliwych podzbiorów atomów tworzących makrocząsteczkę białkową można wykorzystać do uzyskania dopasowania strukturalnego i obliczenia odpowiednich wartości RMSD. Podczas dopasowywania struktur o bardzo różnych sekwencjach atomy łańcucha bocznego na ogół nie są brane pod uwagę, ponieważ ich tożsamości różnią się między wieloma dopasowanymi resztami. Z tego powodu metody dopasowania strukturalnego często wykorzystują domyślnie tylko atomy szkieletu zawarte w wiązaniu peptydowym . Dla uproszczenia i wydajności często bierze się pod uwagę tylko pozycje węgla alfa , ponieważ wiązanie peptydowe ma minimalnie zmienną płaską konformację. Tylko wtedy, gdy struktury, które mają być wyrównane, są bardzo podobne lub nawet identyczne, sensowne jest wyrównanie pozycji atomów łańcucha bocznego, w którym to przypadku RMSD odzwierciedla nie tylko konformację szkieletu białka, ale także stany rotameryczne łańcuchów bocznych . Inne kryteria porównania, które zmniejszają szum i wzmacniają pozytywne dopasowania, obejmują przypisanie struktury drugorzędowej , kontakt natywny mapy lub wzorce interakcji reszt, miary upakowania łańcuchów bocznych i miary retencji wiązań wodorowych .
Strukturalna superpozycja
Najbardziej podstawowe możliwe porównanie między strukturami białek nie ma próby dopasowania struktur wejściowych i wymaga wstępnie obliczonego dopasowania jako danych wejściowych w celu określenia, które reszty w sekwencji mają być brane pod uwagę w obliczeniach RMSD. Superpozycja strukturalna jest powszechnie stosowana do porównywania wielu konformacji tego samego białka (w takim przypadku dopasowanie nie jest konieczne, ponieważ sekwencje są takie same) oraz do oceny jakości uzyskanych dopasowań przy użyciu informacji o sekwencji tylko między dwiema lub więcej sekwencjami, których struktury są znane . Ta metoda tradycyjnie wykorzystuje prosty algorytm dopasowywania najmniejszych kwadratów, w którym optymalne obroty i translacje są znajdowane poprzez minimalizację sumy kwadratów odległości między wszystkimi strukturami w superpozycji. Niedawno metody największego prawdopodobieństwa i metody bayesowskie znacznie zwiększyły dokładność szacowanych rotacji, translacji i macierzy kowariancji dla superpozycji.
Algorytmy oparte na wielowymiarowych rotacjach i zmodyfikowanych kwaternionach zostały opracowane w celu identyfikacji zależności topologicznych między strukturami białek bez konieczności z góry określonego wyrównania. Takie algorytmy z powodzeniem zidentyfikowały fałdy kanoniczne, takie jak wiązka czterech helis . Metoda SuperPose jest wystarczająco rozszerzalna, aby skorygować względne rotacje domen i inne pułapki strukturalne.
Ocena podobieństwa
Często celem poszukiwania superpozycji strukturalnej jest nie tyle sama superpozycja, ile ocena podobieństwa dwóch struktur lub zaufanie do odległego wyrównania. Subtelnym, ale ważnym rozróżnieniem od maksymalnej superpozycji strukturalnej jest konwersja dopasowania na znaczący wynik podobieństwa. Większość metod daje jakiś rodzaj „punktacji” wskazującej na jakość superpozycji. Jednak to, czego tak naprawdę chce, to nie tylko oszacowanie „Z-score” lub szacunkowa wartość E przypadkowego zobaczenia obserwowanej superpozycji, ale zamiast tego pragnie się, aby oszacowana wartość E jest ściśle skorelowana z prawdziwą wartością E. Krytycznie, nawet jeśli oszacowana wartość E metody jest średnio dokładnie poprawna, jeśli brakuje jej niskiego odchylenia standardowego w procesie generowania szacowanej wartości, wówczas kolejność względnych podobieństw białka zapytania do zbioru porównawczego rzadko będzie się zgadzać z „prawdziwy” porządek.
Różne metody nakładają różne liczby pozostałości, ponieważ stosują różne gwarancje jakości i różne definicje „nakładania się”; niektóre obejmują tylko reszty spełniające wiele lokalnych i globalnych kryteriów superpozycji, a inne są bardziej zachłanne, elastyczne i rozwiązłe. Większa liczba atomów nałożonych na siebie może oznaczać większe podobieństwo, ale nie zawsze może dawać najlepszą wartość E określającą ilościowo prawdopodobieństwo superpozycji, a zatem nie jest tak przydatna do oceny podobieństwa, zwłaszcza w odległych homologach.
Złożoność algorytmiczna
Optymalne rozwiązanie
Wykazano, że optymalne „ nawleczenie ” sekwencji białka na znaną strukturę i wytworzenie optymalnego dopasowania wielu sekwencji jest NP-zupełne . Nie oznacza to jednak, że problem wyrównania strukturalnego jest NP-zupełny. Ściśle mówiąc, optymalne rozwiązanie problemu dopasowania struktury białek jest znane tylko dla pewnych miar podobieństwa struktury białek, takich jak miary stosowane w eksperymentach przewidywania struktury białek, GDT_TS i MaxSub. Miary te można rygorystycznie zoptymalizować za pomocą algorytmu zdolnego do maksymalizacji liczby atomów w dwóch białkach, które można nałożyć na siebie w ramach z góry określonej odległości odcięcia. Niestety, algorytm optymalnego rozwiązania nie jest praktyczny, ponieważ jego czas działania zależy nie tylko od długości, ale także od wewnętrznej geometrii białek wejściowych.
Przybliżone rozwiązanie
Przybliżony czas wielomianu opracowano algorytmy wyrównania strukturalnego, które tworzą rodzinę „optymalnych” rozwiązań w ramach parametru aproksymacji dla danej funkcji punktacji. Chociaż te algorytmy teoretycznie klasyfikują przybliżony problem wyrównania struktury białka jako „możliwy do rozwiązania”, nadal są one zbyt drogie obliczeniowo do analizy struktury białka na dużą skalę. W konsekwencji nie istnieją praktyczne algorytmy, które zbiegają się do globalnych rozwiązań wyrównania, mając daną funkcję punktacji. Większość algorytmów jest zatem heurystyczna, ale opracowano algorytmy, które gwarantują zbieżność przynajmniej z lokalnymi maksymalizatorami funkcji punktacji i są praktyczne.
Reprezentacja struktur
Struktury białek muszą być reprezentowane w jakiejś przestrzeni niezależnej od współrzędnych, aby były porównywalne. Zwykle osiąga się to poprzez skonstruowanie macierzy sekwencja do sekwencji lub serii macierzy, które obejmują metryki porównawcze, a nie odległości bezwzględne względem ustalonej przestrzeni współrzędnych. Intuicyjną reprezentacją jest macierz odległości , która jest dwuwymiarową macierzą zawierającą wszystkie odległości parami między pewnym podzbiorem atomów w każdej strukturze (takich jak węgle alfa ). Macierz zwiększa wymiarowość wraz ze wzrostem liczby struktur, które mają być jednocześnie wyrównane. Redukcja białka do zgrubnej metryki, takiej jak struktury drugorzędowej (SSE) lub fragmenty strukturalne, może również dać rozsądne wyrównanie, pomimo utraty informacji z powodu odrzucania odległości, ponieważ odrzucany jest również szum . Wybór reprezentacji w celu ułatwienia obliczeń ma kluczowe znaczenie dla opracowania wydajnego mechanizmu wyrównywania.
Metody
Techniki dopasowywania strukturalnego były stosowane do porównywania pojedynczych struktur lub zestawów struktur, jak również do tworzenia porównawczych baz danych „wszystko do wszystkich”, które mierzą rozbieżności między każdą parą struktur obecnych w Protein Data Bank (PDB ) . Takie bazy danych służą do klasyfikowania białek według fałdu .
DALI
Powszechną i popularną metodą dopasowania strukturalnego jest metoda DALI, czyli Distance-matrix ALIgnment, która rozbija struktury wejściowe na fragmenty heksapeptydowe i oblicza macierz odległości, oceniając wzorce kontaktu między kolejnymi fragmentami. Cechy struktury drugorzędowej , które obejmują reszty, które są ciągłe w sekwencji, pojawiają się na głównej przekątnej macierzy ; inne przekątne w macierzy odzwierciedlają przestrzenne kontakty między resztami, które nie są blisko siebie w sekwencji. Kiedy te przekątne są równoległe do głównej przekątnej, cechy, które reprezentują, są równoległe; gdy są prostopadłe, ich cechy są antyrównoległe. Ta reprezentacja wymaga dużej ilości pamięci, ponieważ cechy w macierzy kwadratowej są symetryczne (a zatem redundantne) względem głównej przekątnej.
Kiedy macierze odległości dwóch białek mają te same lub podobne cechy w przybliżeniu w tych samych pozycjach, można powiedzieć, że mają podobne fałdy z pętlami o podobnej długości łączącymi ich elementy struktury drugorzędowej. Rzeczywisty proces dopasowywania DALI wymaga wyszukiwania podobieństw po zbudowaniu macierzy odległości dwóch białek; jest to zwykle przeprowadzane za pomocą serii nakładających się podmacierzy o rozmiarze 6x6. Dopasowania podmacierzy są następnie ponownie łączone w ostateczne wyrównanie za pomocą standardowego algorytmu maksymalizacji wyniku — oryginalna wersja DALI wykorzystywała metodę Monte Carlo symulacja, aby zmaksymalizować wynik podobieństwa strukturalnego, który jest funkcją odległości między przypuszczalnymi odpowiadającymi atomami. W szczególności bardziej odległe atomy w odpowiednich cechach są wykładniczo zmniejszane, aby zredukować wpływ szumu wprowadzanego przez ruchliwość pętli, skręcanie helisy i inne drobne zmiany strukturalne. Ponieważ DALI opiera się na macierzy odległości od wszystkich do wszystkich, może uwzględniać możliwość, że strukturalnie wyrównane cechy mogą pojawić się w różnych rzędach w obrębie dwóch porównywanych sekwencji.
Metodę DALI wykorzystano również do zbudowania bazy danych znanej jako FSSP (ang. klasyfikacja fałd. Istnieje przeszukiwalna baza danych oparta na DALI, a także program do pobrania i wyszukiwarka internetowa oparta na samodzielnej wersji znanej jako DaliLite.
Rozszerzenie kombinatoryczne
Metoda rozszerzenia kombinatorycznego (CE) jest podobna do metody DALI, ponieważ również rozbija każdą strukturę w zestawie zapytań na serię fragmentów, które następnie próbuje ponownie złożyć w kompletne wyrównanie. Szereg kombinacji parami fragmentów zwanych parami wyrównanych fragmentów lub AFP jest używany do zdefiniowania macierzy podobieństwa, za pomocą której generowana jest optymalna ścieżka do identyfikacji ostatecznego dopasowania. Tylko AFP, które spełniają określone kryteria podobieństwa lokalnego, są uwzględniane w macierzy w celu zmniejszenia niezbędnej przestrzeni wyszukiwania, a tym samym zwiększenia wydajności. Możliwych jest wiele metryk podobieństwa; pierwotna definicja metody CE obejmowała tylko superpozycje strukturalne i odległości między resztami, ale od tego czasu została rozszerzona o lokalne właściwości środowiskowe, takie jak struktura drugorzędowa, ekspozycja na rozpuszczalniki, wzorce wiązań wodorowych i kąty dwuścienne .
Ścieżka dopasowania jest obliczana jako optymalna ścieżka przez macierz podobieństwa przez liniowe przejście przez sekwencje i rozszerzenie dopasowania o następną możliwą parę AFP o wysokim wyniku. Początkowa para AFP, która zarodkuje dopasowanie, może wystąpić w dowolnym punkcie macierzy sekwencji. Rozszerzenia następnie przechodzą do następnego AFP, który spełnia określone kryteria odległości, ograniczając wyrównanie do małych rozmiarów szczeliny. Rozmiar każdego AFP i maksymalny rozmiar przerwy są wymaganymi parametrami wejściowymi, ale zwykle są ustawione na ustalone empirycznie wartości odpowiednio 8 i 30. Podobnie jak DALI i SSAP, CE została wykorzystana do zbudowania bazy danych klasyfikacji typu „wszystko do wszystkich”. Zarchiwizowane 1998-12-03 w Wayback Machine ze znanych struktur białkowych w PDB.
RCSB PDB wydało ostatnio zaktualizowaną wersję CE, Mammoth i FATCAT jako część narzędzia do porównywania białek RCSB PDB . Zapewnia nową odmianę CE, która może wykrywać okrągłe permutacje w strukturach białek.
Mamut
MAMMOTH podchodzi do problemu wyrównania z innego celu niż prawie wszystkie inne metody. Zamiast próbować znaleźć dopasowanie, które maksymalnie nakłada się na największą liczbę reszt, szuka podzbioru dopasowania strukturalnego, które jest najmniej prawdopodobne przypadkowo. Aby to zrobić, oznacza lokalne dopasowanie motywu z flagami wskazującymi, które reszty jednocześnie spełniają bardziej rygorystyczne kryteria: 1) Lokalne nakładanie się struktur 2) regularna struktura drugorzędowa 3) Superpozycja 3D 4) to samo uporządkowanie w sekwencji pierwszorzędowej. Konwertuje statystyki liczby reszt z dopasowaniami o wysokim stopniu ufności i wielkości białka, aby obliczyć wartość oczekiwaną dla przypadkowego wyniku. Doskonale sprawdza się w dopasowywaniu odległych homologów, w szczególności struktur generowanych przez przewidywanie struktury ab initio, do rodzin struktur, takich jak SCOP, ponieważ kładzie nacisk na wyodrębnienie statystycznie wiarygodnego dopasowania podrzędnego, a nie na osiągnięcie maksymalnego dopasowania sekwencji lub maksymalnej superpozycji 3D.
Dla każdego nakładającego się okna 7 kolejnych reszt oblicza zestaw wektorów jednostkowych kierunku przemieszczenia między sąsiednimi resztami C-alfa. Lokalne motywy typu „wszystko przeciwko wszystkim” są porównywane na podstawie wyniku URMS. Te wartości stają się wpisami punktacji wyrównania par dla programowania dynamicznego, które daje wyrównanie reszt parami nasion. Druga faza wykorzystuje zmodyfikowany algorytm MaxSub: pojedyncza dopasowana para 7 rezydentów w każdym białku jest używana do orientacji dwóch struktur białkowych pełnej długości, aby maksymalnie nałożyć te tylko te 7 C-alfa, a następnie w tej orientacji skanuje w poszukiwaniu dodatkowych wyrównanych par które są blisko w 3D. Zmienia orientację struktur, aby nałożyć ten rozszerzony zestaw i wykonuje iteracje, aż żadne pary nie będą się pokrywać w 3D. Ten proces jest uruchamiany ponownie dla każdego okna 7 reszt w ustawieniu nasion. Dane wyjściowe to maksymalna liczba atomów znalezionych z dowolnego z tych początkowych nasion. Ta statystyka jest konwertowana na skalibrowaną wartość E dla podobieństwa białek.
Mammoth nie próbuje powtarzać początkowego wyrównania ani rozszerzać podzbioru wysokiej jakości. Dlatego wyświetlanego wyrównania nasion nie można uczciwie porównać z wyrównaniem DALI lub TM, ponieważ zostało utworzone po prostu jako heurystyka w celu przycięcia przestrzeni wyszukiwania. (Można go użyć, jeśli chce się wyrównać wyłącznie na podstawie lokalnego podobieństwa struktury i motywu, niezależnie od wyrównania atomów sztywnego ciała dalekiego zasięgu.) Z powodu tej samej oszczędności jest ponad dziesięć razy szybsze niż wyrównanie DALI, CE i TM. Jest często używany w połączeniu z tymi wolniejszymi narzędziami do wstępnego przeszukiwania dużych baz danych w celu wyodrębnienia najlepszych struktur związanych z wartością E w celu uzyskania bardziej wyczerpujących superpozycji lub kosztownych obliczeń.
Odniósł szczególny sukces w analizie struktur „wabików” na podstawie przewidywania struktury ab initio. Te wabiki są znane z tego, że poprawiają strukturę motywu lokalnego fragmentu i tworzą niektóre jądra o prawidłowej strukturze trzeciorzędowej 3D, ale błędnie opisują strukturę trzeciorzędową pełnej długości. W tym reżimie zdalnej homologii o zmierzchu wykazano, że e-wartości Mamuta do oceny przewidywania struktury białek CASP są znacznie bardziej skorelowane z rankingiem ludzi niż SSAP lub DALI. Zdolność mamuta do wyodrębniania wielokryterialnych częściowych nakładek z białkami o znanej strukturze i uszeregowania ich z odpowiednimi wartościami E, w połączeniu z jego szybkością, ułatwia skanowanie ogromnej liczby modeli wabików w bazie danych PDB w celu zidentyfikowania najbardziej prawdopodobnych poprawnych wabików na podstawie ich odległą homologię do znanych białek.
SSAP
Metoda SSAP (Sequential Structure Alignment Program) wykorzystuje podwójne programowanie dynamiczne w celu uzyskania strukturalnego dopasowania w oparciu o wektory atom-atom w przestrzeni struktury. Zamiast węgli alfa zwykle używanych do wyrównania strukturalnego, SSAP konstruuje swoje wektory z węgli beta dla wszystkich reszt z wyjątkiem glicyny, metoda, która w ten sposób uwzględnia stan rotameryczny każdej reszty, jak również jej położenie wzdłuż szkieletu. SSAP działa najpierw konstruując serię wektorów odległości między resztami między każdą resztą a jej najbliższymi nieciągłymi sąsiadami na każdym białku. Następnie konstruuje się serię macierzy zawierających różnice wektorów między sąsiadami dla każdej pary reszt, dla których skonstruowano wektory. Programowanie dynamiczne zastosowane do każdej wynikowej macierzy określa serię optymalnych lokalnych wyrównań, które są następnie sumowane w macierz „podsumowania”, do której ponownie stosuje się programowanie dynamiczne w celu określenia ogólnego wyrównania strukturalnego.
SSAP pierwotnie tworzył tylko dopasowania parami, ale od tego czasu został również rozszerzony na wiele dopasowań. Został zastosowany w sposób „wszystko do wszystkich” w celu stworzenia hierarchicznego schematu klasyfikacji znanego jako CATH (klasa, architektura, topologia, homologia), który został wykorzystany do skonstruowania bazy danych klasyfikacji struktury białek CATH .
Ostatnie zmiany
Udoskonalenia metod wyrównania strukturalnego stanowią aktywny obszar badań, a często proponowane są nowe lub zmodyfikowane metody, które mają zapewniać przewagę nad starszymi i szerzej rozpowszechnionymi technikami. Niedawny przykład, TM-align, wykorzystuje nowatorską metodę ważenia macierzy odległości, do której następnie stosuje się standardowe programowanie dynamiczne . Zaproponowano ważenie w celu przyspieszenia zbieżności programowania dynamicznego i skorygowania skutków wynikających z długości wyrównania. W badaniu porównawczym zgłoszono, że TM-align poprawia zarówno szybkość, jak i dokładność w porównaniu z DALI i CE.
Inne obiecujące metody wyrównania strukturalnego to lokalne metody wyrównania strukturalnego. Zapewniają one porównanie wstępnie wybranych części białek (np. miejsc wiązania, motywów strukturalnych zdefiniowanych przez użytkownika) z miejscami wiązania lub strukturalnymi bazami danych całych białek. Serwery MultiBind i MAPPIS umożliwiają identyfikację wspólnych układów przestrzennych właściwości fizykochemicznych, takich jak donor, akceptor, alifatyczny, aromatyczny lub hydrofobowy wiązań wodorowych, w zestawie miejsc wiązania białek określonych przez użytkownika, zdefiniowanych przez interakcje z małymi cząsteczkami (MultiBind) lub w zestaw dostarczonych przez użytkownika interfejsów białko-białko (MAPPIS). Inne zapewniają porównanie całych struktur białkowych z wieloma strukturami przesłanymi przez użytkowników lub z dużą bazą danych struktur białkowych w rozsądnym czasie ( ProBiS ). W przeciwieństwie do metod globalnego dopasowania, metody lokalnego dopasowania strukturalnego są odpowiednie do wykrywania lokalnie konserwatywnych wzorców grup funkcyjnych, które często pojawiają się w miejscach wiązania i mają znaczący udział w wiązaniu liganda. Na przykład porównanie G-Losa, narzędzia do lokalnego wyrównywania struktur, z TM-align, metodą opartą na globalnym wyrównywaniu struktur. Podczas gdy G-Losa przewiduje pozycje ligandów podobnych do leków w jednołańcuchowych celach białkowych dokładniej niż TM-align, ogólny wskaźnik sukcesu TM-align jest lepszy.
Ponieważ jednak ulepszenia algorytmiczne i wydajność komputerów usunęły czysto techniczne braki w starszych podejściach, stało się jasne, że nie ma jednego uniwersalnego kryterium „optymalnego” dopasowania strukturalnego. Na przykład TM-align jest szczególnie solidny w ilościowych porównaniach między zestawami białek o dużych rozbieżnościach w długości sekwencji, ale tylko pośrednio wychwytuje wiązania wodorowe lub zachowanie kolejności struktury drugorzędowej, które mogą być lepszymi wskaźnikami dla wyrównania ewolucyjnie powiązanych białek. W związku z tym ostatnie zmiany koncentrowały się na optymalizacji określonych atrybutów, takich jak szybkość, kwantyfikacja wyników, korelacja z alternatywnymi złotymi standardami lub tolerancja niedoskonałości danych strukturalnych lub modeli strukturalnych ab initio. Alternatywną metodologią, która zyskuje na popularności, jest użycie tzw konsensus różnych metod ustalania podobieństw strukturalnych białek.
Dopasowanie strukturalne RNA
Techniki dopasowywania strukturalnego były tradycyjnie stosowane wyłącznie do białek, jako podstawowych makrocząsteczek biologicznych , które przyjmują charakterystyczne struktury trójwymiarowe. Jednak duże RNA tworzą również charakterystyczne struktury trzeciorzędowe , w których pośredniczą głównie wiązania wodorowe utworzone między parami zasad , a także układanie zasad w stosy . Funkcjonalnie podobne niekodujące cząsteczki RNA mogą być szczególnie trudne do wyekstrahowania z genomiki danych, ponieważ struktura jest silniej konserwowana niż sekwencja zarówno w RNA, jak iw białkach, a bardziej ograniczony alfabet RNA zmniejsza zawartość informacji w dowolnym danym nukleotydzie w dowolnej pozycji.
Jednak ze względu na rosnące zainteresowanie strukturami RNA oraz ze względu na wzrost liczby wyznaczanych eksperymentalnie trójwymiarowych struktur RNA, w ostatnim czasie opracowano kilka metod podobieństwa struktur RNA. Jedną z takich metod jest np. SETTER, który rozkłada każdą strukturę RNA na mniejsze części zwane ogólnymi jednostkami struktury drugorzędowej (GSSU). GSSU są następnie dopasowywane i te częściowe dopasowania są łączone w ostateczne dopasowanie struktury RNA i oceniane. Metoda została zaimplementowana na serwerze sieciowym SETTER .
Niedawno opublikowano i zaimplementowano w programie FOLDALIGN metodę dopasowywania strukturalnego parami sekwencji RNA o niskiej identyczności sekwencji . Jednak ta metoda nie jest tak naprawdę analogiczna do technik dopasowania strukturalnego białek, ponieważ przewiduje obliczeniowo struktury wejściowych sekwencji RNA, zamiast wymagać eksperymentalnie określonych struktur jako danych wejściowych. Chociaż przewidywanie obliczeniowe fałdowania białek nie było jak dotąd szczególnie udane, struktury RNA bez pseudowęzłów można często rozsądnie przewidzieć przy użyciu energii swobodnej oparte na metodach punktacji, które uwzględniają parowanie zasad i układanie w stosy.
Oprogramowanie
Wybór oprogramowania do osiowania strukturalnego może być wyzwaniem ze względu na dużą różnorodność dostępnych pakietów, które znacznie różnią się metodologią i niezawodnością. Częściowe rozwiązanie tego problemu zostało zaprezentowane i udostępnione publicznie za pośrednictwem serwera WWW ProCKSI. Pełniejszą listę obecnie dostępnych i swobodnie dystrybuowanych programów do osiowania konstrukcji można znaleźć w oprogramowaniu do osiowania konstrukcji .
Właściwości niektórych serwerów wyrównania strukturalnego i pakietów oprogramowania są podsumowane i przetestowane na przykładach w Structural Alignment Tools w Proteopedia.Org .
Zobacz też
Dalsza lektura
- Bourne PE, Shindyalov IN. (2003): Porównanie struktury i wyrównanie . W: Bourne, PE, Weissig, H. (red.): Bioinformatyka strukturalna . Hoboken NJ: Wiley-Liss. ISBN 0-471-20200-2
- Yuan X, Bystroff C. (2004) „Niesekwencyjne wyrównania oparte na strukturze ujawniają niezależne od topologii układy upakowania rdzeni w białkach”, Bioinformatics . 5 listopada 2004
- Jung J, Lee B (2000). „Wyrównanie struktury białek za pomocą profili środowiskowych” . Białko inż . 13 (8): 535–543. doi : 10.1093/białko/13.8.535 . PMID 10964982 .
- Ye Y, Godzik A (2005). „Wiele elastycznych wyrównań struktur za pomocą grafów częściowego porządku” . Bioinformatyka . 21 (10): 2362–2369. doi : 10.1093/bioinformatyka/bti353 . PMID 15746292 .
- Sippl M, Wiederstein M (2008). „Uwaga na temat trudnych problemów z wyrównaniem konstrukcji” . Bioinformatyka . 24 (3): 426–427. doi : 10.1093/bioinformatyka/btm622 . PMID 18174182 .