Przewidywanie struktury kwasu nukleinowego
Przewidywanie struktury kwasu nukleinowego to metoda obliczeniowa służąca do określania drugorzędowej i trzeciorzędowej struktury kwasu nukleinowego na podstawie jego sekwencji. Strukturę drugorzędową można przewidzieć na podstawie jednej lub kilku sekwencji kwasu nukleinowego. Strukturę trzeciorzędową można przewidzieć na podstawie sekwencji lub modelowania porównawczego (gdy znana jest struktura sekwencji homologicznej).
Problem przewidywania struktury drugorzędowej kwasu nukleinowego zależy głównie od interakcji parowania zasad i układania zasad ; wiele cząsteczek ma kilka możliwych struktur trójwymiarowych, więc przewidywanie tych struktur pozostaje poza zasięgiem, chyba że zaobserwuje się oczywistą sekwencję i funkcjonalne podobieństwo do znanej klasy cząsteczek kwasu nukleinowego, takiej jak transfer RNA (tRNA) lub mikroRNA ( miRNA ) . Wiele metod przewidywania struktury drugorzędowej opiera się na odmianach programowania dynamicznego i dlatego nie jest w stanie skutecznie identyfikować pseudowęzłów .
Chociaż metody są podobne, istnieją niewielkie różnice w podejściach do przewidywania struktury RNA i DNA. In vivo struktury DNA z większym prawdopodobieństwem będą dupleksami z pełną komplementarnością między dwiema niciami, podczas gdy struktury RNA częściej fałdują się w złożone struktury drugorzędowe i trzeciorzędowe, takie jak rybosom , spliceosom lub transfer RNA . Dzieje się tak częściowo dlatego, że dodatkowy tlen w RNA zwiększa skłonność do tworzenia wiązań wodorowych w szkielecie kwasu nukleinowego. Parametry energetyczne są również różne dla dwóch kwasów nukleinowych. Metody przewidywania struktury mogą opierać się na podejściu całkowicie teoretycznym lub hybrydowym, obejmującym dane eksperymentalne.
Przewidywanie struktury pojedynczej sekwencji
Częstym problemem badaczy pracujących z RNA jest określenie trójwymiarowej struktury cząsteczki na podstawie jedynie sekwencji kwasu nukleinowego. Jednak w przypadku RNA znaczna część ostatecznej struktury zależy od struktury drugorzędowej lub wewnątrzcząsteczkowych interakcji parowania zasad cząsteczki. Świadczy o tym wysoka konserwacja par zasad u różnych gatunków.
Najbardziej stabilna konstrukcja
Struktura drugorzędowa małych cząsteczek RNA jest w dużej mierze zdeterminowana przez silne, lokalne interakcje, takie jak wiązania wodorowe i układanie zasad . Sumowanie energii swobodnej dla takich oddziaływań powinno dać przybliżenie stabilności danej struktury. Aby przewidzieć składaną energię swobodną danej struktury drugorzędowej, empiryczny model najbliższego sąsiada Jest używane. W modelu najbliższego sąsiada zmiana energii swobodnej dla każdego motywu zależy od sekwencji motywu i jego najbliższych par zasad. Model i parametry minimalnej energii dla par Watsona-Cricka, par GU i regionów pętli pochodzą z empirycznych eksperymentów kalorymetrycznych, najbardziej aktualne parametry zostały opublikowane w 2004 r., Chociaż większość pakietów oprogramowania korzysta z wcześniejszego zestawu zmontowanego w 1999 r.
Najprostszym sposobem znalezienia najniższej struktury energii swobodnej byłoby wygenerowanie wszystkich możliwych struktur i obliczenie dla niej energii swobodnej, ale liczba możliwych struktur dla sekwencji rośnie wykładniczo wraz z długością RNA: liczba struktur drugorzędowych = (1 , 8) N , N- liczba nukleotydów
. W przypadku dłuższych cząsteczek liczba możliwych struktur drugorzędowych jest ogromna: sekwencja 100 nukleotydów ma ponad 10 25 możliwych struktur drugorzędowych.
Algorytmy programowania dynamicznego
Najpopularniejsze metody przewidywania struktury drugorzędowej RNA i DNA polegają na programowaniu dynamicznym . Jedną z pierwszych prób przewidywania struktury drugorzędowej RNA podjęła Ruth Nussinov oraz współpracownicy, którzy opracowali algorytm oparty na programowaniu dynamicznym, który zmaksymalizował długość i liczbę serii „bloków” (łańcuchów polinukleotydowych). Każdy „blok” wymagał co najmniej dwóch nukleotydów, co zmniejszyło wymagania algorytmu dotyczące przechowywania w porównaniu z podejściami polegającymi na dopasowywaniu pojedynczych zasad. Nussinov i in. później opublikował dostosowane podejście o ulepszonej wydajności, które zwiększyło limit wielkości RNA do ~ 1000 zasad poprzez składanie coraz większych podsekcji przy jednoczesnym przechowywaniu wyników poprzednich fałd, obecnie znanych jako algorytm Nussinov . W 1981 roku Michael Zuker i Patrick Stiegler zaproponowali wyrafinowane podejście o wydajności porównywalnej z rozwiązaniem Nussinov i wsp., Ale z dodatkową możliwością znajdowania również „suboptymalnych” struktur drugorzędowych.
Algorytmy programowania dynamicznego zapewniają środki do niejawnego sprawdzania wszystkich wariantów możliwych drugorzędowych struktur RNA bez jawnego generowania struktur. Najpierw dla każdego możliwego fragmentu sekwencji wyznaczana jest najniższa swobodna energia konformacyjna, zaczynając od fragmentów najkrótszych, a następnie dla fragmentów dłuższych. Dla dłuższych fragmentów rekurencja na optymalnych zmianach energii swobodnej wyznaczonych dla krótszych sekwencji przyspiesza wyznaczenie najniższej energii swobodnej fałdowania. Po obliczeniu najniższej energii swobodnej całej sekwencji określa się dokładną strukturę cząsteczki RNA.
Algorytmy programowania dynamicznego są powszechnie używane do wykrywania wzorców parowania zasad , które są „dobrze zagnieżdżone”, to znaczy tworzą wiązania wodorowe tylko z zasadami, które nie nakładają się na siebie w pozycji sekwencji. Struktury drugorzędowe, które należą do tej kategorii, obejmują podwójne helisy , pętle macierzyste i warianty wzoru „koniczyny” występujące w cząsteczkach przenoszącego RNA . Metody te opierają się na wstępnie obliczonych parametrach, które szacują energię swobodną związaną z pewnymi typami interakcji par zasad, w tym Pary zasad Watsona-Cricka i Hoogsteena . W zależności od złożoności metody można rozważyć pojedyncze pary zasad i krótkie segmenty dwu- lub trzyzasadowe, aby uwzględnić efekty układania zasad. Ta metoda nie może zidentyfikować pseudowęzłów , które nie są dobrze zagnieżdżone, bez znacznych modyfikacji algorytmicznych, które są bardzo kosztowne obliczeniowo.
Suboptymalne struktury
Dokładność przewidywania struktury drugorzędowej RNA na podstawie jednej sekwencji poprzez minimalizację energii swobodnej jest ograniczona kilkoma czynnikami:
- Lista wartości energii swobodnej w modelu najbliższego sąsiedztwa jest niepełna
- Nie wszystkie znane RNA fałdują się w taki sposób, aby były zgodne z minimum termodynamicznym.
- Niektóre sekwencje RNA mają więcej niż jedną biologicznie aktywną konformację (tj. przełączniki rybne )
Z tego powodu zdolność przewidywania struktur o podobnej niskiej energii swobodnej może dostarczyć istotnych informacji. Struktury takie nazywane są strukturami suboptymalnymi . MFOLD to jeden program, który generuje suboptymalne struktury.
Przewidywanie pseudowęzłów
Jednym z problemów podczas przewidywania drugorzędowej struktury RNA jest to, że standardowe metody minimalizacji energii swobodnej i statystyczne metody próbkowania nie mogą znaleźć pseudowęzłów . Główny problem polega na tym, że zwykłe algorytmy programowania dynamicznego podczas przewidywania struktury drugorzędowej uwzględniają tylko interakcje między najbliższymi nukleotydami, podczas gdy struktury pseudowęzłowe powstają w wyniku interakcji między odległymi nukleotydami. Rivas i Eddy opublikowali dynamiczny algorytm programowania do przewidywania pseudowęzłów. Jednak ten algorytm programowania dynamicznego jest bardzo powolny. Standardowy algorytm programowania dynamicznego dla minimalizacji energii swobodnej skaluje się O(N 3 ) w czasie (N to liczba nukleotydów w sekwencji), podczas gdy algorytm Rivasa i Eddy'ego skaluje O(N6 ) w czasie. To skłoniło kilku badaczy do wdrożenia wersji algorytmu, które ograniczają klasy pseudowęzłów, co skutkuje wzrostem wydajności. Na przykład narzędzie pknotsRG obejmuje tylko klasę prostych rekurencyjnych pseudowęzłów i skaluje O(N4) w czasie.
Inne podejścia do przewidywania struktury drugorzędowej RNA
Innym podejściem do określania struktury drugorzędowej RNA jest próbkowanie struktur z zespołu Boltzmanna , czego przykładem jest program SFOLD. Program generuje próbkę statystyczną wszystkich możliwych struktur drugorzędowych RNA. Algorytm próbkuje struktury drugorzędowe zgodnie z rozkładem Boltzmanna . Metoda próbkowania oferuje atrakcyjne rozwiązanie problemu niepewności składania.
Porównawcze przewidywanie struktury drugorzędowej
Metody kowariancji sekwencji opierają się na istnieniu zestawu danych złożonego z wielu homologicznych sekwencji RNA z pokrewnymi, ale odmiennymi sekwencjami. Metody te analizują kowariancję poszczególnych miejsc zasad w ewolucji ; utrzymanie w dwóch szeroko od siebie oddalonych miejscach pary nukleotydów parujących zasady wskazuje na obecność strukturalnie wymaganego wiązania wodorowego między tymi pozycjami. Wykazano, że ogólny problem przewidywania pseudowęzłów jest NP-zupełny .
Ogólnie rzecz biorąc, problem dopasowania i przewidywania struktury konsensusu są ze sobą ściśle powiązane. Można wyróżnić trzy różne podejścia do przewidywania struktur konsensusu:
- Składanie wyrównania
- Jednoczesne dopasowanie i składanie sekwencji
- Wyrównanie przewidywanych struktur
Wyrównaj, a następnie złóż
Praktycznym podejściem heurystycznym jest użycie narzędzi do dopasowywania wielu sekwencji w celu uzyskania dopasowania kilku sekwencji RNA, znalezienia sekwencji konsensusowej, a następnie jej złożenia. Jakość dopasowania określa dokładność modelu struktury konsensusu. Sekwencje konsensusu są składane przy użyciu różnych podejść, podobnie jak w przypadku indywidualnego problemu przewidywania struktury. Przykładem podejścia do składania termodynamicznego jest program RNAalifold. Przykładem różnych podejść są programy Pfold i ILM. Program Pfold implementuje SCFG . ILM (dopasowywanie iterowanych pętli) w przeciwieństwie do innych algorytmów składania dopasowań, może zwracać struktury z pseudowęzłami. Wykorzystuje kombinację termodynamiki i wzajemnej zawartości informacji.
Wyrównaj i złóż
Ewolucja często zachowuje funkcjonalną strukturę RNA lepiej niż sekwencja RNA. Stąd powszechnym problemem biologicznym jest wnioskowanie o wspólnej strukturze dla dwóch lub więcej wysoce rozbieżnych, ale homologicznych sekwencji RNA. W praktyce dopasowania sekwencji stają się nieodpowiednie i nie pomagają poprawić dokładności przewidywania struktury, gdy podobieństwo sekwencji dwóch sekwencji jest mniejsze niż 50%.
Programy dopasowywania oparte na strukturze poprawiają wydajność tych dopasowań, a większość z nich to warianty algorytmu Sankoffa. Zasadniczo algorytm Sankoffa jest połączeniem dopasowania sekwencji i metody programowania dynamicznego składania Nussinov (maksymalne parowanie). Sam algorytm Sankoffa jest ćwiczeniem teoretycznym, ponieważ wymaga ekstremalnych zasobów obliczeniowych (O (n3m) w czasie i O (n2m) w przestrzeni, gdzie n to długość sekwencji, a m to liczba sekwencji). Niektóre godne uwagi próby implementacji ograniczonych wersji algorytmu Sankoffa to Foldalign, Dynalign, PMmulti/PMcomp, Stemloc i Murleta. W tych implementacjach maksymalna długość dopasowania lub warianty możliwych struktur konsensusu są ograniczone. Na przykład Foldalign koncentruje się na lokalnych wyrównaniach i ogranicza możliwą długość wyrównania sekwencji.
Złóż, a następnie wyrównaj
Rzadziej stosowanym podejściem jest składanie sekwencji za pomocą metod przewidywania struktury pojedynczej sekwencji i dopasowywanie powstałych struktur za pomocą metryk opartych na drzewie. Podstawową słabością tego podejścia jest to, że przewidywania pojedynczych sekwencji są często niedokładne, co wpływa na wszystkie dalsze analizy.
Przewidywanie struktury trzeciorzędowej
Gdy znana jest drugorzędowa struktura RNA, kolejnym wyzwaniem jest przewidzenie struktury trzeciorzędowej . Największym problemem jest określenie struktury regionów pomiędzy regionami dwuniciowej helisy. Również cząsteczki RNA często zawierają nukleozydy zmodyfikowane potranskrypcyjnie, które ze względu na nowe możliwe oddziaływania niekanoniczne sprawiają wiele problemów w przewidywaniu struktury trzeciorzędowej.
Metody przewidywania struktury trójwymiarowej mogą wykorzystywać modelowanie porównawcze, które rozpoczyna się od powiązanej znanej struktury zwanej szablonem. Alternatywną strategią jest modelowanie de novo drugorzędowej struktury RNA, które wykorzystuje zasady oparte na fizyce, takie jak dynamika molekularna lub losowe próbkowanie krajobrazu konformacyjnego, a następnie badanie przesiewowe z potencjałem statystycznym do punktacji. Sposoby te wykorzystują albo reprezentację wszystkich atomów struktury kwasu nukleinowego, albo reprezentację gruboziarnistą. Struktury o niskiej rozdzielczości generowane przez wiele z tych metod modelowania są następnie poddawane udoskonalaniu w wysokiej rozdzielczości.
Zobacz też
- RNA
- Struktura RNA
- Niekodujące RNA
- Lista oprogramowania do przewidywania struktury RNA
- Porównanie oprogramowania do symulacji kwasów nukleinowych
- Porównanie oprogramowania do modelowania mechaniki molekularnej
Dalsza lektura
- Baker D, Sali A (2001). „Przewidywanie struktury białek i genomika strukturalna” . nauka . 294 (5540): 93–6. Bibcode : 2001Sci...294...93B . doi : 10.1126/science.1065659 . PMID 11588250 . S2CID 7193705 .
- Chiu DK; Kołodziejczak T. (1991). „Wnioskowanie o strukturze konsensusu z sekwencji kwasów nukleinowych”. Oblicz. Aplikacja Biologia . 7 (3): 347–352. doi : 10.1093/bioinformatyka/7.3.347 . PMID 1913217 .
- Do CB, Woods DA, Batzoglou S (2006). „CONTRAfold: przewidywanie drugorzędowej struktury RNA bez modeli opartych na fizyce” . Bioinformatyka . 22 (14): e90–8. doi : 10.1093/bioinformatyka/btl246 . PMID 16873527 .
- Gutell RR; i in. (1992). „Identyfikacja ograniczeń struktury wyższego rzędu RNA: ciągły rozwój i stosowanie porównawczych metod analizy sekwencji” . Kwasy nukleinowe Res . 20 (21): 5785–5795. doi : 10.1093/nar/20.21.5785 . PMC 334417 . PMID 1454539 .
- Leontis NB, Lescoute A, Westhof E (2006). „Cegiełki i motywy architektury RNA” . Curr Opin Struct Biol . 16 (3): 279–87. doi : 10.1016/j.sbi.2006.05.009 . PMC 4857889 . PMID 16713707 .
- Lindgreen S, Gardner PP, Krogh A (2006). „Pomiar kowariancji w dopasowaniu RNA: realizm fizyczny poprawia miary informacyjne” . Bioinformatyka . 22 (24): 2988–95. doi : 10.1093/bioinformatyka/btl514 . PMID 17038338 .
- Lorenz, Ronny (2014). Termodynamika i kinetyka struktury drugorzędowej RNA . Wiedeń, Austria: Uniwersytet Wiedeński, rozprawa.
- Macke T, sprawa D (1998). „Modelowanie niezwykłych struktur kwasów nukleinowych”. Modelowanie nietypowych struktur kwasów nukleinowych. W modelowaniu molekularnym kwasów nukleinowych. Pod redakcją Leontesa N., SantaLucia JJ. Waszyngton, DC . Seria sympozjów ACS. Tom. 682. Amerykańskie Towarzystwo Chemiczne. s. 379–393. doi : 10.1021/bk-1998-0682.ch024 . ISBN 978-0-8412-3541-0 .
- Major F. (2003). „Budowanie trójwymiarowych struktur kwasu rybonukleinowego” . Informatyka w nauce i inżynierii . 2003 (5): 44–53. Bibcode : 2003CSE.....5e..44M . doi : 10.1109/MCISE.2003.1225860 . S2CID 17627934 .
- Massire C, Westhof E. „MANIP: interaktywne narzędzie do modelowania RNA”. Model wykresu J Mol . 1998 (16): 197-205, 255-257.
- Parisien M.; Major F. (2008). „Potok MC-Fold i MC-Sym wnioskuje o strukturze RNA na podstawie danych sekwencji”. Natura . 452 (7183): 51–55. Bibcode : 2008Natur.452...51P . doi : 10.1038/natura06684 . PMID 18322526 . S2CID 4415777 .
- Tuzet, H. & Perriquet, O., 2004. CARNAC: fałdowane rodziny pokrewnych RNA. Badania nad kwasami nukleinowymi, 32 (problem z serwerem internetowym), W142-145.
- Touzeta H. (2007). Analiza porównawcza genów RNA: oprogramowanie caRNAc . Metody w biologii molekularnej . Tom. 395. s. 465–474. doi : 10.1007/978-1-59745-514-5_29 . ISBN 978-1-58829-693-1 . PMID 17993692 .
- Yingling YG, Shapiro BA (2006). „Przewidywanie struktury pseudowęzła RNA telomerazy typu dzikiego i kluczowa rola wybrzuszenia w jego tworzeniu” . Model wykresu J Mol . 25 (2): 261–274. doi : 10.1016/j.jmgm.2006.01.003 . PMID 16481205 .
- Zwieb C, Muller F (1997). „Trójwymiarowe modelowanie porównawcze RNA”. Kwasy nukleinowe Symp Ser . 36 (36): 69–71. PMID 9478210 .
- ModeRNA: program do porównawczego modelowania RNA