Bioinformatyka strukturalna
Bioinformatyka strukturalna to dział bioinformatyki związany z analizą i przewidywaniem trójwymiarowej struktury makrocząsteczek biologicznych , takich jak białka , RNA i DNA . Zajmuje się uogólnieniami dotyczącymi makrocząsteczkowych struktur 3D, takimi jak porównania ogólnych fałd i lokalnych motywów, zasad fałdowania molekularnego, ewolucji, interakcji wiązań i relacji struktura / funkcja, pracując zarówno na podstawie eksperymentalnie rozwiązanych struktur, jak i modeli obliczeniowych. Termin strukturalny ma takie samo znaczenie jak w biologii strukturalnej , a bioinformatykę strukturalną można postrzegać jako część obliczeniowej biologii strukturalnej. Głównym celem bioinformatyki strukturalnej jest tworzenie nowych metod analizy i manipulacji biologicznymi danymi makrocząsteczkowymi w celu rozwiązywania problemów w biologii i generowania nowej wiedzy.
Wstęp
Struktura białka
Struktura białka jest bezpośrednio związana z jego funkcją. Obecność pewnych grup chemicznych w określonych miejscach pozwala białkom działać jak enzymy , katalizujące kilka reakcji chemicznych. Ogólnie struktury białek dzieli się na cztery poziomy: pierwszorzędowy (sekwencje), drugorzędowy (lokalna konformacja łańcucha polipeptydowego), trzeciorzędowy (trójwymiarowa struktura fałdu białkowego) i czwartorzędowy (połączenie wielu struktur polipeptydowych). Bioinformatyka strukturalna zajmuje się głównie interakcjami między strukturami, biorąc pod uwagę ich współrzędne przestrzenne. Zatem struktura pierwotna jest lepiej analizowana w tradycyjnych gałęziach bioinformatyki. Jednak sekwencja implikuje ograniczenia, które pozwalają na tworzenie konserwatywnych lokalnych konformacji łańcucha polipeptydowego, takich jak alfa-helisa , arkusze beta i pętle (struktura drugorzędowa). Również słabe oddziaływania (takie jak wiązania wodorowe ) stabilizują fałd białkowy. Interakcje mogą być wewnątrzłańcuchowe, tj. zachodzące między częściami tego samego monomeru białkowego (struktura trzeciorzędowa) lub międzyłańcuchowe, tj. zachodzące między różnymi strukturami (struktura czwartorzędowa).
Wizualizacja konstrukcji
Wizualizacja struktury białek jest ważnym zagadnieniem dla bioinformatyki strukturalnej. Pozwala użytkownikom obserwować statyczne lub dynamiczne reprezentacje cząsteczek, a także umożliwia wykrywanie interakcji, które można wykorzystać do wnioskowania o mechanizmach molekularnych. Najpopularniejsze typy wizualizacji to:
- Rysunek : ten rodzaj wizualizacji białek podkreśla różnice w strukturze drugorzędowej. Ogólnie helisa α jest przedstawiana jako rodzaj śruby, nici β jako strzałki, a pętle jako linie.
- Linie : każda reszta aminokwasowa jest reprezentowana przez cienkie linie, co pozwala na niski koszt renderowania grafiki.
- Powierzchnia : na tej wizualizacji pokazany jest zewnętrzny kształt cząsteczki.
- Pałeczki : każde wiązanie kowalencyjne między atomami aminokwasów jest reprezentowane jako pałeczka. Ten rodzaj wizualizacji jest najczęściej używany do wizualizacji interakcji między aminokwasami ...
Struktura DNA
Klasyczna struktura dupleksów DNA została początkowo opisana przez Watsona i Cricka (oraz wkład Rosalind Franklin ). Cząsteczka DNA składa się z trzech substancji: fosforanowej , pentozy i zasady azotowej ( adeniny , tyminy , cytozyny lub guaniny) ). Struktura podwójnej helisy DNA jest stabilizowana przez wiązania wodorowe utworzone pomiędzy parami zasad: adenina z tyminą (AT) i cytozyna z guaniną (CG). Wiele badań bioinformatyki strukturalnej koncentrowało się na zrozumieniu interakcji między DNA a małymi cząsteczkami, co było celem kilku badań nad projektowaniem leków.
Interakcje
Oddziaływania to kontakty nawiązywane między częściami cząsteczek na różnych poziomach. Odpowiadają za stabilizację struktur białkowych i pełnią różnorodne funkcje. W biochemii interakcje charakteryzują się bliskością grup atomów lub regionów cząsteczek, które wywierają na siebie wpływ, taki jak siły elektrostatyczne , wiązania wodorowe i efekt hydrofobowy . Białka mogą przeprowadzać kilka rodzajów interakcji, takich jak interakcje białko-białko (PPI) , interakcje białko-peptyd , interakcje białko-ligand (PLI) i interakcja białko-DNA.
Obliczanie kontaktów
Obliczanie kontaktów jest ważnym zadaniem w bioinformatyce strukturalnej, mającym znaczenie dla prawidłowego przewidywania struktury i fałdowania białek, stabilności termodynamicznej, interakcji białko-białko i białko-ligand, dokowania i analiz dynamiki molekularnej i tak dalej.
Tradycyjnie metody obliczeniowe wykorzystywały odległość progową między atomami (zwaną także odcięciem) do wykrywania możliwych interakcji. Detekcja ta dokonywana jest na podstawie odległości euklidesowej i kątów między atomami określonych typów. Jednak większość metod opartych na prostej odległości euklidesowej nie jest w stanie wykryć zatkanych kontaktów. Dlatego metody bez odcięcia, takie jak triangulacja Delaunaya , zyskały na znaczeniu w ostatnich latach. Ponadto w celu poprawy określania kontaktu zastosowano kombinację zestawu kryteriów, na przykład właściwości fizykochemicznych, odległości, geometrii i kątów.
Typ | Kryteria maksymalnej odległości |
---|---|
Wiązanie wodorowe | 3,9 Ł |
Oddziaływanie hydrofobowe | 5 Å |
Oddziaływanie jonowe | 6 Å |
Aromatyczne układanie | 6 Å |
Bank danych białek (PDB)
Protein Data Bank (PDB) to baza danych zawierająca dane o strukturze 3D dużych cząsteczek biologicznych, takich jak białka , DNA i RNA . PDB jest zarządzany przez międzynarodową organizację o nazwie Worldwide Protein Data Bank ( wwPDB ), która składa się z kilku lokalnych organizacji, as. PDBe, PDBj, RCSB i BMRB. Są one odpowiedzialne za bezpłatne udostępnianie kopii danych WPB w Internecie. Liczba danych strukturalnych dostępnych w PDB zwiększała się każdego roku, uzyskiwanych zwykle za pomocą krystalografii rentgenowskiej , Spektroskopia NMR lub mikroskopia krioelektronowa .
Format danych
Format PDB (.pdb) jest starszym formatem plików tekstowych używanym do przechowywania informacji o trójwymiarowych strukturach makrocząsteczek używanych przez Protein Data Bank. Ze względu na ograniczenia w koncepcji struktury formatu, format PDB nie dopuszcza dużych struktur zawierających więcej niż 62 łańcuchy lub 99999 rekordów atomowych.
PDBx/ mmCIF (makromolekularny plik informacji krystalograficznych) to standardowy format pliku tekstowego do reprezentowania informacji krystalograficznych. Od 2014 roku format PDB został zastąpiony jako standardowa dystrybucja archiwów PDB przez format pliku PDBx/mmCIF (.cif). Podczas gdy format PDB zawiera zestaw rekordów identyfikowanych za pomocą słowa kluczowego składającego się z maksymalnie sześciu znaków, format PDBx/mmCIF wykorzystuje strukturę opartą na kluczu i wartości, gdzie klucz to nazwa identyfikująca pewną cechę, a wartość to informacja o zmiennej.
Inne strukturalne bazy danych
Oprócz Protein Data Bank (PDB) istnieje kilka baz danych struktur białek i innych makrocząsteczek. Przykłady obejmują:
- MMDB : Eksperymentalnie określone trójwymiarowe struktury biomolekuł pochodzące z Protein Data Bank (PDB).
- Baza danych kwasów nukleinowych (NDB): Eksperymentalnie określone informacje o kwasach nukleinowych (DNA, RNA).
- Klasyfikacja strukturalna białek (SCOP) : Obszerny opis strukturalnych i ewolucyjnych powiązań między strukturalnie znanymi białkami.
- TOPOFIT-DB: Dopasowanie strukturalne białek w oparciu o metodę TOPOFIT.
- Serwer gęstości elektronów (EDS): mapy gęstości elektronów i statystyki dotyczące dopasowania struktur krystalicznych i ich map.
- CASP : Centrum Prognoz Ogólnoświatowy eksperyment przewidywania struktury białek CASP w całej społeczności .
- Serwer PISCES do tworzenia nieredundantnych list białek: Generuje listę PDB według tożsamości sekwencji i strukturalnych kryteriów jakości.
- Baza wiedzy z zakresu biologii strukturalnej: narzędzia wspomagające projektowanie badań nad białkami.
- ProtCID : The Protein Common Interface Database Baza danych zawierająca podobne interfejsy białko-białko w strukturach krystalicznych białek homologicznych.
- AlphaFold : AlphaFold - Baza danych struktur białek.
Porównanie struktury
Wyrównanie strukturalne
Wyrównanie strukturalne to metoda porównywania struktur 3D na podstawie ich kształtu i konformacji. Można go wykorzystać do wywnioskowania ewolucyjnego związku między zestawem białek, nawet przy niskim podobieństwie sekwencji. Cα Dopasowanie strukturalne oznacza nałożenie struktury 3D na drugą, obracanie i przesuwanie atomów w odpowiednich pozycjach (ogólnie przy użyciu atomów Cα lub nawet atomów ciężkich szkieletu C , N , O i ). Zwykle jakość osiowania jest oceniana na podstawie odchylenie średniokwadratowe (RMSD) pozycji atomów, czyli średnia odległość między atomami po nałożeniu:
gdzie δ i jest odległością między atomem i a atomem odniesienia odpowiadającym innej strukturze lub średnią współrzędną N równoważnych atomów. Ogólnie wynik RMSD jest mierzony w Ångström (Å), co odpowiada 10-10 m . Im bliższa zeru wartość RMSD, tym bardziej podobne są struktury.
Podpisy strukturalne oparte na wykresach
Sygnatury strukturalne, zwane także odciskami palców, to reprezentacje wzorców makrocząsteczek , które można wykorzystać do wnioskowania o podobieństwach i różnicach. Porównania między dużym zestawem białek przy użyciu RMSD nadal stanowią wyzwanie ze względu na wysoki koszt obliczeniowy dopasowania strukturalnego. Sygnatury strukturalne oparte na wzorcach odległości grafów między parami atomów zostały wykorzystane do określenia wektorów identyfikujących białka i do wykrywania nietrywialnych informacji. Ponadto algebrę liniową i uczenie maszynowe można wykorzystać do grupowania sygnatur białek, wykrywania interakcji białko-ligand, przewidywania ΔΔG oraz proponowanie mutacji opartych na odległości euklidesowej .
Przewidywanie struktury
Struktury atomowe cząsteczek można uzyskać kilkoma metodami, takimi jak krystalografia rentgenowska (XRC) , spektroskopia NMR i trójwymiarowa mikroskopia elektronowa ; jednakże procesy te mogą wiązać się z wysokimi kosztami, a czasami trudno jest ustalić niektóre struktury, takie jak białka błonowe . Stąd konieczne jest zastosowanie metod obliczeniowych do wyznaczania trójwymiarowych struktur makrocząsteczek. Metody przewidywania struktury dzielą się na modelowanie porównawcze i modelowanie de novo .
Modelowanie porównawcze
Modelowanie porównawcze , znane również jako modelowanie homologiczne, odpowiada metodologii konstruowania struktur trójwymiarowych z sekwencji aminokwasowej docelowego białka i matrycy o znanej strukturze. W literaturze opisano, że białka spokrewnione ewolucyjnie mają tendencję do prezentowania konserwatywnej struktury trójwymiarowej. Ponadto sekwencje daleko spokrewnionych białek o tożsamości niższej niż 20% mogą prezentować różne fałdy.
Modelowanie de novo
W bioinformatyce strukturalnej modelowanie de novo , znane również jako modelowanie ab initio , odnosi się do podejść do uzyskiwania trójwymiarowych struktur z sekwencji bez konieczności homologicznej znanej struktury 3D. Pomimo nowych algorytmów i metod zaproponowanych w ostatnich latach przewidywanie struktury białek de novo jest nadal uważane za jedno z nierozstrzygniętych zagadnień współczesnej nauki.
Walidacja struktury
Po modelowaniu struktury konieczny jest dodatkowy etap walidacji struktury, ponieważ wiele algorytmów i narzędzi do modelowania zarówno porównawczego, jak i „de novo” wykorzystuje heurystykę do próby złożenia struktury 3D, co może generować wiele błędów. Niektóre strategie walidacji polegają na obliczaniu wyników energetycznych i porównywaniu ich ze strukturami określonymi eksperymentalnie. Na przykład wynik DOPE to wynik energetyczny używany przez narzędzie MODELLER do określania najlepszego modelu.
Inną strategią walidacji jest obliczenie kątów dwuściennych szkieletu φ i ψ wszystkich reszt i skonstruowanie wykresu Ramachandrana . Łańcuch boczny aminokwasów i charakter interakcji w szkielecie ograniczają te dwa kąty, a zatem wizualizację dozwolonych konformacji można przeprowadzić na podstawie wykresu Ramachandrana . Duża ilość aminokwasów przydzielonych w niedozwolonych pozycjach na wykresie wskazuje na niską jakość modelowania.
Narzędzia prognozowania
Lista powszechnie używanych narzędzi programowych do przewidywania struktury białek , w tym modelowania porównawczego , gwintowania białek , przewidywania struktury białek de novo i przewidywania struktury drugorzędowej, jest dostępna na liście oprogramowania do przewidywania struktury białek .
Dokowanie molekularne
Dokowanie molekularne (nazywane również tylko dokowaniem) to metoda stosowana do przewidywania współrzędnych orientacji cząsteczki ( ligandu ) po związaniu z inną (receptorem lub celem). Wiązanie może zachodzić głównie poprzez interakcje niekowalencyjne, podczas gdy można również badać wiązanie związane kowalencyjnie. Dokowanie molekularne ma na celu przewidywanie możliwych pozycji (trybów wiązania) liganda, gdy oddziałuje on z określonymi regionami receptora. Narzędzia dokujące wykorzystują pola siłowe do oszacowania wyniku rankingu najlepszych pozycji, które faworyzują lepsze interakcje między dwiema cząsteczkami.
Ogólnie rzecz biorąc, protokoły dokowania są używane do przewidywania interakcji między małymi cząsteczkami a białkami. Jednak dokowanie można również wykorzystać do wykrywania asocjacji i trybów wiązania między białkami , peptydami , cząsteczkami DNA lub RNA , węglowodanami i innymi makrocząsteczkami .
Wirtualny pokaz
Wirtualne przeszukiwanie (VS) to podejście obliczeniowe stosowane do szybkiego przeszukiwania dużych bibliotek związków w celu odkrywania leków . Zwykle wirtualne badania przesiewowe wykorzystują algorytmy dokowania do uszeregowania małych cząsteczek o najwyższym powinowactwie do docelowego receptora.
W ostatnim czasie wykorzystano kilka narzędzi do oceny wykorzystania wirtualnych skriningów w procesie odkrywania nowych leków. Jednak problemy, takie jak brakujące informacje, niedokładne zrozumienie właściwości molekularnych leków, słabe funkcje punktacji lub niewystarczające strategie dokowania utrudniają proces dokowania. Stąd w literaturze opisano, że nadal nie jest uważana za dojrzałą technologię.
Dynamika molekularna
Dynamika molekularna (MD) to metoda obliczeniowa służąca do symulacji interakcji między cząsteczkami i ich atomami w zadanym okresie czasu. Metoda ta pozwala na obserwację zachowania cząsteczek i ich interakcji, biorąc pod uwagę system jako całość. Aby obliczyć zachowanie układów, a tym samym określić trajektorie, lekarz medycyny może wykorzystać równanie ruchu Newtona , oprócz zastosowania metod mechaniki molekularnej do oszacowania sił występujących między cząstkami ( pola sił ).
Aplikacje
informatyczne stosowane w bioinformatyce strukturalnej to:
- Wybór celu — potencjalne cele są identyfikowane poprzez porównanie ich z bazami danych o znanych strukturach i sekwencjach. Wagę celu można określić na podstawie opublikowanej literatury. Cel można również wybrać na podstawie jego domeny białkowej . Domeny białkowe to elementy budulcowe, które można przestawiać, tworząc nowe białka. Można je początkowo badać w izolacji.
- Śledzenie prób krystalografii rentgenowskiej - Krystalografia rentgenowska może być wykorzystana do ujawnienia trójwymiarowej struktury białka. Ale aby wykorzystać promieniowanie rentgenowskie do badania kryształów białek, muszą powstać kryształy czystych białek, co może wymagać wielu prób. Prowadzi to do konieczności śledzenia warunków i wyników prób. Co więcej, nadzorowane algorytmy uczenia maszynowego mogą być wykorzystywane na przechowywanych danych w celu identyfikacji warunków, które mogą zwiększyć wydajność czystych kryształów.
- Analiza danych krystalograficznych promieniowania rentgenowskiego - Obraz dyfrakcyjny otrzymany w wyniku bombardowania elektronów promieniami rentgenowskimi to transformata Fouriera rozkładu gęstości elektronowej. Istnieje zapotrzebowanie na algorytmy, które mogą dekonwoluować transformatę Fouriera z częściowymi informacjami (ze względu na brak informacji o fazie, ponieważ detektory mogą mierzyć tylko amplitudę ugiętych promieni rentgenowskich, a nie przesunięcia fazowe). Technika ekstrapolacji, taka jak anomalna dyspersja wielu długości fal, może być wykorzystana do wygenerowania mapy gęstości elektronowej, która wykorzystuje położenie atomów selenu jako odniesienie do określenia reszty struktury. Standard Model kulki i kija jest generowany na podstawie mapy gęstości elektronowej.
- Analiza danych spektroskopii NMR — eksperymenty spektroskopii magnetycznego rezonansu jądrowego dają dane dwuwymiarowe (lub wyższe), przy czym każdy pik odpowiada grupie chemicznej w próbce. Metody optymalizacyjne służą do przekształcania widm w struktury trójwymiarowe.
- Korelowanie informacji strukturalnych z informacjami funkcjonalnymi - Badania strukturalne mogą być wykorzystywane jako sonda do badania zależności strukturalno-funkcjonalnych.
Narzędzia
Oprogramowanie | Opis |
---|---|
I-TASSER | Przewidywanie trójwymiarowego modelu struktury cząsteczek białka na podstawie sekwencji aminokwasów. |
MOE | Molecular Operating Environment (MOE) to rozbudowana platforma obejmująca modelowanie strukturalne białek, rodzin białek i przeciwciał |
SBL | Biblioteka bioinformatyki strukturalnej: aplikacje dla użytkowników końcowych i zaawansowane algorytmy |
PIŁKA Zobacz | Modelowanie i wizualizacja molekularna |
ŻĄDŁO | Wizualizacja i analiza |
PyMOL | Widz i modelowanie |
VMD | Widz, dynamika molekularna |
Król | Przeglądarka kinemage Java typu open source |
KROK | Wyznaczanie struktury drugorzędowej ze współrzędnych |
DSSP | Algorytm przypisujący strukturę drugorzędową aminokwasom białka |
MolProbity | Serwer WWW do sprawdzania poprawności struktury |
PROSPRAWDZ | Usługa internetowa do sprawdzania poprawności struktury |
CheShift | Aplikacja on-line do walidacji struktury białek |
3D-mol.js | Molekularna przeglądarka aplikacji internetowych stworzona przy użyciu Javascript |
PROPKA | Szybkie przewidywanie wartości pKa białek w oparciu o empiryczne zależności struktura/funkcja |
CARA | Zadanie rezonansu wspomaganego komputerowo |
Serwer dokujący | Molekularny serwer sieciowy dokujący |
StarBiochem | Przeglądarka białek Java, oferuje bezpośrednie przeszukiwanie bazy danych białek |
ŁOPATA | Środowisko programistyczne aplikacji proteomiki strukturalnej |
PocketSuite | Portal internetowy dla różnych serwerów WWW do wiązania analizy na poziomie witryny. PocketSuite jest podzielony na:: PocketDepth (przewidywanie strony wiążącej) PocketMatch (porównanie miejsca wiązania), PocketAlign (wyrównanie miejsca wiązania) i PocketAnnotate (adnotacja miejsca wiązania). |
MSL | Biblioteka oprogramowania C++ do modelowania molekularnego o otwartym kodzie źródłowym do wdrażania metod analizy strukturalnej, przewidywania i projektowania |
PSSpred | Przewidywanie struktury drugorzędowej białek |
Odmieniec | Narzędzie internetowe do sugerowania par mutacji |
SDM | Serwer do przewidywania wpływu mutacji na stabilność białek |
Zobacz też
Dalsza lektura
- Bourne PE, Gu J (2009). Bioinformatyka strukturalna (wyd. 2). Nowy Jork: John Wiley & Sons. ISBN 978-0-470-18105-8 .
- Bourne PE, Weissig H (2003). Bioinformatyka strukturalna . Wileya. ISBN 0-471-20199-5 .
- Leach A (2001). Modelowanie molekularne: zasady i zastosowania (wyd. 2). Sala Prentice'a. ISBN 978-0-582-38210-7 .
- Peitsch MC, Schwede T (2008). Obliczeniowa biologia strukturalna: metody i zastosowania . Świat naukowy. ISBN 978-9812778772 .
- Leontis NB, Westhof E (kwiecień 2001). „Nomenklatura geometryczna i klasyfikacja par zasad RNA” . RNA . 7 (4): 499–512. doi : 10.1017/S1355838201002515 . PMC 1370104 . PMID 11345429 .
- Richardson JS (1981). „Anatomia i taksonomia struktury białek”. Postępy w chemii białek, tom 34 . Postępy w chemii białek . Tom. 34. s. 167–339. doi : 10.1016/S0065-3233(08)60520-3 . ISBN 978-0-12-034234-1 . PMID 7020376 .
- Ramachandran GN , Sasisekharan V (1968). „Konformacja polipeptydów i białek”. Postępy w chemii białek, tom 23 . Postępy w chemii białek . Tom. 23. s. 283–438. doi : 10.1016/S0065-3233(08)60402-7 . ISBN 978-0-12-034223-5 . PMID 4882249 .
- Ramachandran GN, Ramakrishnan C, Sasisekharan V (lipiec 1963). „Stereochemia konfiguracji łańcuchów polipeptydowych”. Dziennik biologii molekularnej . 7 : 95–9. doi : 10.1016/S0022-2836(63)80023-6 . PMID 13990617 .