Bioinformatyka strukturalna

Trójwymiarowa struktura białka

Bioinformatyka strukturalna to dział bioinformatyki związany z analizą i przewidywaniem trójwymiarowej struktury makrocząsteczek biologicznych , takich jak białka , RNA i DNA . Zajmuje się uogólnieniami dotyczącymi makrocząsteczkowych struktur 3D, takimi jak porównania ogólnych fałd i lokalnych motywów, zasad fałdowania molekularnego, ewolucji, interakcji wiązań i relacji struktura / funkcja, pracując zarówno na podstawie eksperymentalnie rozwiązanych struktur, jak i modeli obliczeniowych. Termin strukturalny ma takie samo znaczenie jak w biologii strukturalnej , a bioinformatykę strukturalną można postrzegać jako część obliczeniowej biologii strukturalnej. Głównym celem bioinformatyki strukturalnej jest tworzenie nowych metod analizy i manipulacji biologicznymi danymi makrocząsteczkowymi w celu rozwiązywania problemów w biologii i generowania nowej wiedzy.

Wstęp

Struktura białka

Struktura białka jest bezpośrednio związana z jego funkcją. Obecność pewnych grup chemicznych w określonych miejscach pozwala białkom działać jak enzymy , katalizujące kilka reakcji chemicznych. Ogólnie struktury białek dzieli się na cztery poziomy: pierwszorzędowy (sekwencje), drugorzędowy (lokalna konformacja łańcucha polipeptydowego), trzeciorzędowy (trójwymiarowa struktura fałdu białkowego) i czwartorzędowy (połączenie wielu struktur polipeptydowych). Bioinformatyka strukturalna zajmuje się głównie interakcjami między strukturami, biorąc pod uwagę ich współrzędne przestrzenne. Zatem struktura pierwotna jest lepiej analizowana w tradycyjnych gałęziach bioinformatyki. Jednak sekwencja implikuje ograniczenia, które pozwalają na tworzenie konserwatywnych lokalnych konformacji łańcucha polipeptydowego, takich jak alfa-helisa , arkusze beta i pętle (struktura drugorzędowa). Również słabe oddziaływania (takie jak wiązania wodorowe ) stabilizują fałd białkowy. Interakcje mogą być wewnątrzłańcuchowe, tj. zachodzące między częściami tego samego monomeru białkowego (struktura trzeciorzędowa) lub międzyłańcuchowe, tj. zachodzące między różnymi strukturami (struktura czwartorzędowa).

Wizualizacja konstrukcji

Wizualizacja strukturalna BACTERIOPHAGE T4 LYSOZYME (PDB ID: 2LZM). (Kreskówka; (B) Linie; (C) Powierzchnia; (D) Kije.

Wizualizacja struktury białek jest ważnym zagadnieniem dla bioinformatyki strukturalnej. Pozwala użytkownikom obserwować statyczne lub dynamiczne reprezentacje cząsteczek, a także umożliwia wykrywanie interakcji, które można wykorzystać do wnioskowania o mechanizmach molekularnych. Najpopularniejsze typy wizualizacji to:

  • Rysunek : ten rodzaj wizualizacji białek podkreśla różnice w strukturze drugorzędowej. Ogólnie helisa α jest przedstawiana jako rodzaj śruby, nici β jako strzałki, a pętle jako linie.
  • Linie : każda reszta aminokwasowa jest reprezentowana przez cienkie linie, co pozwala na niski koszt renderowania grafiki.
  • Powierzchnia : na tej wizualizacji pokazany jest zewnętrzny kształt cząsteczki.
  • Pałeczki : każde wiązanie kowalencyjne między atomami aminokwasów jest reprezentowane jako pałeczka. Ten rodzaj wizualizacji jest najczęściej używany do wizualizacji interakcji między aminokwasami ...

Struktura DNA

Klasyczna struktura dupleksów DNA została początkowo opisana przez Watsona i Cricka (oraz wkład Rosalind Franklin ). Cząsteczka DNA składa się z trzech substancji: fosforanowej , pentozy i zasady azotowej ( adeniny , tyminy , cytozyny lub guaniny) ). Struktura podwójnej helisy DNA jest stabilizowana przez wiązania wodorowe utworzone pomiędzy parami zasad: adenina z tyminą (AT) i cytozyna z guaniną (CG). Wiele badań bioinformatyki strukturalnej koncentrowało się na zrozumieniu interakcji między DNA a małymi cząsteczkami, co było celem kilku badań nad projektowaniem leków.

Interakcje

Oddziaływania to kontakty nawiązywane między częściami cząsteczek na różnych poziomach. Odpowiadają za stabilizację struktur białkowych i pełnią różnorodne funkcje. W biochemii interakcje charakteryzują się bliskością grup atomów lub regionów cząsteczek, które wywierają na siebie wpływ, taki jak siły elektrostatyczne , wiązania wodorowe i efekt hydrofobowy . Białka mogą przeprowadzać kilka rodzajów interakcji, takich jak interakcje białko-białko (PPI) , interakcje białko-peptyd , interakcje białko-ligand (PLI) i interakcja białko-DNA.

Kontakty między dwiema resztami aminokwasowymi: Q196-R200 (PDB ID-2X1C)

Obliczanie kontaktów

Obliczanie kontaktów jest ważnym zadaniem w bioinformatyce strukturalnej, mającym znaczenie dla prawidłowego przewidywania struktury i fałdowania białek, stabilności termodynamicznej, interakcji białko-białko i białko-ligand, dokowania i analiz dynamiki molekularnej i tak dalej.

Tradycyjnie metody obliczeniowe wykorzystywały odległość progową między atomami (zwaną także odcięciem) do wykrywania możliwych interakcji. Detekcja ta dokonywana jest na podstawie odległości euklidesowej i kątów między atomami określonych typów. Jednak większość metod opartych na prostej odległości euklidesowej nie jest w stanie wykryć zatkanych kontaktów. Dlatego metody bez odcięcia, takie jak triangulacja Delaunaya , zyskały na znaczeniu w ostatnich latach. Ponadto w celu poprawy określania kontaktu zastosowano kombinację zestawu kryteriów, na przykład właściwości fizykochemicznych, odległości, geometrii i kątów.

Kryteria odległości dla definicji kontaktu
Typ Kryteria maksymalnej odległości
Wiązanie wodorowe 3,9 Ł
Oddziaływanie hydrofobowe 5 Å
Oddziaływanie jonowe 6 Å
Aromatyczne układanie 6 Å

Bank danych białek (PDB)

Liczba struktur z PDB. (A) Ogólny wzrost uwolnionych struktur w Protein DataBank rocznie. (B) Wzrost struktur osadzonych w PDB z krystalografii rentgenowskiej , spektroskopii NMR i eksperymentów z mikroskopem elektronowym 3D rocznie. Źródło: https://www.rcsb.org/stats/growth

Protein Data Bank (PDB) to baza danych zawierająca dane o strukturze 3D dużych cząsteczek biologicznych, takich jak białka , DNA i RNA . PDB jest zarządzany przez międzynarodową organizację o nazwie Worldwide Protein Data Bank ( wwPDB ), która składa się z kilku lokalnych organizacji, as. PDBe, PDBj, RCSB i BMRB. Są one odpowiedzialne za bezpłatne udostępnianie kopii danych WPB w Internecie. Liczba danych strukturalnych dostępnych w PDB zwiększała się każdego roku, uzyskiwanych zwykle za pomocą krystalografii rentgenowskiej , Spektroskopia NMR lub mikroskopia krioelektronowa .

Format danych

Format PDB (.pdb) jest starszym formatem plików tekstowych używanym do przechowywania informacji o trójwymiarowych strukturach makrocząsteczek używanych przez Protein Data Bank. Ze względu na ograniczenia w koncepcji struktury formatu, format PDB nie dopuszcza dużych struktur zawierających więcej niż 62 łańcuchy lub 99999 rekordów atomowych.

PDBx/ mmCIF (makromolekularny plik informacji krystalograficznych) to standardowy format pliku tekstowego do reprezentowania informacji krystalograficznych. Od 2014 roku format PDB został zastąpiony jako standardowa dystrybucja archiwów PDB przez format pliku PDBx/mmCIF (.cif). Podczas gdy format PDB zawiera zestaw rekordów identyfikowanych za pomocą słowa kluczowego składającego się z maksymalnie sześciu znaków, format PDBx/mmCIF wykorzystuje strukturę opartą na kluczu i wartości, gdzie klucz to nazwa identyfikująca pewną cechę, a wartość to informacja o zmiennej.

Inne strukturalne bazy danych

Oprócz Protein Data Bank (PDB) istnieje kilka baz danych struktur białek i innych makrocząsteczek. Przykłady obejmują:

  • MMDB : Eksperymentalnie określone trójwymiarowe struktury biomolekuł pochodzące z Protein Data Bank (PDB).
  • Baza danych kwasów nukleinowych (NDB): Eksperymentalnie określone informacje o kwasach nukleinowych (DNA, RNA).
  • Klasyfikacja strukturalna białek (SCOP) : Obszerny opis strukturalnych i ewolucyjnych powiązań między strukturalnie znanymi białkami.
  • TOPOFIT-DB: Dopasowanie strukturalne białek w oparciu o metodę TOPOFIT.
  • Serwer gęstości elektronów (EDS): mapy gęstości elektronów i statystyki dotyczące dopasowania struktur krystalicznych i ich map.
  • CASP : Centrum Prognoz Ogólnoświatowy eksperyment przewidywania struktury białek CASP w całej społeczności .
  • Serwer PISCES do tworzenia nieredundantnych list białek: Generuje listę PDB według tożsamości sekwencji i strukturalnych kryteriów jakości.
  • Baza wiedzy z zakresu biologii strukturalnej: narzędzia wspomagające projektowanie badań nad białkami.
  • ProtCID : The Protein Common Interface Database Baza danych zawierająca podobne interfejsy białko-białko w strukturach krystalicznych białek homologicznych.
  • AlphaFold : AlphaFold - Baza danych struktur białek.

Porównanie struktury

Wyrównanie strukturalne

Wyrównanie strukturalne to metoda porównywania struktur 3D na podstawie ich kształtu i konformacji. Można go wykorzystać do wywnioskowania ewolucyjnego związku między zestawem białek, nawet przy niskim podobieństwie sekwencji. Dopasowanie strukturalne oznacza nałożenie struktury 3D na drugą, obracanie i przesuwanie atomów w odpowiednich pozycjach (ogólnie przy użyciu atomów Cα lub nawet atomów ciężkich szkieletu C , N , O i ). Zwykle jakość osiowania jest oceniana na podstawie odchylenie średniokwadratowe (RMSD) pozycji atomów, czyli średnia odległość między atomami po nałożeniu:

gdzie δ i jest odległością między atomem i a atomem odniesienia odpowiadającym innej strukturze lub średnią współrzędną N równoważnych atomów. Ogólnie wynik RMSD jest mierzony w Ångström (Å), co odpowiada 10-10 m . Im bliższa zeru wartość RMSD, tym bardziej podobne są struktury.

Podpisy strukturalne oparte na wykresach

Sygnatury strukturalne, zwane także odciskami palców, to reprezentacje wzorców makrocząsteczek , które można wykorzystać do wnioskowania o podobieństwach i różnicach. Porównania między dużym zestawem białek przy użyciu RMSD nadal stanowią wyzwanie ze względu na wysoki koszt obliczeniowy dopasowania strukturalnego. Sygnatury strukturalne oparte na wzorcach odległości grafów między parami atomów zostały wykorzystane do określenia wektorów identyfikujących białka i do wykrywania nietrywialnych informacji. Ponadto algebrę liniową i uczenie maszynowe można wykorzystać do grupowania sygnatur białek, wykrywania interakcji białko-ligand, przewidywania ΔΔG oraz proponowanie mutacji opartych na odległości euklidesowej .

Przewidywanie struktury

Wykres Ramachandrana wygenerowany z ludzkiego PCNA ( PDB ID 1AXC). Regiony czerwony, brązowy i żółty reprezentują regiony uprzywilejowane, dozwolone i „hojnie dozwolone”, zgodnie z definicją ProCheck. Ten wykres można wykorzystać do weryfikacji nieprawidłowo modelowanych aminokwasów.

Struktury atomowe cząsteczek można uzyskać kilkoma metodami, takimi jak krystalografia rentgenowska (XRC) , spektroskopia NMR i trójwymiarowa mikroskopia elektronowa ; jednakże procesy te mogą wiązać się z wysokimi kosztami, a czasami trudno jest ustalić niektóre struktury, takie jak białka błonowe . Stąd konieczne jest zastosowanie metod obliczeniowych do wyznaczania trójwymiarowych struktur makrocząsteczek. Metody przewidywania struktury dzielą się na modelowanie porównawcze i modelowanie de novo .

Modelowanie porównawcze

Modelowanie porównawcze , znane również jako modelowanie homologiczne, odpowiada metodologii konstruowania struktur trójwymiarowych z sekwencji aminokwasowej docelowego białka i matrycy o znanej strukturze. W literaturze opisano, że białka spokrewnione ewolucyjnie mają tendencję do prezentowania konserwatywnej struktury trójwymiarowej. Ponadto sekwencje daleko spokrewnionych białek o tożsamości niższej niż 20% mogą prezentować różne fałdy.

Modelowanie de novo

W bioinformatyce strukturalnej modelowanie de novo , znane również jako modelowanie ab initio , odnosi się do podejść do uzyskiwania trójwymiarowych struktur z sekwencji bez konieczności homologicznej znanej struktury 3D. Pomimo nowych algorytmów i metod zaproponowanych w ostatnich latach przewidywanie struktury białek de novo jest nadal uważane za jedno z nierozstrzygniętych zagadnień współczesnej nauki.

Walidacja struktury

Po modelowaniu struktury konieczny jest dodatkowy etap walidacji struktury, ponieważ wiele algorytmów i narzędzi do modelowania zarówno porównawczego, jak i „de novo” wykorzystuje heurystykę do próby złożenia struktury 3D, co może generować wiele błędów. Niektóre strategie walidacji polegają na obliczaniu wyników energetycznych i porównywaniu ich ze strukturami określonymi eksperymentalnie. Na przykład wynik DOPE to wynik energetyczny używany przez narzędzie MODELLER do określania najlepszego modelu.

Inną strategią walidacji jest obliczenie kątów dwuściennych szkieletu φ i ψ wszystkich reszt i skonstruowanie wykresu Ramachandrana . Łańcuch boczny aminokwasów i charakter interakcji w szkielecie ograniczają te dwa kąty, a zatem wizualizację dozwolonych konformacji można przeprowadzić na podstawie wykresu Ramachandrana . Duża ilość aminokwasów przydzielonych w niedozwolonych pozycjach na wykresie wskazuje na niską jakość modelowania.

Narzędzia prognozowania

Lista powszechnie używanych narzędzi programowych do przewidywania struktury białek , w tym modelowania porównawczego , gwintowania białek , przewidywania struktury białek de novo i przewidywania struktury drugorzędowej, jest dostępna na liście oprogramowania do przewidywania struktury białek .

Dokowanie molekularne

Reprezentacja dokowania ligandu (zielony) do docelowego białka (czarny).

Dokowanie molekularne (nazywane również tylko dokowaniem) to metoda stosowana do przewidywania współrzędnych orientacji cząsteczki ( ligandu ) po związaniu z inną (receptorem lub celem). Wiązanie może zachodzić głównie poprzez interakcje niekowalencyjne, podczas gdy można również badać wiązanie związane kowalencyjnie. Dokowanie molekularne ma na celu przewidywanie możliwych pozycji (trybów wiązania) liganda, gdy oddziałuje on z określonymi regionami receptora. Narzędzia dokujące wykorzystują pola siłowe do oszacowania wyniku rankingu najlepszych pozycji, które faworyzują lepsze interakcje między dwiema cząsteczkami.

Ogólnie rzecz biorąc, protokoły dokowania są używane do przewidywania interakcji między małymi cząsteczkami a białkami. Jednak dokowanie można również wykorzystać do wykrywania asocjacji i trybów wiązania między białkami , peptydami , cząsteczkami DNA lub RNA , węglowodanami i innymi makrocząsteczkami .

Wirtualny pokaz

Wirtualne przeszukiwanie (VS) to podejście obliczeniowe stosowane do szybkiego przeszukiwania dużych bibliotek związków w celu odkrywania leków . Zwykle wirtualne badania przesiewowe wykorzystują algorytmy dokowania do uszeregowania małych cząsteczek o najwyższym powinowactwie do docelowego receptora.

W ostatnim czasie wykorzystano kilka narzędzi do oceny wykorzystania wirtualnych skriningów w procesie odkrywania nowych leków. Jednak problemy, takie jak brakujące informacje, niedokładne zrozumienie właściwości molekularnych leków, słabe funkcje punktacji lub niewystarczające strategie dokowania utrudniają proces dokowania. Stąd w literaturze opisano, że nadal nie jest uważana za dojrzałą technologię.

Dynamika molekularna

Przykład: dynamika molekularna β-glukozydazy tolerującej glukozę

Dynamika molekularna (MD) to metoda obliczeniowa służąca do symulacji interakcji między cząsteczkami i ich atomami w zadanym okresie czasu. Metoda ta pozwala na obserwację zachowania cząsteczek i ich interakcji, biorąc pod uwagę system jako całość. Aby obliczyć zachowanie układów, a tym samym określić trajektorie, lekarz medycyny może wykorzystać równanie ruchu Newtona , oprócz zastosowania metod mechaniki molekularnej do oszacowania sił występujących między cząstkami ( pola sił ).

Aplikacje

informatyczne stosowane w bioinformatyce strukturalnej to:

  • Wybór celu — potencjalne cele są identyfikowane poprzez porównanie ich z bazami danych o znanych strukturach i sekwencjach. Wagę celu można określić na podstawie opublikowanej literatury. Cel można również wybrać na podstawie jego domeny białkowej . Domeny białkowe to elementy budulcowe, które można przestawiać, tworząc nowe białka. Można je początkowo badać w izolacji.
  • Śledzenie prób krystalografii rentgenowskiej - Krystalografia rentgenowska może być wykorzystana do ujawnienia trójwymiarowej struktury białka. Ale aby wykorzystać promieniowanie rentgenowskie do badania kryształów białek, muszą powstać kryształy czystych białek, co może wymagać wielu prób. Prowadzi to do konieczności śledzenia warunków i wyników prób. Co więcej, nadzorowane algorytmy uczenia maszynowego mogą być wykorzystywane na przechowywanych danych w celu identyfikacji warunków, które mogą zwiększyć wydajność czystych kryształów.
  • Analiza danych krystalograficznych promieniowania rentgenowskiego - Obraz dyfrakcyjny otrzymany w wyniku bombardowania elektronów promieniami rentgenowskimi to transformata Fouriera rozkładu gęstości elektronowej. Istnieje zapotrzebowanie na algorytmy, które mogą dekonwoluować transformatę Fouriera z częściowymi informacjami (ze względu na brak informacji o fazie, ponieważ detektory mogą mierzyć tylko amplitudę ugiętych promieni rentgenowskich, a nie przesunięcia fazowe). Technika ekstrapolacji, taka jak anomalna dyspersja wielu długości fal, może być wykorzystana do wygenerowania mapy gęstości elektronowej, która wykorzystuje położenie atomów selenu jako odniesienie do określenia reszty struktury. Standard Model kulki i kija jest generowany na podstawie mapy gęstości elektronowej.
  • Analiza danych spektroskopii NMR — eksperymenty spektroskopii magnetycznego rezonansu jądrowego dają dane dwuwymiarowe (lub wyższe), przy czym każdy pik odpowiada grupie chemicznej w próbce. Metody optymalizacyjne służą do przekształcania widm w struktury trójwymiarowe.
  • Korelowanie informacji strukturalnych z informacjami funkcjonalnymi - Badania strukturalne mogą być wykorzystywane jako sonda do badania zależności strukturalno-funkcjonalnych.

Narzędzia

Lista strukturalnych narzędzi bioinformatycznych
Oprogramowanie Opis
I-TASSER Przewidywanie trójwymiarowego modelu struktury cząsteczek białka na podstawie sekwencji aminokwasów.
MOE Molecular Operating Environment (MOE) to rozbudowana platforma obejmująca modelowanie strukturalne białek, rodzin białek i przeciwciał
SBL Biblioteka bioinformatyki strukturalnej: aplikacje dla użytkowników końcowych i zaawansowane algorytmy
PIŁKA Zobacz Modelowanie i wizualizacja molekularna
ŻĄDŁO Wizualizacja i analiza
PyMOL Widz i modelowanie
VMD Widz, dynamika molekularna
Król Przeglądarka kinemage Java typu open source
KROK Wyznaczanie struktury drugorzędowej ze współrzędnych
DSSP Algorytm przypisujący strukturę drugorzędową aminokwasom białka
MolProbity Serwer WWW do sprawdzania poprawności struktury
PROSPRAWDZ Usługa internetowa do sprawdzania poprawności struktury
CheShift Aplikacja on-line do walidacji struktury białek
3D-mol.js Molekularna przeglądarka aplikacji internetowych stworzona przy użyciu Javascript
PROPKA Szybkie przewidywanie wartości pKa białek w oparciu o empiryczne zależności struktura/funkcja
CARA Zadanie rezonansu wspomaganego komputerowo
Serwer dokujący Molekularny serwer sieciowy dokujący
StarBiochem Przeglądarka białek Java, oferuje bezpośrednie przeszukiwanie bazy danych białek
ŁOPATA Środowisko programistyczne aplikacji proteomiki strukturalnej
PocketSuite Portal internetowy dla różnych serwerów WWW do wiązania analizy na poziomie witryny. PocketSuite jest podzielony na:: PocketDepth (przewidywanie strony wiążącej)

PocketMatch (porównanie miejsca wiązania), PocketAlign (wyrównanie miejsca wiązania) i PocketAnnotate (adnotacja miejsca wiązania).

MSL Biblioteka oprogramowania C++ do modelowania molekularnego o otwartym kodzie źródłowym do wdrażania metod analizy strukturalnej, przewidywania i projektowania
PSSpred Przewidywanie struktury drugorzędowej białek
Odmieniec Narzędzie internetowe do sugerowania par mutacji
SDM Serwer do przewidywania wpływu mutacji na stabilność białek

Zobacz też

Dalsza lektura