miejsce wiązania DNA
Miejsca wiązania DNA to rodzaj miejsc wiązania występujących w DNA , w których mogą wiązać się inne cząsteczki. Miejsca wiązania DNA różnią się od innych miejsc wiązania tym, że (1) są częścią sekwencji DNA (np. genomu) i (2) są związane przez białka wiążące DNA . Miejsca wiążące DNA są często związane z wyspecjalizowanymi białkami zwanymi czynnikami transkrypcyjnymi , a zatem są powiązane z regulacją transkrypcji . Suma miejsc wiązania DNA określonego czynnika transkrypcyjnego jest nazywana jego cistromem . Miejsca wiązania DNA obejmują również cele innych białek, takich jak enzymy restrykcyjne , rekombinazy specyficzne dla miejsca (patrz rekombinacja specyficzna dla miejsca ) i metylotransferazy .
Miejsca wiązania DNA można zatem zdefiniować jako krótkie sekwencje DNA (zwykle o długości od 4 do 30 par zasad, ale do 200 pz w przypadku miejsc rekombinacji), które są specyficznie związane przez jedno lub więcej białek wiążących DNA lub kompleksów białkowych. Donoszono, że niektóre miejsca wiążące mogą podlegać szybkim zmianom ewolucyjnym.
Rodzaje miejsc wiążących DNA
Miejsca wiązania DNA można podzielić na kategorie według ich funkcji biologicznej. W ten sposób możemy rozróżnić miejsca wiązania czynnika transkrypcyjnego, miejsca restrykcyjne i miejsca rekombinacji. Niektórzy autorzy zaproponowali, aby miejsca wiązania można było również sklasyfikować zgodnie z ich najwygodniejszym sposobem reprezentacji. Z jednej strony, miejsca restrykcyjne mogą być ogólnie reprezentowane przez sekwencje konsensusowe. Dzieje się tak dlatego, że celują one w większości w identyczne sekwencje, a skuteczność restrykcji gwałtownie spada w przypadku mniej podobnych sekwencji. Z drugiej strony, miejsca wiązania DNA dla danego czynnika transkrypcyjnego są zwykle różne, z różnym stopniem powinowactwa czynnika transkrypcyjnego do różnych miejsc wiązania. Utrudnia to dokładne przedstawienie miejsc wiązania czynnika transkrypcyjnego przy użyciu sekwencji konsensusowych i zazwyczaj są one reprezentowane za pomocą macierzy częstotliwości specyficznych dla pozycji (PSFM), które często są przedstawiane graficznie za pomocą logo sekwencji . Argument ten jest jednak częściowo arbitralny. Enzymy restrykcyjne, takie jak czynniki transkrypcyjne, dają stopniowy, choć ostry zakres powinowactwa do różnych miejsc, a zatem są również najlepiej reprezentowane przez PSFM. Podobnie rekombinazy specyficzne dla miejsca wykazują również zróżnicowany zakres powinowactwa do różnych miejsc docelowych.
Historia i główne techniki eksperymentalne
Istnienie czegoś podobnego do miejsc wiążących DNA podejrzewano na podstawie eksperymentów dotyczących biologii bakteriofaga lambda i regulacji operonu Escherichia coli lac . Miejsca wiązania DNA zostały ostatecznie potwierdzone w obu systemach wraz z pojawieniem się sekwencjonowania DNA . Od tego czasu miejsca wiązania DNA dla wielu czynników transkrypcyjnych, enzymów restrykcyjnych i rekombinaz specyficznych dla miejsca zostały odkryte przy użyciu wielu metod eksperymentalnych. Historycznie, preferowanymi technikami eksperymentalnymi do odkrywania i analizowania miejsc wiązania DNA były test śladu DNAzy i test przesunięcia ruchliwości elektroforetycznej (EMSA). Jednak rozwój mikromacierzy DNA i technik szybkiego sekwencjonowania doprowadził do powstania nowych, masowo równoległych metod identyfikacji miejsc wiązania in vivo, takich jak ChIP-chip i ChIP-Seq . Aby określić ilościowo powinowactwo wiązania białek i innych cząsteczek do określonych miejsc wiązania DNA , stosuje się biofizyczną metodę termoforezy w skali mikro .
Bazy danych
Ze względu na zróżnicowany charakter technik eksperymentalnych stosowanych do określania miejsc wiązania oraz niejednolity zasięg większości organizmów i czynników transkrypcyjnych, nie ma centralnej bazy danych (podobnej do GenBank w National Center for Biotechnology Information) dla miejsc wiązania DNA. Chociaż NCBI rozważa adnotację miejsca wiązania DNA w swoich sekwencjach referencyjnych ( RefSeq ), większość zgłoszeń pomija tę informację. Ponadto, ze względu na ograniczony sukces bioinformatyki w tworzeniu skutecznych narzędzi do przewidywania miejsca wiązania DNA (duże fałszywie dodatnich wyników są często związane z odkrywaniem motywów in silico / metodami przeszukiwania miejsc), nie podjęto systematycznych wysiłków w celu obliczeniowego opisywania tych cech w zsekwencjonowanych genomy.
Istnieje jednak kilka prywatnych i publicznych baz danych poświęconych kompilacji zgłoszonych eksperymentalnie, a czasem przewidywanych komputerowo miejsc wiązania różnych czynników transkrypcyjnych w różnych organizmach. Poniżej znajduje się niewyczerpująca tabela dostępnych baz danych:
Nazwa | Organizmy | Źródło | Dostęp | Adres URL |
---|---|---|---|---|
PlantRegMap | 165 gatunków roślin (np. Arabidopsis thaliana, Oryza sativa, Zea mays itp.) | Ekspercka kuracja i projekcja | Publiczny | [1] |
JASPAR | Kręgowce, rośliny, grzyby, muchy i robaki | Opieka ekspertów przy wsparciu literatury | Publiczny | [2] |
CIS-BP | Wszystkie eukarionty | Eksperymentalne motywy i przewidywania | Publiczny | [3] |
Zbierz TF | Prokarionty | Kuratorstwo literatury | Publiczny | [4] |
RegPrecise | Prokarionty | Kuracja ekspercka | Publiczny | [5] |
RegTransBase | Prokarionty | Ekspert / kurator literatury | Publiczny | [6] |
RegulonDB | Escherichia coli | Kuracja ekspercka | Publiczny | [7] |
PRODORYK | Prokarionty | Kuracja ekspercka | Publiczny | [8] |
TRANSFAC | Ssaki | Ekspert / kurator literatury | Publiczny prywatny | [9] |
TRED | Człowiek, mysz, szczur | Prognozy komputerowe, ręczna kuracja | Publiczny | [10] |
DBSD | gatunek Drosophila | Literatura/opieka ekspertów | Publiczny | [11] |
HOKOMOKO | człowiek, mysz | Literatura/opieka ekspertów | Publiczny | [12] , [13] |
MethMotyw | człowiek, mysz | Kuracja ekspercka | Publiczny | [14] |
Reprezentacja miejsc wiążących DNA
Zbiór miejsc wiążących DNA, zazwyczaj określany jako motyw wiążący DNA, może być reprezentowany przez sekwencję konsensusową . Ta reprezentacja ma tę zaletę, że jest zwięzła, ale kosztem pominięcia znacznej ilości informacji. Dokładniejszym sposobem przedstawiania miejsc wiązania są macierze częstotliwości specyficzne dla pozycji (PSFM). Te macierze dostarczają informacji o częstości występowania każdej zasady w każdej pozycji motywu wiążącego DNA. PSFM są zwykle tworzone z niejawnym założeniem niezależności pozycyjnej (różne pozycje w miejscu wiązania DNA przyczyniają się niezależnie do funkcji miejsca), chociaż założenie to zostało zakwestionowane w przypadku niektórych miejsc wiązania DNA. Informacje o częstotliwości w PSFM mogą być formalnie interpretowane w ramach Teorii Informacji , co prowadzi do ich graficznej reprezentacji jako logo sekwencji .
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | |
A | 1 | 0 | 1 | 5 | 32 | 5 | 35 | 23 | 34 | 14 | 43 | 13 | 34 | 4 | 52 | 3 |
C | 50 | 1 | 0 | 1 | 5 | 6 | 0 | 4 | 4 | 13 | 3 | 8 | 17 | 51 | 2 | 0 |
G | 0 | 0 | 54 | 15 | 5 | 5 | 12 | 2 | 7 | 1 | 1 | 3 | 1 | 0 | 1 | 52 |
T | 5 | 55 | 1 | 35 | 14 | 40 | 9 | 27 | 11 | 28 | 9 | 32 | 4 | 1 | 1 | 1 |
Suma | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 | 56 |
PSFM dla represora transkrypcji LexA pochodzącego z 56 miejsc wiążących LexA przechowywanych w Prodoric. Częstotliwości względne uzyskuje się, dzieląc zliczenia w każdej komórce przez całkowitą liczbę (56)
Wyszukiwanie obliczeniowe i wykrywanie miejsc wiążących
W bioinformatyce można rozróżnić dwa odrębne problemy dotyczące miejsc wiążących DNA: poszukiwanie dodatkowych członków znanego motywu wiążącego DNA (problem przeszukiwania miejsca) i odkrywanie nowych motywów wiążących DNA w zbiorach funkcjonalnie powiązanych sekwencji (problem odkrywania motywu sekwencji ) . Zaproponowano wiele różnych metod wyszukiwania miejsc wiązania. Większość z nich opiera się na zasadach teorii informacji i ma dostępne serwery WWW (Yellaboina)(Munch), podczas gdy inni autorzy uciekają się do uczenia maszynowego , takich jak sztuczne sieci neuronowe . Dostępnych jest również mnóstwo algorytmów do motywów sekwencji . Metody te opierają się na hipotezie, że zestaw sekwencji ma wspólny motyw wiążący ze względów funkcjonalnych. Metody odkrywania motywów wiążących można z grubsza podzielić na enumeratywne, deterministyczne i stochastyczne. MEME i Consensus są klasycznymi przykładami optymalizacji deterministycznej, podczas gdy próbnik Gibbsa jest konwencjonalną implementacją czysto stochastycznej metody odkrywania motywu wiążącego DNA. Innym przykładem tej klasy metod jest SeSiMCMC, która koncentruje się na słabych miejscach TFBS z symetrią. Podczas gdy metody wyliczeniowe często odwołują się do w wyrażeniach regularnych , PSFM i ich formalne traktowanie w ramach metod teorii informacji jest reprezentacją z wyboru zarówno dla metod deterministycznych, jak i stochastycznych. Metody hybrydowe, np. ChIPMunk, łączące zachłanną optymalizację z podpróbkowaniem, również wykorzystują PSFM. Niedawne postępy w sekwencjonowaniu doprowadziły do wprowadzenia genomiki porównawczej do odkrywania motywów wiążących DNA, czego przykładem jest PhyloGibbs.
Bardziej złożone metody wyszukiwania miejsc wiązania i odkrywania motywów opierają się na układaniu zasad w stosy i innych interakcjach między zasadami DNA, ale ze względu na małe rozmiary próbek typowo dostępnych dla miejsc wiązania w DNA, ich skuteczność wciąż nie jest w pełni wykorzystana. Przykładem takiego narzędzia jest ULPB
Zobacz też
Linki zewnętrzne
- ENCODE threads Explorer Motywy czynników transkrypcyjnych w Naturze
- Ręcznie wyselekcjonowane motywy wiążące TF dla 157 gatunków roślin