miejsce wiązania DNA

Kontakty DNA różnych typów domen wiążących DNA

Miejsca wiązania DNA to rodzaj miejsc wiązania występujących w DNA , w których mogą wiązać się inne cząsteczki. Miejsca wiązania DNA różnią się od innych miejsc wiązania tym, że (1) są częścią sekwencji DNA (np. genomu) i (2) są związane przez białka wiążące DNA . Miejsca wiążące DNA są często związane z wyspecjalizowanymi białkami zwanymi czynnikami transkrypcyjnymi , a zatem są powiązane z regulacją transkrypcji . Suma miejsc wiązania DNA określonego czynnika transkrypcyjnego jest nazywana jego cistromem . Miejsca wiązania DNA obejmują również cele innych białek, takich jak enzymy restrykcyjne , rekombinazy specyficzne dla miejsca (patrz rekombinacja specyficzna dla miejsca ) i metylotransferazy .

Miejsca wiązania DNA można zatem zdefiniować jako krótkie sekwencje DNA (zwykle o długości od 4 do 30 par zasad, ale do 200 pz w przypadku miejsc rekombinacji), które są specyficznie związane przez jedno lub więcej białek wiążących DNA lub kompleksów białkowych. Donoszono, że niektóre miejsca wiążące mogą podlegać szybkim zmianom ewolucyjnym.

Rodzaje miejsc wiążących DNA

Miejsca wiązania DNA można podzielić na kategorie według ich funkcji biologicznej. W ten sposób możemy rozróżnić miejsca wiązania czynnika transkrypcyjnego, miejsca restrykcyjne i miejsca rekombinacji. Niektórzy autorzy zaproponowali, aby miejsca wiązania można było również sklasyfikować zgodnie z ich najwygodniejszym sposobem reprezentacji. Z jednej strony, miejsca restrykcyjne mogą być ogólnie reprezentowane przez sekwencje konsensusowe. Dzieje się tak dlatego, że celują one w większości w identyczne sekwencje, a skuteczność restrykcji gwałtownie spada w przypadku mniej podobnych sekwencji. Z drugiej strony, miejsca wiązania DNA dla danego czynnika transkrypcyjnego są zwykle różne, z różnym stopniem powinowactwa czynnika transkrypcyjnego do różnych miejsc wiązania. Utrudnia to dokładne przedstawienie miejsc wiązania czynnika transkrypcyjnego przy użyciu sekwencji konsensusowych i zazwyczaj są one reprezentowane za pomocą macierzy częstotliwości specyficznych dla pozycji (PSFM), które często są przedstawiane graficznie za pomocą logo sekwencji . Argument ten jest jednak częściowo arbitralny. Enzymy restrykcyjne, takie jak czynniki transkrypcyjne, dają stopniowy, choć ostry zakres powinowactwa do różnych miejsc, a zatem są również najlepiej reprezentowane przez PSFM. Podobnie rekombinazy specyficzne dla miejsca wykazują również zróżnicowany zakres powinowactwa do różnych miejsc docelowych.

Historia i główne techniki eksperymentalne

Istnienie czegoś podobnego do miejsc wiążących DNA podejrzewano na podstawie eksperymentów dotyczących biologii bakteriofaga lambda i regulacji operonu Escherichia coli lac . Miejsca wiązania DNA zostały ostatecznie potwierdzone w obu systemach wraz z pojawieniem się sekwencjonowania DNA . Od tego czasu miejsca wiązania DNA dla wielu czynników transkrypcyjnych, enzymów restrykcyjnych i rekombinaz specyficznych dla miejsca zostały odkryte przy użyciu wielu metod eksperymentalnych. Historycznie, preferowanymi technikami eksperymentalnymi do odkrywania i analizowania miejsc wiązania DNA były test śladu DNAzy i test przesunięcia ruchliwości elektroforetycznej (EMSA). Jednak rozwój mikromacierzy DNA i technik szybkiego sekwencjonowania doprowadził do powstania nowych, masowo równoległych metod identyfikacji miejsc wiązania in vivo, takich jak ChIP-chip i ChIP-Seq . Aby określić ilościowo powinowactwo wiązania białek i innych cząsteczek do określonych miejsc wiązania DNA , stosuje się biofizyczną metodę termoforezy w skali mikro .

Bazy danych

Ze względu na zróżnicowany charakter technik eksperymentalnych stosowanych do określania miejsc wiązania oraz niejednolity zasięg większości organizmów i czynników transkrypcyjnych, nie ma centralnej bazy danych (podobnej do GenBank w National Center for Biotechnology Information) dla miejsc wiązania DNA. Chociaż NCBI rozważa adnotację miejsca wiązania DNA w swoich sekwencjach referencyjnych ( RefSeq ), większość zgłoszeń pomija tę informację. Ponadto, ze względu na ograniczony sukces bioinformatyki w tworzeniu skutecznych narzędzi do przewidywania miejsca wiązania DNA (duże fałszywie dodatnich wyników są często związane z odkrywaniem motywów in silico / metodami przeszukiwania miejsc), nie podjęto systematycznych wysiłków w celu obliczeniowego opisywania tych cech w zsekwencjonowanych genomy.

Istnieje jednak kilka prywatnych i publicznych baz danych poświęconych kompilacji zgłoszonych eksperymentalnie, a czasem przewidywanych komputerowo miejsc wiązania różnych czynników transkrypcyjnych w różnych organizmach. Poniżej znajduje się niewyczerpująca tabela dostępnych baz danych:

Nazwa Organizmy Źródło Dostęp Adres URL
PlantRegMap 165 gatunków roślin (np. Arabidopsis thaliana, Oryza sativa, Zea mays itp.) Ekspercka kuracja i projekcja Publiczny [1]
JASPAR Kręgowce, rośliny, grzyby, muchy i robaki Opieka ekspertów przy wsparciu literatury Publiczny [2]
CIS-BP Wszystkie eukarionty Eksperymentalne motywy i przewidywania Publiczny [3]
Zbierz TF Prokarionty Kuratorstwo literatury Publiczny [4]
RegPrecise Prokarionty Kuracja ekspercka Publiczny [5]
RegTransBase Prokarionty Ekspert / kurator literatury Publiczny [6]
RegulonDB Escherichia coli Kuracja ekspercka Publiczny [7]
PRODORYK Prokarionty Kuracja ekspercka Publiczny [8]
TRANSFAC Ssaki Ekspert / kurator literatury Publiczny prywatny [9]
TRED Człowiek, mysz, szczur Prognozy komputerowe, ręczna kuracja Publiczny [10]
DBSD gatunek Drosophila Literatura/opieka ekspertów Publiczny [11]
HOKOMOKO człowiek, mysz Literatura/opieka ekspertów Publiczny [12] , [13]
MethMotyw człowiek, mysz Kuracja ekspercka Publiczny [14]

Reprezentacja miejsc wiążących DNA

Zbiór miejsc wiążących DNA, zazwyczaj określany jako motyw wiążący DNA, może być reprezentowany przez sekwencję konsensusową . Ta reprezentacja ma tę zaletę, że jest zwięzła, ale kosztem pominięcia znacznej ilości informacji. Dokładniejszym sposobem przedstawiania miejsc wiązania są macierze częstotliwości specyficzne dla pozycji (PSFM). Te macierze dostarczają informacji o częstości występowania każdej zasady w każdej pozycji motywu wiążącego DNA. PSFM są zwykle tworzone z niejawnym założeniem niezależności pozycyjnej (różne pozycje w miejscu wiązania DNA przyczyniają się niezależnie do funkcji miejsca), chociaż założenie to zostało zakwestionowane w przypadku niektórych miejsc wiązania DNA. Informacje o częstotliwości w PSFM mogą być formalnie interpretowane w ramach Teorii Informacji , co prowadzi do ich graficznej reprezentacji jako logo sekwencji .

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A 1 0 1 5 32 5 35 23 34 14 43 13 34 4 52 3
C 50 1 0 1 5 6 0 4 4 13 3 8 17 51 2 0
G 0 0 54 15 5 5 12 2 7 1 1 3 1 0 1 52
T 5 55 1 35 14 40 9 27 11 28 9 32 4 1 1 1
Suma 56 56 56 56 56 56 56 56 56 56 56 56 56 56 56 56

PSFM dla represora transkrypcji LexA pochodzącego z 56 miejsc wiążących LexA przechowywanych w Prodoric. Częstotliwości względne uzyskuje się, dzieląc zliczenia w każdej komórce przez całkowitą liczbę (56)

Wyszukiwanie obliczeniowe i wykrywanie miejsc wiążących

W bioinformatyce można rozróżnić dwa odrębne problemy dotyczące miejsc wiążących DNA: poszukiwanie dodatkowych członków znanego motywu wiążącego DNA (problem przeszukiwania miejsca) i odkrywanie nowych motywów wiążących DNA w zbiorach funkcjonalnie powiązanych sekwencji (problem odkrywania motywu sekwencji ) . Zaproponowano wiele różnych metod wyszukiwania miejsc wiązania. Większość z nich opiera się na zasadach teorii informacji i ma dostępne serwery WWW (Yellaboina)(Munch), podczas gdy inni autorzy uciekają się do uczenia maszynowego , takich jak sztuczne sieci neuronowe . Dostępnych jest również mnóstwo algorytmów do motywów sekwencji . Metody te opierają się na hipotezie, że zestaw sekwencji ma wspólny motyw wiążący ze względów funkcjonalnych. Metody odkrywania motywów wiążących można z grubsza podzielić na enumeratywne, deterministyczne i stochastyczne. MEME i Consensus są klasycznymi przykładami optymalizacji deterministycznej, podczas gdy próbnik Gibbsa jest konwencjonalną implementacją czysto stochastycznej metody odkrywania motywu wiążącego DNA. Innym przykładem tej klasy metod jest SeSiMCMC, która koncentruje się na słabych miejscach TFBS z symetrią. Podczas gdy metody wyliczeniowe często odwołują się do w wyrażeniach regularnych , PSFM i ich formalne traktowanie w ramach metod teorii informacji jest reprezentacją z wyboru zarówno dla metod deterministycznych, jak i stochastycznych. Metody hybrydowe, np. ChIPMunk, łączące zachłanną optymalizację z podpróbkowaniem, również wykorzystują PSFM. Niedawne postępy w sekwencjonowaniu doprowadziły do ​​​​wprowadzenia genomiki porównawczej do odkrywania motywów wiążących DNA, czego przykładem jest PhyloGibbs.

Bardziej złożone metody wyszukiwania miejsc wiązania i odkrywania motywów opierają się na układaniu zasad w stosy i innych interakcjach między zasadami DNA, ale ze względu na małe rozmiary próbek typowo dostępnych dla miejsc wiązania w DNA, ich skuteczność wciąż nie jest w pełni wykorzystana. Przykładem takiego narzędzia jest ULPB

Zobacz też

Linki zewnętrzne